
就在刚刚,腾讯版 Sora 补皆了又一遑急拼图——图生视频。
何况照旧正经的配方,和旧年 12 月发布的文生视频模子 HunyuanVideo 相通,发布即开源。

那么,这次上新的「图生视频」到底有多强呢?
有网友径直用它制作了一部电影:
不错看到,新功能在画质、物体一致性等方面有了很大提高。
当今该功能已上线腾讯混元 AI 视频,东说念主东说念主都可免费体验(有次数适度)。

话未几说,量子位一手实测走起 ~
实测腾讯混元「图生视频」
有一说一,图生视频这项功能本人在视频 AI 边界已不新奇,但难的是生成后果好。
而在诸位玩家狂卷生成后果的途中,一些老浩劫问题渐渐"出头",并成为历练和驱动视频 AI 进化的法宝。
是以,为了直不雅展示腾讯版 Sora 的「图生视频」才气,咱们径直从这些繁重出手。
繁重 1:是否合适履行物理功令
人所共知,从视频 AI 出身于今,生成合适履行物理功令的视频堪称行业繁重。
一不防备就多样动作满天飞,让东说念主直呼恐怖:

是以这第一关,咱们径直来个大招——让腾讯混元视频 AI 收复通顺员跳水。
何况为了整活儿,考取的原图就有"炸鱼"的倾向了 ( doge):
(右侧为 AI 生成的原图和请示词,考取 2K 视频)

最终后果 be like:
率先,为了保证画质,咱们一运转就有益选了「2K 视频」(默许为高品性),并给与更通用的混元图生 1.0(另一个针对东说念主像优化)。

从收尾不错看到,举座画面照旧比较高清的,唾手一截都有点像体育频说念报说念。
质料上,比拟早期的"动作乱飞"也显着有很猛进步,一眼看去莫得显着失误。
然鹅,淌若要拿放大镜来看,一些细节照旧经不起酌量。
比如通顺员左手的大小比例鄙人面这个片刻有点问题,手掌显着过宽;另外手势在变换的进程中,抠图感显着,能从这里看出视频由 AI 生成。

是以,要念念结束 100% 收复确切物理功令,大噶还得加油啊 ~
BTW,诚然生成的视频当今只须 5 秒,但不难念念见这位小哥落水时行将炸鱼了。

繁重 2:能否"杯弓蛇影"
Okk,繁重链接。
为了训练视频生成 AI 的可控性,咱们来看这么一张原图:(草原上莫得一只动物)

输入 prompt,"图中出现了一匹马",最终收尾如下:
不错看到,视频中照实出现了一匹白色骏马在草原上渐渐行走。
除此除外,咱们链接搬出公共铭心刻骨的一个功能来挑战——在画面中生成翰墨(中语或英文)。
个东说念主屡次实测后发现,当今暂时无法在视频中造谣生成翰墨(公共有奏效案例不错在驳倒区补充)。
不外也有一种辗转步调大略结束:先在图片中生成翰墨(不错用腾讯豆包 AI 的绘图功能),再将图片更始成动态视频。

嗯,亦然给量子位打上了赛博告白(doge)~
是以,在让视频"杯弓蛇影"这方面,除了添加翰墨不能控,其他元素还是不错简陋拿握了。
繁重 3:能否准确遵从指示
接下来,图片搭配翰墨请示词,也能用来检会视频生成 AI 是否定识用户意图了。
腾讯混元视频 AI,在上传图片后,不错通过正面(念念要哪些画面)和反面(不念念要哪些)请示词来测度打算通盘画面。

这里咱们又拿腾讯混元视频的"独家艺能"来测试。早在翰墨生成视频的功能发布后,他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能,那时堪称这是业界大部分模子所不具备的才气。
是以,咱们这次的 prompt 如下:
一位异邦好意思女穿戴汉服,头发飞动,布景是长城,然后镜头切换到正面特写。

最终身成收尾如下:
乍看之下,镜头从侧脸切换到正脸贯串挺天然,连发丝都永久在空中飞动。
然而一抠细节,其后的黄色发卡有点突兀了,是以在举座一致性上仍有完善空间。
繁重 4:能否保证连贯一致性
天然,光是准确收复指示还不够,更遑急的是要让整个元素天然铺开。
换句话说,还要检会图片改变成视频后的动作、场景过渡是否天然融会,有无显着的卡顿、进步或不连贯的情况。
嗯,依旧上难度——镜子题材下的通顺一致性训练。
穿戴白床单的幽魂濒临着镜子。镜子中不错看到幽魂的倒影。幽魂位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料避讳的产物。阁楼的场景照耀在镜子中。幽魂在镜子前舞蹈。电影氛围,电影打光。

最终后果如下:
一般来说,镜子题材不错用来训练模子对光影的剖析,以及镜子表里主体通顺是否能保持一致。
而上头这个生成后果确凿惊艳,当身披白床单的幽魂"欢蹦乱跳"时,镜子里的动作颠倒一致,何况连地上的光影变换也颠倒合适物理功令。
举座看起来十分丝滑 ~
Okk,几个堪称最难的测试到此告一段落。实测下来,腾讯混元的「图生视频」新功能在这些最难挑战上有了很猛进步,但离 100% 合适物理功令和澈底一致性仍有一段距离。
终末附上来自官方的写 prompt 小 tips:
用法 1:请示词 = 主体 + 动作 (相对简短的表述后果更优)
主体:视频的主要发达对象要与与输入图片一致,不错为东说念主、动物、植物、物品等,简易形容即可,比如一个女孩、一个熊猫等。
动作:对主体动作或气象的形容,用词提议简易且明晰具体,最佳有动态感,比如戴眼镜 ->用手戴上眼镜,喝水 ->用手举起杯子喝水。
用法 2:请示词 = 主体 + 动作 + 运镜形势
运镜形势:镜头的通顺形势,比如静止镜头、镜头平移向右,镜头缩放等。
网友放浪试玩 ing
与此同期,网友们的第一波鲜测也出炉了:

感风趣的童鞋不错玩起来了 ~
在线免费体验:
https://video.hunyuan.tencent.com/
Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V
参考长入:
[ 1 ] https://x.com/TXhunyuan/status/1897558826519556325
[ 2 ] https://x.com/iamhk/status/1897557803755253850九游会体育