AI生视频:快手可灵 VS 字节即梦AI,谁胜出?
8月12日消息,今年2月OpenAI发布文生视频模型Sora,其逼真而富有想象力的视频生成能力给大家带来AI震撼。Sora虽然能生成60s视频,但是并未对外开放使用,被视频业者戏称为“期货”。
国内AI生视频的产品研发脚步也加快了,7月快手团队的AI生视频产品“可灵” 网页端正式上线 , 8月字节跳动旗下的“即梦AI”网页、App也开放使用。这两款产品都能实现“文生视频”和“图生视频”,都免费开放给用户使用,可谓是真正的“现货”了。
作为国内短视频领域的两家头部企业,他们推出的AI生视频工具表现如何呢?我们小小试用比较了一下,大家可以看看两者的效果,你更喜欢哪一款。
测试条件:
目前可灵可生成5s、10s视频,但是文生视频“高性能模式”下不支持生成10s视频;
即梦AI可生成3s、6s、9s、12s视频。
因此,我们选择了默认设置下,可灵(5s)和即梦AI(6s)图生视频和文生视频生成的效果进行比较。
一、图生视频
从动物、风景、人物图片来测试比较。
第一个
使用一张含有“熊猫”的照片。
输入提示词要求:熊猫头抬起来,看向我,露出笑容
看看可灵(5s)和即梦AI(6s)的生成结果表现。
点击图片跳转视频
视频结果比较:
可灵比较尴尬的是,没分清楚图片中大熊猫的头(朝下)和尾(在上面),直接把大熊猫的屁股给弄成头转向“我们”了。
即梦AI虽然分清楚了大熊猫头尾,但是严重失真,出现了6条腿的熊猫,而且在扭动身体时,熊猫身体甚至感觉要断掉了……
整体效果来看,除去头1s的首位倒置,可灵生成的熊猫更逼真、运动效果更连贯。
这一局PK,站可灵(+1分)。
第二个
用一张含有上海东方明珠塔的风景图。
输入提示词要求:东方明珠塔从下往上依次亮起彩灯
看看可灵(5s)和即梦AI(6s)的生成结果表现。
点击图片跳转视频
视频结果比较:
即梦AI生成的视频中,东方明珠塔的灯从上往下亮起,和我们要求的方向相反了,视频补充了路面上车辆经过的视觉效果;
可灵的亮灯效果更明显,特别突出了东方明珠塔上2个圆球的灯光视觉效果,运镜上,我们选择了随机运镜,这个视频里整个塔都摇动了起来,感觉不太真实。
整体来看,即梦AI生成的视频更逼真一些。
这局PK站即梦AI(+1分)。
第三
用一张含有人物的图。
输入提示词要求:孩子翻动手中的书,并露出微笑
再看看可灵(5s)和即梦AI(6s)的生成结果表现。
点击图片跳转视频
视频结果比较:
即梦AI生成的视频翻车比较明显,首先是被翻的书像是凭空多出一本摞在了上面,另外,人物手部变形严重。
可灵翻书动作完成更好一些,人物手部也有变形,不过好歹还能分清手指,不至于像即梦AI那么严重。
这局PK站可灵(+2分)。
下面,在看看可灵和即梦AI的文生视频表现。
二、文生视频
第一个: 采用Sora经典视频的提示词,让可灵和即梦AI各自生成视频。
输入提示词:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
看看可灵(5s)和即梦AI(6s)的生成结果表现。
点击图片跳转视频
视频结果比较:
即梦AI生成的人物行走时腿部姿态比较别扭,周边人物的处理更虚化,整体效果更偏动漫视觉效果。
可灵生成的人物行走流畅,周边出现的人物也更为真实,整体效果更逼真一些。
这局PK站可灵(+3分)。
第二个:
输入提示词文本:在桂林山水间,一位侠女乘坐竹筏前行,她穿着红色的长裙,手拿黑色的佩剑,注视着远方,阳光洒在水面,波光粼粼,有白云从山顶飘过。
看看可灵(5s)和即梦AI(6s)的生成结果表现。
点击图片跳转视频
即梦AI生成的视频很好的理解了“桂林山水”这四个字背后的意思,视频对喀斯特地貌特征呈现更好。缺憾是“黑色的佩剑”这个表现形式太夸张了,飘来飘去有点儿失真。
可灵生成的视频“桂林山水”特征不明显,不过竹筏滑动的效果及水面波动和产生的光影效果更好。
这局PK真是比较纠结,看在“桂林山水”的面子上站即梦AI(+2分)。
最后,总结一下,从上面5五局PK来看,可灵3局胜出比即梦AI。
大家觉得哪个更好呢?