- A+
测评效果超过Gen-2、Pika以及现有AI视频生成工具。
结果上线不到24小时就引发众人围观,比如一条推文就有近20万浏览量。
不少网友惊讶其效果,甚至直言:比runway和pika还要好。
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/Fg-latGATJGYrKTdGh-IwsGLlyG0.png)
“比runway和pika还要好”
研究人员也的确进行了实际的效果比较。选手分别为:MagicVideo-V2、StabilityAI的SVD-XT,新潜力玩家Pika1.0,以及Runway的Gen-2。
研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/FlVoReCPTIiLmEma1scHY4-TQDBv.png)
结果显示,相较于其他方法,人们认为MagicVideo-V2的效果更好。
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/FtLss1la7NNn3uDdrkWXZT7IIW60.png)
(绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。)
如何实现?
简单来说,MagicVideo-V2是一条视频生成流水线,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/FjG_f6H4HxcSZZG7NRrzAnJnwxwp.png)
首先是有T2I模块首先根据文字生成1024×1024图像,随后I2V模块对该静态图像进行动画处理,生成600×600×32的帧序列,然后再用V2V模块增强,并完善视频内容,最后再用插值模块将序列扩展到94个帧。
这样一来,既保证了高保真,时间上也有连续性。
不过早在2022年11月字节曾推出了MagicVideo V1版。
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/FvlFfuXJT0fXQUJJDeLxO0mDvtii.png)
![效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜](https://www.luyuan.io/wp-content/uploads/2024/01/FpFMhMioma-PNOR_KG6uLHKPyu5H.png)
不过,当时更强调的是高效性,它能在单个GPU卡上生成256x256分辨率的视频。
参考链接:
ByteDance presents MagicVideo-V2
Outperforms SotA video models such as Pika 1.0, SVD-XT according to human evaluation
abs: https://t.co/nZOlH58Ev5
proj: https://t.co/4MUrSbkE1r pic.twitter.com/6rrvYJ4pDL— Aran Komatsuzaki (@arankomatsuzaki) January 10, 2024
项目链接:
https://magicvideov2.github.io/
论文链接:
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018
- 我的微信
- 这是我的微信扫一扫
-
- 我的电报
- 这是我的电报扫一扫
-