可通过文字生成连贯动作视频,谷歌推出AI扩散模型Lumiere

IT之家 2024-01-29 10:46:41

谷歌研究院日前推出了一款名为 Lumiere 的“文生视频”扩散模型,主打采用自家最新开发的“Space-Time U-Net”基础架构,号称能够一次生成“完整、真实、动作连贯”的视频。

谷歌表示,业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连贯逼真的内容,这是因为此类模型通常“分段生成视频”,首先产生几张关键帧,接着用“时间超级分辨率(Temporal Super-Resolution)”技术,生成关键帧之间的视频文件,这种方法虽然能够节省RAM,但难以生成“连贯逼真”的视频。

谷歌提到,他们的新模型 Lumiere 相对于业界模型最大的不同是采用了全新“Space-Time U-Net”基础架构,该架构能够在空间和时间上同时“降采样(Downsample)”信号,从而在“更紧凑的时空中进行更多运算”,令 Lumiere 生成持续时间更长、动作更连贯的视频。

IT之家注意到,Lumiere 一次可以生成 80 帧视频(16FPS 下 5 秒视频 / 24FPS下约3.34秒视频),虽然这一数据看起来很短,不过研究人员提到,5 秒视频长度实际上“已经超过大多数媒体作品中的平均镜头时长”。

除了应用“Space-Time U-Net”基础架构外,谷歌还介绍了 Lumiere 的基础特性,该 AI 建立在一个经过预先训练的“文生图”模型基础上,研究人员首先让基础模型生成视频分帧的基本像素草稿,接着通过空间超分辨率(SSR)模型,逐步提升分帧分辨率及细节,并利用“Multidiffusion”通用生成框架提升模型稳定性,从而保证了最终输出的视频一致性和连续性。

金融界提醒:本文内容、数据与工具不构成任何投资建议,仅供参考,不具备任何指导作用。股市有风险,投资需谨慎! 投诉
投资工具
精彩推荐
南侨食品被原料剪刀差围困,上半年净利跌72%创上市最差,烘焙龙头为何褪色了?
金融界2小时前
神州信息预计上半年亏损加大,连续两年主业没有起色,是行业因素还是主观因素?
金融界2小时前
标志性K线出现!“技术牛”要“低头喝水”了……
金融界3小时前
"妖股"直击:寒武纪造4000亿神话,中科大天才陈天石身价飙至1200亿,超级牛散章建平一战或浮盈24亿
金融界3小时前
港股收评:恒指跌0.37%、科指跌0.97%, 保险及生物医药股走高,科网股多走低,联想跌近6%
金融界4小时前
全部评论 0
没有评论,谈谈您的想法…
谈谈你的想法...
App内打开