文本生成视频AI最新技术 | 游戏资源 | 元素文章 | 游戏开发 | 微元素

gxfc5688

您需要登录才可以下载或查看，没有账号？注册

x

编辑：木木
NVIDIA公司每过几天就能搞出一些最新技术，不管是模型开发还是技术支持总是能让人眼前一亮。最近来自芝加哥大学和马里兰大学的一组研究人员公布了一个名为PYoCo技术。

那么到底什么是PYoCo？这是一种大规模的文本提示生成视频的扩散模型，它是从最先进的图像生成模型eDiff-I中微调而来的，eDiff-I是一个尖端的图像生成模型，具有先进的视频噪波测试。据开发人员介绍，该模型结合了先前研究中的各种有效技术，例如时间注意力、联合图像-视频微调、级联生成架构和专家级降噪器集成，在众多基准数据集上超越了其它方法。从各种演示效果看，图像稳定性大大提高。

更多精彩图片请登录

PYoCo可以实现高质量的零镜头视频合成能力，具有出色的照片真实感和时间一致性。

更多精彩图片请登录

此外，用这个文本到图像的扩散模型可以带来更好的知识转移和有效训练。在小规模无条件生成基准上，实现了10个最新技术水平×更小的模型和14×更少的训练时间。在零样本MSR-VTT 评估中，模型达到了9.73的新的最先进的FID。

更多精彩图片请登录

比如我们设置文本主角：一只可爱的浣熊在弹吉他。地点：在篝火旁边，背景是雪山。就会出来下方视频。

更多精彩图片请登录

主角：一只快乐的毛茸茸熊猫。行动：练功夫。地点：在开满鲜花的草地上，在优美的瀑布前。

更多精彩图片请登录

而且，PYoCo还可以生成不同风格的视频。比如文字主题是：春天美丽的海滨沙滩，海浪拍打着沙滩。风格：梵高。

更多精彩图片请登录

同样的主题，风格改为：中国水墨艺术。

更多精彩图片请登录

巴洛克风格。

更多精彩图片请登录

再来举个例子，主题：山腰上的蒸汽火车。风格：巴洛克。

更多精彩图片请登录

风格：莫奈，印象派。

更多精彩图片请登录

开发人员还针对PYoCo的技术原理，做出了详细的视频介绍。[micxp_wxonkey]wxv_2942622879257772034[/micxp_wxonkey]

更多精彩图片请登录

整体而言是一个不错的文本到视频的技术模型，相对来说稳定多了，但是可能和最终达到制作级的交付效果还有一定的差距，如果后期可以在提高一些稳定性和画质，估计会更加让人期待。想要了解更多，可以去下方网站，里面还可以研究具体的论文内容！https://research.nvidia.com/labs/dir/pyoco/

更多精彩图片请登录

end
公众号链接：https://mp.weixin.qq.com/s/4_bKem9oIJrpPaIZfhj--Q

评分

浏览过的版块

长枪

短杖

蓝色药水

【绝】红龙战甲

火元素

元素秘籍