文本生成视频AI最新技术
20743 0
实名

通过了实名认证的内容创造者

发布于 2023-6-15 14:16:53

您需要 登录 才可以下载或查看,没有账号?注册

x
编辑:木木
NVIDIA公司每过几天就能搞出一些最新技术,不管是模型开发还是技术支持总是能让人眼前一亮。最近来自芝加哥大学和马里兰大学的一组研究人员公布了一个名为PYoCo技术。
556beceadfec26aa640e1c473654f35c.gif

那么到底什么是PYoCo?这是一种大规模的文本提示生成视频的扩散模型,它是从最先进的图像生成模型eDiff-I中微调而来的,eDiff-I是一个尖端的图像生成模型,具有先进的视频噪波测试。据开发人员介绍,该模型结合了先前研究中的各种有效技术,例如时间注意力、联合图像-视频微调、级联生成架构和专家级降噪器集成,在众多基准数据集上超越了其它方法。从各种演示效果看,图像稳定性大大提高。
b67269a38fe01acdb8c58079947b11d3.gif


PYoCo可以实现高质量的零镜头视频合成能力,具有出色的照片真实感和时间一致性。



此外,用这个文本到图像的扩散模型可以带来更好的知识转移和有效训练。在小规模无条件生成基准上,实现了10个最新技术水平×更小的模型和14×更少的训练时间。在零样本MSR-VTT 评估中,模型达到了9.73的新的最先进的FID。

比如我们设置文本主角:一只可爱的浣熊在弹吉他。地点:在篝火旁边,背景是雪山。就会出来下方视频。


主角:一只快乐的毛茸茸熊猫。行动:练功夫。地点:在开满鲜花的草地上,在优美的瀑布前。

而且,PYoCo还可以生成不同风格的视频。比如文字主题是:春天美丽的海滨沙滩,海浪拍打着沙滩。风格:梵高。

同样的主题,风格改为:中国水墨艺术。


巴洛克风格。

再来举个例子,主题:山腰上的蒸汽火车。风格:巴洛克。

风格:莫奈,印象派。

开发人员还针对PYoCo的技术原理,做出了详细的视频介绍。[micxp_wxonkey]wxv_2942622879257772034[/micxp_wxonkey]





整体而言是一个不错的文本到视频的技术模型,相对来说稳定多了,但是可能和最终达到制作级的交付效果还有一定的差距,如果后期可以在提高一些稳定性和画质,估计会更加让人期待。想要了解更多,可以去下方网站,里面还可以研究具体的论文内容!https://research.nvidia.com/labs/dir/pyoco/



end
公众号链接:https://mp.weixin.qq.com/s/4_bKem9oIJrpPaIZfhj--Q

评分

参与人数 4元素币 +20 活跃度 +9 展开 理由
gxfc5688 + 1 + 1 看看东西好不好
带着面具瞎... + 8 + 2 从业不识微元素,做遍项目不算数。
欣妍 + 6 + 5 楼主是好人
xiaodiou + 5 + 1 超赞

查看全部评分

内容主要涵盖影视特效,CG动国,前沿CG技术,作品欣賞
使用道具 <
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表