高启强畅谈罗翔普法,蒙娜丽莎一展歌喉!?阿里开发AI图生视频模型EMO...
34426 2
实名

通过了实名认证的内容创造者

发布于 2024-3-8 12:23:53

您需要 登录 才可以下载或查看,没有账号?注册

x
点击上方蓝字CG世界关注我们“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”中国很有影响力影视特效CG动画领域自媒体
嗨!老铁们,我是你的好朋友小SOMO!今儿讲讲阿里巴巴的EMO一个可以让照片开口说话的AI工具!▼
c7d4dacfb324bdea534a11a4f317f514.gif

起猛了,一觉醒来,高启强和罗翔老师梦幻联动讲起法律了!就连世界名画《蒙娜丽莎》都能讲几句莎士比亚诗集了,小李子都能在线来段Rap,这究竟怎么一肥事?追根溯源,这一切都要从2024年2月28日那天说起......继美国OpenAI公司推出Sora引爆全网、Stable Diffusion 3出头与之争霸后,中国互联网科技巨头阿里巴巴(Alibaba Group)以迅雷不及掩耳之势奋起直追!!
a81ae3d494f4aeba126ce75ac31af14e.png
是的!在这天,阿里巴巴集团智能计算研究所团队推出了新技术-EMO!

EMO是什么?它能做什么?官方称其为:在弱条件下使用音视频扩散模型生成富有表现力的人像视频!它能做什么呢?如下图所示,只需要输入一段任意音频(说话、唱歌啥都行)+一张图片(真人肖像、AI生成的、动画类型的...)EMO就能生成会说话唱歌的AI视频。

在以往AI生成的头像视频中,人物只能动嘴,面部表情并不会有太大变化,甚至可以用僵硬来形容,就像简单拼凑出来的一张张表情图片一样,嘴是嘴,脸是脸!EMO不一般,它可以还原真实且丰富的面部表情,包括微表情,连头部姿势的运动都十分的生动自然。并且呢,生成视频的长度和输入音频长度相匹配,支持任意语音、任意语速、任意图像...

生成视频案例让肖像唱歌


角色:由dreamshaper XL生成的AI蒙娜丽莎,声音来源:Miley Cyrus - Flowers下面这位“大姐大”熟悉不,就是前几日Sora官方发布视频中的AI Lady~EMO将它也拿出来“训练”了一番!现在她不止能在东京的街头走一走~还能表情丰富的高歌一曲!


角色:SORA中的AI Lady,声音来源:Dua Lipa - Don’t Start Now不同语言和肖像风格EMO支持各种语言的歌曲,如普通话、日文、粤语、韩语。以及各种不同的风格,它可以直观地识别音频中的音调变化,来生成动态、表情丰富的人像视频。

由于文章可放视频数量的原因,咱们就抽一个哥哥的视频,来看一下效果如何吧!


人物:张国荣 声乐来源: 陈奕迅 - Unconditional(粤语)另外三个截图给大家看表情生动程度!

角色:由ChilloutMix生成的AI Girl,声音来源:陶喆 - Melody(普通话)

角色:AI Ymir from AnyLora & Ymir Fritz Adult声乐出处: 『冲撃』音乐录影带【TVanime「进撃の巨人」The Final Season エンディngテーマ曲】(日文)

角色:WildCardX-XL-Fusion生成的AI女孩,声音来源:JENNIE - SOLO,封面:Aiana(韩语)快速节奏就算节奏快也不怕,最快的歌词也能动态的角色动画同步,同时保证面部表情的丰富性。这唱Rap的小李子太帅了!


角色:莱昂纳多·威廉·迪卡普里奥,声音来源: EMINEM - GODZILLA (FT. JUICE WRLD) COVER

角色:坤坤,声乐来源:Eminem - Rap God与不同的角色交谈你以为仅仅限于处理唱歌的音频输入吗?不,它还可以容纳各种语言的口语音频!除此之外,还能够将过去肖像、绘画以及3D模型、AI生成的内容制作成动画,注入逼真的动作和真实感!


角色:奥黛丽·凯瑟琳·赫本-拉斯顿,声音来源:采访剪辑


角色:蒙娜丽莎声音来源: 莎士比亚的独白跨演员表演这个就是文章最开始出现的高启强畅谈罗翔老师的法律视频方法啦,这个方法为角色扮演带来更多可能性。


角色:华金·拉斐尔·菲尼克斯 - The Jocker - 《Jocker 2019》,声乐来源:《黑暗骑士》2008


角色:由xxmix_9realisticSDXL生成的AI女孩,声音来源:itsjuli4发布的视频EMO工作原理与技术实现EMO成功生成了会唱歌的头像视频,效果自然并且呢十分生动!那么,EMO的背后的工作原理与技术是怎样的呢?咱们一起来简单的聊一聊!和传统的繁琐流程不一样,EMO采用直接从音频合成视频的方法,根本就不需要中间的3D模型或面部标记点的使用,简化生成过程的同时,还可以保持超高的表现力和自然逼真性。其框架的核心在于它运用了一个名为Stable Diffusion(SD)的文本到图像模型,这个模型能够将输入的音频信号与图像特征结合起来!在技术方面,请看:

这个方法主要分为两个阶段:第一阶段:“帧编码”阶段(Frames Encoding),在这个阶段,使用 ReferenceNet来从参考图像和运动帧中提取特征。第二阶段:进入“扩散过程”阶段(Diffusion Process),在这一阶段,预训练的音频编码器处理音频嵌入,此外,面部区域的蒙版与多帧的噪点数据结合在一起,来控制面部图像的生成。随后,使用Backbone Network来执行去噪处理。在Backbone Network中,主要运用了两种关键的注意力机制:参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。这两种机制对于角色的面部特征保持一致和调整角色的面部运动都至关重要。最后,利用了时间模块来调节图像的时间维度,使角色的运动速度进行调整。这些组合在一起构成了整体框架。反正呢,背后原理太复杂了,说了这么多专业的,大家还是云里雾里,那翻译过来总结一句大白话就是:EMO通过深度学习算法,对输入的图片和音频进行深度的分析和处理,提取出人物的面部特征和语音信息!然后,将这些信息融合在一起,就生成了一个动态的视频。另外为了训练模型,团队构建了一个庞大而多样化的音视频数据集,包含超过250小时的视频和超过1.5亿张图像。这个数据集超级丰富,包含了演讲、电影和电视剧片段以及歌唱表演,语言种类也很多,有中文英文日文等....正是因为有这么多丰富的训练材料,才能更加确保模型能够更加精准的捕捉到人类表情与声音风格!

总之呢,EMO的推出,毫无疑问的像整个世界展示了阿里巴巴在AI领域的强大!并且也为各行各业带来了新的机遇。随着今年各项AI的发展,相信还会有更多让人目瞪口呆的神器应用出现!EMO在公开课论文的同时宣布开源,编编去GitHub上看了看,目前除了自述论文,并没有其他,但肯定也不会等太久啦!

今天的文章就到这里结束了,编编在想,等EMO可以使用了,面对枯燥乏味的课程,可以换一张自己偶像的脸,那肯定就能认认真真淌着哈喇子听完全程了!那大家呢?还能想到用EMO做些什么呢?说出来讨论一番呀!论文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO




a1ea37f2e2294d0a9b5acbc939ae9ee2.jpg
e8f779f7ed7171310011cf934186ed35.jpg
bea4aa096325ee9984abfbdec6823236.jpg
34a7de049ad9429ebf1426f2c863e06c.jpg
内容主要涵盖影视特效,CG动国,前沿CG技术,作品欣賞
使用道具 <
mome  发表于 2024-3-9 15:45:57  
2#
满满的细节
回复 收起回复
使用道具
mome  发表于 2024-3-10 11:45:41  
3#
学习了
回复 收起回复
使用道具
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表