Sora真是越扒越逆天······
34516 1
实名

通过了实名认证的内容创造者

发布于 2024-3-1 12:19:52

您需要 登录 才可以下载或查看,没有账号?注册

x
点击上方蓝字CG世界关注我们“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”中国很有影响力影视特效CG动画领域自媒体
人工智能哪家强?作为如今生成式AI技术领头羊的OpenAI但笑不语。
e660086d06df72180b93791bd22f842d.gif

去年扔出一个ChatGPT,一石激起千层浪,仅两个月用户就达到了1个亿,让大家见识了一下什么叫强大到让人害怕的AI。今年大概是怕我们忘记这种震撼感,于是2024一开年就来了个“往事重现”,甩出了新的“当家花旦”→Sora。毫无意外,网上再次炸锅!
db75c88b9a4c2bc1b1a1557a84e3fd20.jpg
Sora是Open AI团队在不同时长、分辨率和宽高比的视频和图像数据集上训练的,一个基于文本的视频扩散模型。使用了在视频和图像的时空补丁潜在代码上操作的transformer架构,可以生成高保真、长达一分钟的视频。[micxp_wxonkey]wxv_3339933660224864269[/micxp_wxonkey]Sora的能力可不仅仅是生成跨越不同时长、宽高比和分辨率的视频/图像或长达一分钟的高清视频。作为开年就掀起人工智能界“血雨腥风”的王炸,它真的是越扒越有,常看常新。

早在Sora横空出世不久,就有大神总结过它的几大过人之处:
1、文本生成视频:能够根据提示文本,生成精准还原提示语义内容的长达60s的视频,同时保持视频的视觉品质。2、生成复杂场景和角色:能够生成包含多角色、特定运动类型、精确主题和背景细节复杂的场景;以及生动的角色表情和复杂的运镜,呈现高度逼真性和富有叙事效果的视频。
3、语言理解:能够准确理解提示语义,生成富有生机和表现力的角色,使视频内容忠实地反映用户指令。4、多镜头生成:可以在单个视频里创建多个连贯镜头的同时准确保持人物和视觉风格的持续性。这种能力也可以运用到制作电影预告、动画或其他需要多视角展示的内容上。5、从静态图像生成视频:除了能够从文本生成视频,Sora还能准确地动画化现有的静态图像内容,或者扩展现有视频,填补视频中的缺失帧。6、模拟物理世界:Sora最逆天的,大概就是它展示了人工智能理解真实世界场景并与之互动的能力。虽然还有很大进步空间,但已经能够模拟物体移动以及相互作用等真实物理世界的运动。START而通过Open AI公布的技术报告,也让我们对这个横空出世的新模型有了进一步了解。



01将视觉数据转化为“碎片/补丁”Turning visual date into patchesOpenAI汲取了在互联网规模数据上训练的大语言模型的灵感,考虑将大语言模型范式的成功引入到可视数据的生成式模型之中。大语言模型使用文本标记,而Sora则使用之前已被证明是用于视觉数据模型的有效表示的视觉“碎片/补丁”(patches )来达到类似效果。Open AI还发现,对于在不同类型的视频和图像上训练生成模型,补丁是一种高度可扩展且有效的表示方式。


首先通过对视频进行时间和空间上的压缩,将其压缩到一个更低维的潜在空间(可将这个潜在空间看做是时空碎片的集合),从而将原视频转化为这些碎片/补丁(patches )。02视频压缩网络Video compression network为了简化数据、提取重要特征、减少后续处理所需计算资源,Open AI团队训练了一个专门用于降低视觉数据维度的网络。这个网络以原始视频作为输入,输出一个在时间和空间上都被压缩的潜在表示(latent representation)。Sora模型就是在这个压缩后的潜在空间中接受训练,之后在这个空间生成视频。此外,开发团队还同时训练了一个解码器模型,它可以将生成的潜在表示(latent representation)重新映射回原始像素空间,从而将压缩视频数据还原成可视的视频或图像。03潜变量时空碎片Spacetime latent patches当面对一个被压缩过的输入视频,首先要将其分解成很多小块(就像给 transformer 模型里的单词加上标签一样),提取出一个时空碎片(Spacetime patches)序列,让它们充当像转换器中的标记符号一样的角色。因为图像本质上就是只有单帧的视频,因此同样的方法也适用于图像。而这种基于“碎片”(patches)的表示方法,使Sora模型可以在不同分辨率、持续时间和宽高比的视频和图像数据集上进行训练。在生成新的视频时,可以通过在合适大小的网格中排列随机初始化的碎片(patches),来控制生成视频的大小。04扩展Transformers 规模用于视频生成Scaling transformers for video generationSora作为底层基础仍是基于Transformers架构的扩散模型,接受输入的噪声patches(如文本提示等条件信息),之后被训练来预测原始的“干净”patches。重要的是,Sora是一个基于扩散的转换器模型,这种模型在各种域中已展示了卓越的可扩展性(包括语言建模、计算机视觉和图像生成)。

在这项工作中,开发团队发现扩散转换器作为视频模型也可以有效扩大规模。随着训练的进行,使用相同种子和输入的视频样本进行对比,结果证明,随着训练计算量的增加,样本质量有明显提高。

         左:Base compute 中:4×compute右:32×compute05可变时长、分辨率、宽高比Variable durations, resolutions, aspect ratios过去,图像和视频的生成方法通常需要调整视频的大小、将其裁剪或修整到一个标准尺寸(例如256x256分辨率的4秒视频)。但Sora打破这一常规做法,直接在原始大小的数据上进行训练,这也带来了更多优势。采样灵活性无论是采样宽屏的1920x1080p视频、垂直的1080x1920视频,还是介于两者之间的任意宽高比,对Sora来说都不在话下。也就是说,Sora可以原生宽高比,为不同设备创建内容。更值得一提的是,它还可以先用低分辨率快速地测试生成效果,验证可行性,然后使用同一模型输出高分辨率最终结果,直接简化了设计过程。

改善构图和框架开发团队通过经验发现,在原始宽高比下训练视频,可以显著改善构图和框架。为了验证这一发现,他们将Sora与一个将所有训练视频裁剪为方形的模型版本(训练生成模型的常见做法)进行了比较。结果显示,在方形裁剪上训练的模型(左)有时会生成只有部分目标在视野中的视频,而相比之下,Sora(右)生成的视频则有更加完美地呈现。

05语言理解Language understanding训练从文本到视频的生成系统,需要大量带有对应文本字幕的视频,团队为此借鉴了DALL-E 3中提出的re-captioning技术,将其应用到视频上。首先训练了一个高度描述性的字幕模型,之后用它为训练数据集中的所有视频生成文本字幕,以此来提高文本逼真度以及视频的整体质量。与DALL-E 3类似,团队还利用GPT将简短的用户提示转换为更长更详细的字幕,并将其发送给视频模型,这就使Sora能精准遵循用户提示生成高质量的视频。

a woman wearing a green dress and a sun hat taking a pleasant stroll in Mumbai, India during a winter storm a woman wearing a green dress and a sun hat taking a pleasant stroll in Mumbai,India during a beautiful sunset



a woman wearing a green dress and a sun hat taking a pleasant stroll in Johannesburg,South Africa during a beautiful sunset06通过图像和视频进行提示
Prompting with images and videos看多了文本转视频的样本,但这仅仅是Sora功能的一部分。它还可以使用其他类型的输入提示,例如已有的图像或视频。多样化的提示方式让Sora能够执行广泛的图像和视频编辑任务(如创建完美循环视频、使静态图像动画化、在时间上扩展视频等)。将DALL·E图像动画化Sora能够根据给定的图像和提示词生成视频,下面就是Sora基于DALL-E 2和DALL-E3图像生成的视频样例。

提示词:A Shiba Inu dog wearing a beret and black turtleneck.

提示词:Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

提示词:An image of a realistic cloud that spells “SORA”.

提示词:In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.扩展生成的视频Sora不仅可以生成视频,还能在时间上向前或向后扩展视频。下例的视频就是从生成视频的一段向后延伸的,尽管开始部分各不相同,但可以看到结束的场景是完全一致的。





通过这种方法可以将视频向前/向后扩展,制作成无缝循环视频。

视频到视频编辑随着扩散模型的发展,让从文本提示编辑图像和视频的方法成为可能。团队将这些方法之一SDEdit应用到Sora,利用这种技术使Sora能够零样本改变输入视频的样式和环境。input video[micxp_wxonkey]wxv_3339834785178763268[/micxp_wxonkey]output video[micxp_wxonkey]wxv_3340104679581466628[/micxp_wxonkey]无缝连接视频Sora还可以在两个输入视频间进行平滑插值,在主题和场景构图完全不同的视频间创建无缝过渡,打造出流畅自然的过度效果。









图像生成能力通过在一个帧的时间跨度内排列高斯噪声补丁这种独特算法,Sora还可以生成图像。它不仅能够生成限定大小的图像,还可以根据用户需要生成可变大小图像,分辨率最高可达2048×2028。











新模拟能力团队在研究中发现,当训练达到足够大规模时,视频模型会呈现许多令人振奋的新能力。这些能力使Sora能在一定程度上模拟物理世界中的人、动物和环境。且这些属性的出现对 3D、物体等没有任何明确的归纳偏差,纯粹是尺度现象。3D一致性:Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。



长视频连贯性和对象持久性:视频生成系统需要面对的一个重大挑战,就是在采样长视频时维持时间一致性。而Sora在大多数情况下能够有效地对短期和长期物体间的依赖关系建模。例如,在生成视频中,人、动物和物体,即使它们被遮挡或离开画面后,仍然可以被准确的保留和呈现。同样,Sora还可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观一致。



与世界互动:Sora有时还能以简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,吃汉堡的人可以在汉堡上留下咬痕。



模拟数字世界:同样,Sora也能模拟人工过程,比如视频游戏。这个我们在之前的文章Sora可生成游戏?!有提到过。Sora可以用基本策略控制Minecraft中的玩家,同时以高保真度渲染游戏世界及其动态。而这些能力无需额外训练数据或调整模型参数,只需通过向Sora提供包含“Minecraft”的提示词进行零样本激发即可。



Sora目前展示出来的这些模拟现实世界的能力表明,视频模型规模的持续扩展,为开发深度模拟物理和数字世界模拟器提供了很大的前景。通过模拟物理世界中的物体、动物以及人物,可以更深入地理解现实世界的运行规律,随着不断发展,未来也有望开发出功能更强的视频仿真系统。


看到Sora强大模拟能力的网友,哪怕Sora生成视频仍存在一定限制,也纷纷跃跃欲试。

由于目前只有OpenAI定向邀请的红队专家拥有产品测试资格,奥特曼为了宠粉,直接自己的X上开启了“接单”模式。让我们来看看,Sora是如何将大家的奇思妙想,化虚为“实”的吧~

提示词:a giant duck walks through the streets in Boston

提示词:nighttime footage of a hermit crab using an incandescent lightbulb as its shell



提示词:minecraft with the most gorgeous high res 8k texture pack ever

提示词:macro shot of a leaf showing tiny trains moving through its veins

提示词:a giant cathedral is completely filled with cats. there are cats everywhere you look. a man enters the cathedral and bows before the giant cat king sitting on a throne




提示词:a green blob and an orange blob are in love and dancing together

提示词:A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth

提示词:cinematic trailer for a group of samoyed puppies learning to become chefs


提示词:Cinematic trailer for a group of adventurous puppies exploring ruins in the sky

提示词:pov footage of an ant navigating the inside of an ant nest

提示词:a white and orange tabby alley cat is seen darting across a back street alley in a heavy rain, looking for shelter...

提示词:realistic video of people relaxing at beach, then a shark jumps out of the water halfway through and surprises everyone


提示词:a walking figure made out of water tours an art gallery with many beautiful works of art in different styles

提示词:A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view


提示词:A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting


提示词:Two golden retrievers podcasting on top of a mountain

提示词:Well, okay…a futuristic drone race at sunset on the planet mars

提示词:A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back

提示词:A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back


提示词:a wizard wearing a pointed hat and a blue robe with white stars casting a spell that shoots lightning from his hand and holding an old tome in his other hand


提示词:A street-level tour through a futuristic city which in harmony with nature and also simultaneously cyperpunk / high-tech.The city should be clean, with advanced futuristic trams, beautiful fountains, giant holograms everywhere, and robots all over.

提示词:a spooky haunted mansion, with friendly jack o lanterns and ghost characters welcoming trick or treaters to the entrance, tilt shift photography

提示词:this close-up shot of a futuristic cybernetic german shepherd showcases its striking brown and black fur..

提示词:a small chubby Pug dog in goggles is sitting on a stool next to an old motorcycle



提示词:Monkey Playing Chess in a Park

提示词:a ragdoll cat partying inside of a dark club wearing LED lights. the cat is holding the camera and video-tapping the excitement, showing off his outfit. fish-eye lens





提示词:a brown and white border collie stands on a skateboard, wearing sunglasses

提示词:Going to share a few videos I made with Sora today.

提示词:A surreal scene unfolds as a giant, translucent jellyfish floats gracefully through a deserted cityscape at dusk. The scene is shot on 35mm film

提示词:A meticulously crafted diorama depicting a serene scene from Edo-period Japan. Traditional wooden architecture. A lone samurai, clad in intricate armor, walks slowly through the town


提示词:a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him


提示词:Close-up of a majestic white dragon with pearlescent, silver-edged scales, icy blue eyes, elegant ivory horns, and misty breath. Focus on detailed facial features and textured scales, set against a softly blurred background


提示词:in a beautifully rendered papercraft world, a steamboat travels across a vast ocean with wispy clouds in the sky. vast grassy hills lie in the distant background, and some sealife is visible near the papercraft ocean's surface


提示词:a tortoise whose body is made of glass, with cracks that have been repaired using kintsugi, is walking on a black sand beach at sunset


提示词:A scuba diver discovers a hidden futuristic shipwreck, with cybernetic marine life and advanced alien technology

提示词:a red panda and a toucan are best friends taking a stroll through santorini during the blue hour
尽管Sora目前仍然存在许多局限和不足,但从目前网上放出的生成案例来看,AI生成的质量已经有了显著改善。那么问题来了,小伙伴们,开放公测的那天,你想生成的视频是什么样的呢?参考原文
https://openai.com/research/video-generation-models-as-world-simulators
end


各路大神UE5写实人像,TQL


威尔史密斯反撩Sora!再现意面梗视频,网友:救命,根本分不清!!


AI自动填充和延展3D场景,文本生成PBR材质?Vray开发公司Chaos发布AI技术预览
内容主要涵盖影视特效,CG动国,前沿CG技术,作品欣賞
使用道具 <
超远道  发表于 2024-3-1 19:00:54  
2#
相当不错,感谢分享!
回复 收起回复
使用道具
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表