Sora 和之前扩散模型的架构上最大的区别与突破呢?AI视频模型本身是一个必须需要物理和几何感知的生成模型,Sora 朝这个方向迈出了一步,稳定一致性不抖是它非常重要的进步,Sora 是基于之前的进行改进,做出了自己的 Diffusion Transformer架构,基于目前的官方报告,可以看出它不是简单的2D生图进行再连续生成,否则透视都不会那么正常。官方称物理是用数据驱动学习模拟,这更像是一种映射替换,而非具有动力学理解了物理行为,重建这一过程,注意也只是重建,这和“理解”物理行为完全不同。扩散模型是深度学习和生成模型的关键技术之一。它指的是一种生成模型,可以生成模拟给定数据分布的高质量、多样化的“样本”。在这种情况下,数据分布是一系列电影风格的真实图像。但不要混淆;它不以3D建模,不了解物理或光,也不了解相机,无论是数字还是其他方式。它生成了统计学上合理的图像,现在它可以以一种看起来在时间上一致的方式做到这一点。换句话说,这些视频似乎在帧之间没有抖动,而且随着时间的推移,它们(某种程度上)是有意义的。我们之前已经看到过许多尝试,但没有一个像SORA那样好或那么长。新的 OpenAI SORA 正在制作合理的(大部分)60 秒视频——比以前可能的时间长得多。—— Mike Seymour,fxguide联合创始人和特约编辑评论道。另外,官方报告中特地提到了:“我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出有前途的一步。”报告中没有包含具体实施方法的架构详细信息。而且计算性能和成本并未说明,我认为算力目前要求不会很低,成本下降空间一切还是未知,等待大规模测试才能知道。
Sora 目前已知是一个融合不同以往的架构。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”,这肯定不是单纯的文本语义信息,而是含有语义、几何空间和物理感知数据压缩的。官方报告里面叫 Patches,Encoder 将视频压缩为低维数据,再反复编解码处理,再将其分解为 Patches。同样 Sora 也能从 Patches 反向解码生成视频图像。比如从《我的世界》游戏体素风格和写实风格的视频互相转换。
为了验证Sora具备几何感知能力,也就是对提示词表达的数据对象有隐式的基础空间点云生成能力,在官方视频流出后,专业的照片建模博主对其进行的重建,可以看出Sora已经具备,否则根据其城市、室内等视频运动分析是无法复原其内容3D结构的。在下面资产章节会更加细致讨论。以下是AI视频的技术论文和项目参考,来看看历史变迁:Diffusion Transformers (DiT)项目:https://wpeebles.com/DiTScalable Diffusion Models with TransformersDiT论文:https://arxiv.org/abs/2212.09748Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and ResolutionPatch NaViT论文:https://arxiv.org/abs/2307.06304之前扩散模型架构的AI视频对比参考:
腾讯的MotionCtrl项目:https://wzhouxiff.github.io/projects/MotionCtrl/之前的项目可以看出由于没有精度较高的几何和物理感知信息,所以生成结果是不够长的,只能做简单的动图,几秒的镜头位移,透视大部分都不对。Sora没有披露架构细节,无论怎样至少目前可以合理推测,最后底层数据处理还是基于神经网络的随机梯度下降和正反向传播,这就意味着目前 Sora 中的内容是没有复杂推理能力的,数据集的物理信息不够的话,就会出现官方说的各种物理因果关系混淆。基于这样的模式是无法真的学会物理规律的,它只是统计学意义的逼近重现,现在无法高度自定义编辑各种属性,复杂提示需求还需时日。就好比将所有行星运动的数据拿来训练,它可以重现不同星体参数椭圆的轨道,对于某种尺度下它看似理解了引力分布,但也无法推导出引力的数学物理方程与定律。这就是为什么官方只称为数据驱动,是非常局限于数据集的标注信息量。暂时不要神话它为“世界大模型”,这里的路还需要几年,接下来的方向我认为很大可能会和UE引擎或工业仿真平台合作,通过自动非监督的决策学习获取一定的初级物理规则感知提升。资产与虚拟制作除了图片资产,使用扩散模型架构去生成3D建模资产是业界还在持续探索的,精度大幅度提高至少还需要两三年。CG的模型资产采集和制作是劳动密集型创作,不仅耗时耗力,能够反复使用的资产并不多。每一次新项目都要去制作新需求的资产,AI对新需求这部分影响几乎没有,因为不能要求AI生成数据集里没有的东西。而影响最大的是普通复用的3D模型资产,来看看去年我看到的一些学术进展:
LION: Latent Point Diffusion Models for 3D Shape Generationhttps://research.nvidia.com/labs/toronto-ai/LION/
从上述图中可以看到目前AI生成3D模型围绕着两个方面:1)从图片或视频识别物体点云信息,不同于传统照片建模的生成方法,不仅速度快还有推测扩展能力。2)完成物体几何模型生成。这两步组合就可以从文字提示直接生成3D模型。可以明确判断的是这取决于其训练数据的数量、质量精度,否则只能是目前普通模型网站里的简模水平
NVIDIA Canvas 快速生成概念艺术,制作写实的HDR全景,早已纳入工业光魔的虚拟制作流程中。使用 AI 进行绘图的显著优势之一是能够根据一组输入或参数生成高度详细和准确的结果,直接在合成和VP流程最终生产。还可以分析改变各种元素、智能填充、创建复杂的纹理等,同时整合到前后不同流程中。这允许高水平的精度和一致性,确保数字绘景的背景与真人镜头无缝集成。
https://flim.ai/输入一个爆炸的电影镜头查询这类工具可以帮助大家快速找到已有的画面和声音的影像片段来表达具体想法,就可以在创作起草、参考、预演、粗剪过程与甲方沟通执行中更有效率。在非编软件的AI剪辑中主要体现在3个方面:智能识别视频精彩剪辑点、角色人脸识别自动二次构图、声音与音效的关键帧识别。这是无疑加速创作的,而且,这些识别标注还可以反过来使用分析优秀作品,快速理解剪辑里元素之间各种节奏关系。结论正如我们所看到的,AI在VFX行业的各个方面都具有巨大的潜力,从起始概念生图到虚拟预演,到后期自动Roto抠像和逼真的换脸等。概念、预演、特效、动画、渲染、合成、调色、声音、剪辑等全流程渗透。它不仅大大减少了这些过程中涉及的时间和人力物力,而且还提高了创意到输出的最终质量一致性。通过自动化劳动密集型任务和提高速度与精度,AI使艺术家能够更专注于他们作品的创造性方面,从而突破视觉效果的可能性。来自各种例子展示了AI在视觉特效中的不同程度变革力量。随着技术的不断进步,可以预期AI在视觉效果中的作用将变得更加重要。虽然我们已经看到了其非凡应用,但旅程才刚刚开始。未来将持续带来令人兴奋的可能性,逐步改变视觉特效行业,从而深层次改变生产力和商业结构关系,带来更无与伦比的声画体验。它在视觉特效中的作用不是取代艺术家,而是为他们提供增强能力的辅助,以从前无法想象的方式将他们的创意愿景变为现实。说实话讨论这种产业变革话题难度还是很大的,把握好时间尺度和当下的关系,更考验我过去十几年对行业的各种理解。从整体流程进度来讲,目前AI的上限对VFX流程确实宏观看已经解锁到了预演这个阶段,别的前后工种是否渗透到足够以枝叶之变,去改变树干全局工作流程?这尺度恐怕远远超过三五年。很惭愧管中窥豹列举不全,只分享了当下能看到的、确定可行的各方面,试图钩深索隐展示一个立体的视角观察,时间有限难免有纰漏望请指正。
The End