2023年度AI技术盘点（一）：从新生到变革

Thepoly 发表于 2024-3-8 13:49:21

Hello . 大家好
时至年末，来盘点下今年AI都发生了哪些大事我是王掌柜

1谷歌双子座和微软新型PHI-2

时间来到2023年11月，在AI领域一系列开创性的发展中，谷歌的多模态人工智能 "双子座"（Gemini）将彻底改变Makersuite，使用户能够通过 "Stubbs "创建人工智能生成的应用程序原型；而谷歌DeepMind的下一代AlphaFold正在改变结构生物学，它能够以原子精度预测分子结构。与此同时，Luma AI 的 "Genie "颠覆了三维内容创作的格局，允许用户通过 Discord 上的文本命令生成三维模型，预示着虚拟制作和游戏行业进入了一个无障碍和创造性的新时代。这些创新共同标志着人工智能在各行各业的作用实现了飞跃，重塑了我们与技术互动的方式，为数字创意和科学研究带来了新的可能性谷歌Gemin早期解密：
https://att.element3ds.com/data/attachment/upload_media/20240308/gzned9a6ek1zkke9.mp4?form=upload_media_11601
2023年12月，谷歌对突破性的双子座人工智能（Gemini AI）进行技术解密，声称拥有 17 项强大的未来能力，从细微的视觉数据解读到科学洞察、多模态对话、创建游戏、由图像转代码等等谷歌Gemin17项技术解密：
https://att.element3ds.com/data/attachment/upload_media/20240308/yhk3h79f1hw99w6g.mp4?form=upload_media_11602
而微软也不甘示弱，12月中，微软推出的新人工智能模型Phi-2仅有27亿个参数，却在逻辑推理、数学能力、编码能力和安全标准四个关键领域超越了谷歌的Gemini和GPT-4等竞争对手，标志着人工智能发展的重大飞跃。同时，谷歌 DeepMind 的 Imagen 2 基于先进的扩散技术，推出了包括增强提示理解、逼真的人类特征、美学模型开发、防止问题输出等八大改进，为人工智能生成媒体树立了新标杆微软Phi-2技术展示：
https://att.element3ds.com/data/attachment/upload_media/20240308/nw7e22mdf77a5qq5.mp4?form=upload_media_11603
2备受关注的AI视频生成技术

年末，Stability AI 的新稳定视频扩散模型以成功的稳定扩散图像模型为基础，允许用户以可定制的帧速率生成视频，性能优于 Runway ML 和谷歌的 Pika Labs 等竞争对手。此外，MetaApp AI 还发布了 MetaDreamer，用于下一代文本到 3D 的合成Stability AI 及MetaApp AI技术展示：https://att.element3ds.com/data/attachment/upload_media/20240308/sj5i8pw8ivm8ii8z.mp4?form=upload_media_11605
https://att.element3ds.com/data/attachment/upload_media/20240308/iy1fsfw6i5oihr5r.mp4?form=upload_media_11604
Runway ML 的 Gen-2 更新预示着人工智能视频生成的新纪元，在保真度、分辨率和可访问性方面都有重大改进。Stable 3D 对文本到 3D 的处理就像 Midjourney 对图片的处理一样。RoboGen 生成模拟引入了无限的机器人训练数据，增强了自主学习能力Runway ML Gen-2技术展示：https://att.element3ds.com/data/attachment/upload_media/20240308/saz7eme9a4fs988f.mp4?form=upload_media_11606
3AI和游戏开发技术Epic Games 在其 2024 年路线图中公布了虚幻引擎 5.4 及其后续版本的一系列令人兴奋的更新，包括 Nanite 网格的动态位移和性能增强，旨在提高创作者的能力。Adobe 推出了用于视频编辑的生成式人工智能工具 Firefly Video，展示了其通过 "Fast Phil "和音频配音等功能改变视频制作的潜力，有望掀起一场行业革命。
https://att.element3ds.com/data/attachment/upload_media/20240308/t06lftrf09cbuuff.mp4?form=upload_media_11607
GPT5是OpenAI高级语言模型系列的最新迭代产品，它对GPTBot进行了最新的增强，从而在人工智能界引起了轩然大波。GPTBot是一种复杂的网络爬虫，可从互联网上收集知识，同时尊重用户隐私。GPT5 在缩小与人工通用智能（AGI）差距方面的潜力引发了争论，因为一些报道暗示它在文本和语音方面的能力将与人类的输出无异，以此向未来 AGI 推出 GPT 机器人和在线游戏
https://att.element3ds.com/data/attachment/upload_media/20240308/xcwm8d86ww4eex8e.mp4?form=upload_media_11608
4AI和图形图像技术dobe 彻底改变了数字创作，推出了三种突破性的人工智能模型，有望提高图像质量和创新的创意控制功能。加州大学洛杉矶分校和 ByteDance 推出 ActorsNeRF，通过在少量镜头设置中以出色的保真度为不可见的演员制作动画，开创了三维人体表现的新纪元。研究人员介绍了一个令人着迷的人工智能框架，该框架可为静态肖像注入生命力，无缝动画头发，模糊静态与动态之间的界限
https://att.element3ds.com/data/attachment/upload_media/20240308/bf85jgvc5c87cfe7.mp4?form=upload_media_11609
Show-1 是一种革命性的混合模式，它将文字与视频合成无缝融合，在大幅降低计算开销的同时，提供了精确度和效率。同时，最新的渲染技术 3D Gaussian Splatting 能以无与伦比的速度和清晰度将 2D 照片转化为 3D 场景，在神经辐射场领域树立了新的标准https://att.element3ds.com/data/attachment/upload_media/20240308/ov0w9xt5w0ms2vtz.mp4?form=upload_media_11610
限于篇幅，今天就分享到这里，下一期会继续盘点~- End -

famcn 发表于 2024-3-8 21:16:09

相当不错，感谢分享！

焱相燕 发表于 2024-3-9 07:45:09

学习了，谢谢分享、、、

发表于 1970-1-1 08:00:00

页: [1]

微元素's Archiver

2023年度AI技术盘点（一）：从新生到变革