Written by Sissi Peng• 19/02/2024• 14:30• 每日点评

【每日分析】AI视频生成模型Sora是真实世界模拟器？

随着AI板块的爆发，各大科技巨头之间的竞争愈发激烈。尤其是谷歌与微软这两个搜索引擎的老对手，都想借AI的东风，升级各自的科技服务。微软背后有OpenAI的ChatGPT技术加持，始终压谷歌一头。

不过就在上周一，谷歌重磅推出了全新语言生成模型聊天机器人。为了改变市场此前对Bard模型错误百出的固有印象，还专门改了一个名字叫Gemini。对标的正是ChatGPT，想要与之抗衡。然而，谷歌并没有高兴的了太久，就被另一个重磅新闻给打破了。

就在上周五，OpenAI又放出一个大招——Sora视频生成模型。该模型能够将文字转化成视频，再次压过谷歌一头。其实，市面上的视频生成模型并不少，例如Pika、Runway、Stability等等。不过这些模型制作出来的视频都和真实世界相差甚远，经常出现人物的突然出现或消失、物体的漂移、不符合物理规则的运动等。

Sora视频生成过程

这次Sora可不一般，和ChatGPT一样是“大力出奇迹”的产物。举一个直观的例子，一张1080的图片有200万个像素点，而1分钟的视频约2000帧，也就是说想要按照时间序列制作出一支正常的视频，就需要对40亿个像素点进行排列。这对于芯片算力的要求可以说是天文数字。就连马斯克在提到Sora的时候也说过，特斯拉需要更多算力才能生成可用于自动驾驶训练的视频。不过OpenAI这次新加了一项技术，将像素点进行打包成为patch，大大减少的计算量，这也让它的能力遥遥领先于同类对手。

灰发老人 – Sora生成视频

凭借庞大的算力支持，Sora已经将视频生成的时长从十几秒拉长至1分钟，而且可以随意切换尺寸，色彩和清晰度更是有质的提升。最重要的是，它还能够逼真地模拟真实世界。Sora的神经参数中隐含物理引擎，让其能够“理解”物理规则，例如物体掉落的加速度，高速运动的惯性以及光线的反射与折射等等。不仅如此，它还在视频的一致性、连贯性和互动性上做出了突破。由Sora生成的视频已经不再是“一眼假”的图片拼接，真正达到了“以假乱真”的程度。

这就好比拿ChatGPT和Siri相比，一个是人工智能，一个是人工智障。Sora的问世向世界证明了AI的技术仍在高速发展期，随时可能出现突破。这对于处在狂热期的科技赛道来说无疑是一针强心剂。