被吹爆的Sora ,为何恐怕是过誉了?
2024-03-21 19:54

被吹爆的Sora ,为何恐怕是过誉了?

本文来自微信公众号:风声OPINION (ID:ifengopinion),作者:刘正(Simon Kucher 战略咨询顾问),头图来自:视觉中国

文章摘要
Sora是一款引人注目的视频生成模型,但其技术可能被过高评价。文章指出,Sora并没有发明全新的框架,其与其他模型在技术上并无太大差异。此外,Sora还存在无法理解物理因果律、无法创造新世界以及无法展现真实世界不连续性的问题。

• 💡 Sora并没有发明全新的框架,与其他模型在技术上并无太大差异

• 💡 Sora无法理解物理因果律和展现真实世界的不连续性

• 💡 Sora无法创造新世界,只能照着人的期望值绘出最可能的“梦境”

无需赘述,2024开年大事件就是Sora,几乎所有人都见识了Sora带来的震撼:极为细腻,真实渲染,情节连续,可持续60秒的视频,如同这不可能存在的冬日樱花一样,模糊了真实和虚幻的边界。



仿佛回到ChatGPT问世的那一天,OpenAI又一次震撼了世界。


在碾过一整条赛道AI初创公司的同时,连带着助力NVIDA拿下美股史上最大涨幅(以市值计算)。看着这一片欣欣向荣的狂欢,仿佛这次真的要被西方先进生产力按在地上摩擦了。所以真的有这么可怕吗?


从技术上看,Sora恐怕是过誉了


经过数日的挖坟,业界逐渐了解到Sora是基于纽约大学助理教授谢赛宁和学生Bill Peebles (如今任职于OpenAI)共同发表的Diffusion Transformer(DiT)的思路来开发的。


Diffusion是常见的文生图算法,通过给已标注的图片加噪点直至“扩散”成完全的白噪音状态,那么将这一操作倒过来就实现了按标注从白噪音中生成与文本对应的图片。在这一点上,Sora和Stable Diffusion, Midjourney以及Open AI自家的DALLE工具没有太多差别。



Sora的独到之处,是用GPT中常用的Transformer替换此前常用的UNet模型,来生成下一帧图片。还有,为了把在ChatGPT上玩得炉火纯青的Transformer应用到视频上,OpenAI采用了独特的时空补片(Space Patch)方法(对应大语言模型中的Token)


通过把视频理解为三维空间(二维图像+一维时间)里堆叠的立方体,将其拆解成隐空间里一个个按时间排序的patch,再套用GPT的Transformer模型进行概率预测分析,最后将其解码回来即可获取后续帧的排列方式。


在生成过程里,不断重复这一步骤1440次,就得到了连续流畅,时空一致性极高的60秒视频。



无论用了多少工程上的trick,究其本质,Sora所做的仍然是开局一张图,后续全靠猜,不断输出下一帧像素的最大可能性组合。只不过OpenAI调教下的Transformer大力出奇迹,效果之好令人震惊。


但OpenAI并没有发明全新的框架,所以仅仅过了两周,Stable Diffusion 3就正式发布了,用了和Sora同款的DiT框架,在进度上咬得紧紧的。


可见,只要显卡管够,算法之下众生平等。这里并不存在去年ChatGPT刚问世时的技术代差。


Sora还不具备理解“因果律”的能力


OpenAI宣称Sora是“作为世界模拟的视频生成模型”,听起来神乎其神的。如在下面这个视频里,在不同角度的镜头切换中,人物和背景的细节一致性好的出奇,仿佛Sora是先在内部构建了人物和场景的3D模型,再对其进行“模拟拍摄”而产生的画面。



其实,这是人类自欺欺人的幻觉。


很多人都发现Sora生成视频中有些不合理之处,如这个“考古挖掘”的视频中,椅子完全不受刚性和重力影响,凭空出现,随风飘扬和变形。任何一个人都能看出这里的诡异之处。



师从丘成桐的顾险峰教授深刻讨论了这些bug背后的真相:Sora其实完全不理解真实世界的物理因果律,它只是寻找到了几何上足够平滑的点云分布。而且找到的这个分布基本是局部的最优解,缺乏对长程物理关系本质及表观的体现。


比如在下面这个视频中,老太太做了吹蜡烛的动作,但蜡烛却没有被吹灭。这是因为吹熄蜡烛是三维世界里以看不见的空气为中介“隔空”发生的物理作用。而在二维画面中,蜡烛和人物分属于隐空间中两个无关的patch,但没有任何像素来自看不见的空气,所以Sora无法在蜡烛和人物的画面间建立起因果关系,也就预测不出也画不出“吹熄”这个效果。



这就回到我们一开始所说的,Sora的本质是预测下一帧像素的最大可能性组合。但这种基于归纳的相关性统计方法,无法真正理解具有解析解的物理演绎逻辑。


语言或许可以表征人类能表达出的所有的知识和社会建构,所以大语言模型在文本生成上如鱼得水,分分钟秒杀人类做题家。


但真实的世界是物理的,具有比文本大得多的信息量,无论是图像还是文本描述都仅仅表征了其很小的侧面。


Sora能从视频里总结出牛顿万有引力那凝练的公式吗?有可能是做不到的。


再深入一层,你会发现Sora生成的视频都具有时空的连续性。所有的画面都是围绕同一元素和风格产生的连续画面(即便有分镜,背景也是一致的),没有突变点。这也很好理解,Sora的本质是预测下一帧像素的最大可能性组合,它先天就无法创造“不连续”的东西,尽管不连续才是物理世界的常态。


人对混沌和临界点具有先天的认知,Sora似乎还不能领悟这一点。Sora所呈现的,仅仅是在提示词限定下最具合理性的世界拟像,而非世界本身。


正如图灵奖得主杨立昆(Yann LeCun)指出,Sora并不真正具有AGI(通用人工智能)所需的“世界模型”,它也无法去创造新的世界。


当人类开始沉迷幻境,拒绝现实


当然,对于影视业而言,Sora已经产生了足够的冲击和恐慌。皮克斯这样的影视后期巨头,当年为了展现动画中的毛发纹理,需要“肝”几个月才能搞定物理建模和光追渲染的种种细节。如今看看Sora一键生成的高清片段,那真是一口老血喷出来。


上次ChatGPT已经让编剧工会集体罢工了,很想知道好莱坞的美工和后期程序员们会不会再次揭竿而起。


我毫不怀疑Sora会对未来的工作和生活产生巨大的影响,尤其是当它与元宇宙和AR结合起来。尽管Sora并不具有创造世界的真正智能,但其对世界的无限拟像,已经足够把大部分人玩得团团转了。


比起抖音上美颜开到最大的小姐姐,给每个人定制的Sora视频 + Apple Vision Pro的装备,可以带来好一万倍的梦幻体验,是真正的造梦机器。和影像有关的一切产业都将被重塑,未来能享受的娱乐生活将变得无比激动,像美剧《西部世界》里那样疯狂。


但Sora只是照着人的期望值绘出了最可能的那个“梦境”,而真实世界往往不按照你觉得最合理的样子运行。Sora带来的既是一个美梦,也是一个陷阱。


如果戴上AR眼镜就可以获得Sora为你量身定制的故事,你还会出门旅行吗?毕竟Sora可以给你360度展现地球上从未存在的美景。进一步思考,如果每个人都能活在专属自己的影像空间里,而这一切的边际成本接近于零,那什么才是现实?在这种情况下,现实反而是会被拒绝的存在,因为那里有太多的不确定性和变化,更不符合人的期望。


Sora可能并没有我们想象的那么神奇和智慧,但人确实足够愚蠢。很快我们就能看到有人用Sora来对老年人进行视频诈骗了,而这仅仅是个开始。


但这并非Sora的错,而是人的错。在《哈利·波特》第一部中有一面厄里斯魔镜,站在镜子前的人会发现,自己的一切渴望都会在镜中展现并满足——但仅仅在镜中。


而世界上最幸福的人,在镜子里看见的就是自己的模样。


本文来自微信公众号:风声OPINION (ID:ifengopinion),作者:刘正(Simon Kucher 战略咨询顾问)

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定