作者 / 曹锦
OpenAI又一座里程碑——Sora,让人们对人工智能技术再次感到振奋。而在近期备受关注的大咖观点中,周鸿祎和马斯克都提到了自动驾驶。
周鸿祎认为,Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大影响——「原来的自动驾驶技术过度强调感知层面,而非认知层面…如果没有对这个世界的理解,很难做出真正的无人驾驶。」
马斯克则不服气地表示,特斯拉在大约一年前就能精确生成真实视频,只不过由于训练数据来自汽车,生成的视频并不像Sora那样丰富有趣。
不少自动驾驶技术公司目前正在积极运用大语言模型或多模态大模型,进行更加全面的仿真训练,以增强车辆对场景的理解,乃至对环境常识的认知,进而部署端到端自动驾驶方案。
(Sora可以生成动态摄像机运动的视频)
而根据Sora所展示的效果,似乎也令人看到了自动驾驶更加真实、高效的训练趋势,从而实现快速进阶。据此,首席智行官收集了业内专家及从业者的不同观点。
积极看待Sora能力
但附加前提更加重要
360公司创始人、董事长周鸿祎提出,人驾驶汽车的更多判断是基于对世界的理解,而Sora对世界的理解更上一层楼,因此对无人驾驶有启迪意义。
除了周鸿祎,许多人都认为Sora既然代表了AI的进阶,那么也预示着自动驾驶的进阶。因为类似Sora这样的视频编辑和操纵功能,可以作为自动驾驶系统中的场景重构和仿真工具;且如果工具可靠,无疑可能会推动自动驾驶实现质变。
「模拟器将成为自动驾驶系统迭代的核心发动机。」
鉴智机器人合伙人、技术副总裁潘屹峰认为,从大语言模型开始,AI因果推理能力全面提升,自动驾驶就已经全面进入认知阶段了。而Sora一次性覆盖了传感器仿真和交通流仿真两个任务,能够大幅提升数据生产效率,可以促成自动驾驶质变。
「像特斯拉、Wayve等研发端到端自动驾驶的公司,训练核心就是视频生成。」毫末智行数据智能科学家贺翔称,如果能做到结合驾驶动作生成视频,那基本上就解决了端到端自动驾驶问题。同时,这也会在一定程度上令纯视觉路线更加可靠。
(Wayve大模型GAIA-1生成的驾驶场景)
不过他也指出,目前看Sora的视频生成还有不少问题,但基于视频生成的世界模型,最终有希望端到端地解决所有机器的智能移动,包括自动驾驶、机器人等。
在场景分析层面,另一位自动驾驶从业人员则认为,Sora能够提升对于视觉信号的应用能力,有助于对自动驾驶复杂场景:交警手势、动物识别、异常事故、消防车,急救车意图等进行认知。
在Sora刚刚发布时,中科院计算所研究员山世光就曾表示,Sora对AGI世界建模问题的研究有重要推动作用——它不止可以完成文生视频,更重要的是可以被看作建模世界底层物理规律的模型。
也就是说,Sora能够了解世界运行的底层物理规律,学会了预测下一个时刻的变化。
而这种认知和预测,对于自动驾驶来说无疑是非常关键的能力。
(Sora还不能准确模拟一些基本交互的物理现象,如图中的玻璃碎裂)
不过山世光也提出,目前来看,Sora的能力还是严重不足的,仍会产生大量不符合物理规律的视觉内容。
在图森中国CTO王乃岩看来,类似Sora这样的工具,对于自动驾驶的仿真乃至数据增强来说,必然是有价值的。但至于它是不是一个可靠的世界模型,是否能实际用在驾驶任务中,还有待商榷。
「现在已经有了这么多大模型,但其可靠度仍是未知,这就使得这一前提并不成立。」
为「世界模型」打个问号
近日,Meta首席科学家Yann LeCun直言道,Sora的生成式技术并不算是世界模型,也无法代表模型理解了物理世界。各种不同的看法和质疑,也令业界谨慎审视Sora能真正发挥的作用。
对于Sora是否能应用在自动驾驶上,不少业内人士也是持观望、甚至是否定态度。
「Sora是一个文生视频的应用,也就是可以运用到视频场景仿真,以及数据生成领域。其所面向的商业视频市场,与自动驾驶场景下的商业价值相比,相差甚远。所以我不认为Sora本身会面对自动驾驶市场,而是要靠自动驾驶企业自己研发出类似Sora的工具。」
(提示词:「人们在海滩放松的真实视频,一条鲨鱼从水中冒了出来,让所有人大吃一惊。」
图源:https://twitter.com/_tim_brooks/status/1758655323576164830)
魔视智能乘用车产品副总经理张峥表示,虽然目前有多家企业都宣称在开发这样的工具,但几乎没有实际落地的。
不过同时,他并不否认Sora代表着AI算法能力的快速进展,也期待相应技术在自动驾驶领域的落地。
如若再退一步看待目前自动驾驶面临的问题,则会发现,尽管从去年开始,多家自动驾驶公司都开始积极应用大模型,但目前自动驾驶的实际效果也仍未实现质变。
(马斯克直播演示FSD V12时,在交通环境复杂的路口发生的人工干预)
王乃岩认为,在Sora出现之前,在自动驾驶领域也已经存在很多所谓的世界模型。包括马斯克所说的,特斯拉也在进行应用。
「大家做得都挺好的,但也要思考为何大模型至今仍未推动自动驾驶的质变。」
他表示,大模型技术对于自动驾驶的发展肯定是有价值的,但大模型究竟要如何应用,是不是一定意味着端到端,这其中还有很多应当探讨的问题。
「其实『端到端』本身是没问题的,但是否一定要神经网络直接输出控制信号,或者planning的路点?这还没有定论。」
在王乃岩看来,大模型要怎么和传统方法结合,是一个值得深入研究的问题。「大模型端到端对于更重视体验感的辅助驾驶来说,可能是个很好的解决方案。但是对于需要安全保障的自动驾驶来说,它与实际应用之间仍然有很大的距离。」