还是塑料袋。
它只是一个更贵的尺子。
在人工智能领域,多数据不等于好数据。
我们当然可以往模型里灌更多输入,但信息要有信息熵,要有对理解世界有用的信号。
激光雷达在高速公路上,或者高度规则化的场景下可能有用,但在日常城市驾驶,它反而会让系统依赖一个捷径,不去构建真正的世界模型。
你提到大语言模型,对,规模很重要。
但语言模型的前提是人类语言本身就包含了整个世界的复杂性,视觉输入也一样,视觉包含了驾驶所需的全部复杂性。
如果我们加进激光雷达,神经网络可能会依赖‘简化的答案’,而不去学习真正困难但关键的部分。
所以,这不是偷懒。
恰恰相反,纯视觉是更难的路线,需要更强的网络,更大的算力,更聪明的训练,激光雷达是捷径,但走捷径你到不了终点。”
马斯克摊手笑道:“如果你愿意在你的车顶上装一堆传感器,造一辆‘科研用的高价玩具’,当然可以。
但如果你想让全世界几千万辆车都能自动驾驶,就必须走视觉路线,规模化的未来只有一条路。”
林燃说:“多模态多模态,如果连视觉和传感器的数据都没有办法融入到同一个世界里,那又谈什么多模态。
如果我们真的追求的是简单的,单一的,人是怎么理解世界,人工智能或者机器人就应该要怎么理解世界,这是一种傲慢,人类也不应该有汽车、有飞机、有火车,人类就应该只依赖双腿,不断磨炼自己的双腿。
现在的大模型,也不应该用各种结构化、非结构化的数据进行训练,它不但能对话还能输出画面、动画。
从数据到图像再到动画,LLM的大模型输出的越来越多元,反而自动驾驶还抱着原教旨主义的人工智能,认为就应该只有视觉。
现在如果我们有一个框架,能够把激光雷达的数据融入到整个模型里,真正意义上实现广义的自动驾驶,埃隆,你会认为你是错的吗?”林燃问道。
马斯克对于前面都已经习惯了,这些反驳的观点,他在后台、在推特上,甚至在特斯拉内部都能时常看到。
特斯