第(2/3)页 伦道夫,你开车的时候,是用眼睛还是用激光雷达? 你是用眼睛。 地球上几乎所有有智慧的生物,导航靠的都是视觉系统。 我们的大脑用的是二维感知,然后推理出三维。 激光雷达的问题是,它提供的信息太‘干净’,其实没用。 它会让系统偷懒,不去真正理解世界,只是依赖传感器的点云。 这在受控环境里可能很棒,但在真实世界,激光雷达作用下是死路一条。 再说,激光雷达很贵,复杂度高,集成度差。 汽车是一种消费产品,不是NASA的实验室。 要想实现全球规模化的自动驾驶,唯一合理的解法就是视觉。 没错,纯视觉。 特斯拉的优势在于神经网络,我们训练系统真正去‘看’世界,像人类一样。 你不能依赖一个拐杖,激光雷达就是拐杖。如果你靠它,你永远无法造出一个能像人类一样开车的AI。 所以这不是单纯的成本问题,也不是我们‘比别人好’的问题,而是物理现实,是第一性原理,视觉是最强的传感器。 未来的自动驾驶系统,如果真的要安全、普及、便宜,必然是视觉优先的。 我们只是走在前面。” 马斯克说到兴奋的时候耸了耸肩,最后总结道:“你不会看到一只鸽子挂着激光雷达飞来飞去,对吧?” “但是蝙蝠有类似雷达的用回声来定位的器官,华国已经把激光雷达的价格降低到一千元rmb,折合美元只需要200美元不到,三年前激光雷达很贵,但现在情况截然不同了。 在这个情况下,你还坚持自己的想法吗? 我也做人工智能,我反而会觉得激光雷达带来了新的信息,让人工智能更好地理解整个世界,你说激光雷达是偷懒,反而不主动拥抱更多的数据才是偷懒。 过去我们会认为模型训练算法是根本,现在发现大数据训练大模型,大模型才诞生出足够好用的LLM,激光雷达终归是在丰富数据量,增加数据维度,从算法算力和数据三原则来说,有终归比没有好。 为什么不是,一味追求现实复刻,而不是把激光雷达信息融入到模型里去,这会不会也是一种偷懒呢?”林燃反问道。 马斯克还在短暂思考。 Youtube上的弹幕已经炸锅了,“???” “200美元的激光雷达?” “不是,200美元?还不到?” 清一色的问号。 在阿美莉卡记忆里,他们还停留在激光雷达动辄大几万美元一个的印象中。 Velodyne的激光雷达单价高达七万五到八万美元之间,当然这是几年前的价格。 但哪怕是去年2023年,全年下来激光雷达的出货平均价也是4000美元左右。 现在华国的大佬出来说,两百美元不到一个,为啥不用? 可想而知,对知道价格的阿美莉卡网友的冲击,数字摆在这,堪比小红书对账的冲击力了。 “蝙蝠确实用声呐,但人类不是蝙蝠。 我们要造的是给人类开的车,而不是给蝙蝠开的车。 人类有眼睛,大脑就是用视觉在驾驶。 你想让车学会像人一样驾驶,那就用人类的感知方式。 你说激光雷达便宜了,是的,比三年前便宜很多,但关键不在价格。 关键是它没能解决核心问题:理解世界。 激光雷达给你的是点云,一个距离场,它不知道交通灯是红的还是绿的,它不知道这个是小孩还是塑料袋。 它只是一个更贵的尺子。 在人工智能领域,多数据不等于好数据。 我们当然可以往模型里灌更多输入,但信息要有信息熵,要有对理解世界有用的信号。 激光雷达在高速公路上,或者高度规则化的场景下可能有用,但在日常城市驾驶,它反而会让系统依赖一个捷径,不去构建真正的世界模型。 你提到大语言模型,对,规模很重要。 但语言模型的前提是人类语言本身就包含了整个世界的复杂性,视觉输入也一样,视觉包含了驾驶所需的全部复杂性。 如果我们加进激光雷达,神经网络可能会依赖‘简化的答案’,而不去学习真正困难但关键的部分。 所以,这不是偷懒。 恰恰相反,纯视觉是更难的路线,需要更强的网络,更大的算力,更聪明的训练,激光雷达是捷径,但走捷径你到不了终点。” 马斯克摊手笑道:“如果你愿意在你的车顶上装一堆传感器,造一辆‘科研用的高价玩具’,当然可以。 但如果你想让全世界几千万辆车都能自动驾驶,就必须走视觉路线,规模化的未来只有一条路。” 林燃说:“多模态多模态,如果连视觉和传感器的数据都没有办法融入到同一个世界里,那又谈什么多模态。 如果我们真的追求的是简单的,单一的,人是怎么理解世界,人工智能或者机器人就应该要怎么理解世界,这是一种傲慢,人类也不应该有汽车、有飞机、有火车,人类就应该只依赖双腿,不断磨炼自己的双腿。 现在的大模型,也不应该用各种结构化、非结构化的数据进行训练,它不但能对话还能输出画面、动画。 从数据到图像再到动画,LLM的大模型输出的越来越多元,反而自动驾驶还抱着原教旨主义的人工智能,认为就应该只有视觉。 现在如果我们有一个框架,能够把激光雷达的数据融入到整个模型里,真正意义上实现广义的自动驾驶,埃隆,你会认为你是错的吗?”林燃问道。 马斯克对于前面都已经习惯了,这些反驳的观点,他在后台、在推特上,甚至在特斯拉内部都能时常看到。 特斯拉打死不用激光雷达真的纯粹是第一性原理吗?又或者是网友们说的那样节约成本吗? 其实都不是,最开始是因为成本,最开始激光雷达贼贵,贵到离谱,所以你不可能光是一颗激光雷达就要大几万美元的成本。 所以最开始特斯拉就制定了纯视觉的自动驾驶方案。 后来你已经在这条技术路线里下了血本,庞大的沉没成本让特斯拉没有办法,再调头去搞什么摄像头和多传感器融合的技术路线,谁知道华国这么快就能把激光雷达的价格打下来啊。 怎么也想不到,这才三年过去,被你们打成两百美元不到的真·白菜价。 大家都是真金白银下去,华为也没有办法做纯视觉方案一个道理。 沉没成本不是那么好放弃的。 林燃接着说道:“正好,择日不如撞日,待会深红科技和华为联手打造的,搭载全球首个准L5级别的自动驾驶技术的车就会停在楼下,邀请你去尝试一下,看你能否改变态度。” 马斯克喃喃道:“L5?” 自动驾驶分成L1到L5,L3是指自动系统能够完成部分驾驶任务,司机能够把任务交给系统,但要做好随时接管的准备。 华国主流基本都停留在这个阶段,只是说因为权责划分,大家只敢在宣传的时候说我这是L2.99999无限9循环。 L4是指特定条件下的纯自动驾驶,萝卜快跑、加州的Waymo就属于这个级别,在特定区域内的全自动驾驶。 L5则是指没有条件限制的自动驾驶,系统在所有条件下完成所有驾驶任务。 林燃点头:“当然。” 身为顶级数学大师,林燃在和华为达成合作后的第一件事就是弄一个多数据集融合下的自动驾驶框架。 华为有数据,林燃出算法,在芯片层面,月球带来的半导体工艺优化补齐了最后一块短板。 现在他们唯一的问题是,虽说芯片是华国本地生产,但用的终究还是ASML的光刻机,国产光刻机尚未攻克,在这个基础上,你的产能怎么都上不去。 昇腾计算卡、麒麟芯片、自动驾驶芯片,这些都要仰仗那寥寥无几的ASML7nm制程光刻机。 产能摆在那,你很难大规模出货。 也正因如此,引进次一级的霓虹技术才显得如此重要,对华国而言是巨大无比的利益。 马斯克接着问道:“成本呢?多传感器的硬件成本是多少?” 林燃伸出五根手指:“一共不会超过5万,单位是rmb。” 这比一套特斯拉的FSD正好便宜一万,你很难认为这不是故意的。 第(2/3)页