国庆期间,特斯拉举办了一年一度的AI Day发布会。其中的一大看点,就是特斯拉升级了它的纯视觉算法。比如,能够对有两节车厢的超长大巴进行3D建模,能够大幅提升数据标注的效率,能够更准确高效地对车道线做出测算,等等。
不过,这次升级最重要的一点是,消除了之前纯视觉算法的一个致命bug,就是,“无法识别,就无法感知”。假如道路前方突然出现一个变形金刚,视觉算法之前没见过类似的东西,认不出来这是啥,那么,算法就会当它不存在,直接撞上去。而升级后的算法能够做到“无法识别,也可以感知”,即使我认不出来这是啥,我起码知道这是一个障碍物,惹不起躲得起,绕道而行。
当然,其实这个功能,激光雷达是具备的。但激光雷达的成本太高,一枚高性能的激光雷达要上万元,最便宜的也要3000元,而一枚高清车载摄像头模组的价格才400元。
根据远川研究所的分析,如果搭载激光雷达的话,特斯拉的智能硬件成本会直接翻倍。而且,如果用“摄像头+激光雷达”的方案,还要面临不同传感器之间的数据融合问题,非常麻烦。不同传感器的数据格式不同,工作频率也不同:激光雷达是每秒10帧,而摄像头是每秒36帧;另外,数据时间的同步也是问题。
基于这些原因,特斯拉坚定地走纯视觉自动驾驶方案,一直在迭代视觉算法。这次AI Day上拿出来的升级版本,确实惊艳,利用车身8颗摄像头,就能构建出整条道路的3D模型,能够达到类似激光雷达扫描的感知效果。未来,如果特斯拉的纯视觉算法继续迭代,能够在测速、测距能力上媲美激光雷达,并且解决好雨、雪、雾天气对视觉感知的影响,就能笑傲自动驾驶时代,以显著的成本优势碾压“激光雷达派”。
那么,国内一众走“摄像头+激光雷达”路线的厂商,现在“跳船”,投奔纯视觉派,还来得及吗?应该说,难度不小。现有纯视觉技术的最大难题在于对海量数据的标注处理,也就是,对于街景中的门牌、路标、栏杆、井盖、垃圾桶等等一一做标注。
对这些海量数据进行人工标注,工作量非常大,业内的通常做法是把这部分人工标注业务外包出去。而特斯拉已经率先开发出了自动标注工具,可以高效处理数据,比如对50万个视频片段做含有丰富语义信息的精细化标注。另外,特斯拉还自建超算中心、自研训练芯片,为的就是能够大幅提升自动化标注速度和模型训练速度。
可以说,在现有的纯视觉技术路线上,特斯拉已经领先了一个身位,其他公司想要在这条路上追赶很困难。那么,还有没有其他技术方案?自动驾驶赛道里的一位新玩家——大疆,拿出了一个新的技术路线——双目立体视觉。
你可能觉得奇怪,大疆是做无人机的,跨界做自动驾驶,是不是步子有点大?其实,在大疆看来,无人机和自动驾驶汽车,它们都是“自由移动的机器人”,只不过一个在天上,一个在地面。大疆精灵4所采用的“双目立体视觉方案”,正好可以用在自动驾驶上。
具体来说,它就是模拟人的视觉系统,通过两个临近摄像头所拍摄到的画面的视差,来还原出三维立体结构。相比于特斯拉的视觉方案,大疆双目立体视觉更接近于激光雷达的效果,不需要对海量数据进行标注和训练,可以凭借图像视差实时构建出3D地图,觉察到障碍物并避让。
当然,毕竟地面环境比无人机的空中环境要复杂得多,双目立体视觉方案要应用到自动驾驶上还有很多难题。比如车身抖动会让摄像头角度产生偏差,另外,双目系统需要对两个摄像头的图像数据做复杂的并行处理,对算法和算力的要求更高。
但不管怎么样,大疆为自动驾驶的纯视觉方案提供了一条新思路。人类通往自动驾驶的路上,不是“自古华山一条路”,而是“条条大道通罗马”。