谈到人工智能必然绕不开曾经火爆一时如今“过气”的网红阿尔法狗(AlphaGo)。2017年,它(他?)与当时的围棋世界冠军柯洁的惊世之战深深刻在人们的回忆中。此后,每每问到成功的秘诀,此狗都会谦虚地说,多亏了大数据和深度学习。
如今,作为人工智能另一重要分支的自动驾驶,同样继承了这两样法宝。
在人工智能的世界里。要想跑得好先要跑得多。一辆车纵使浑身上下全是雷达和摄像头,也只是具备了自动驾驶的“发达四肢“,行驶中采集的实时数据需要通过聪明的大脑来分析,才能得出正确判断。而这个大脑,需要大量的数据来进行训练,正如AlphaGo吃尽了数百万人类棋谱,并不断进行自我对弈、自我训练,才锻炼出这颗近乎完美的大脑。
具体到自动驾驶,数据最重要的两个来源则是真实世界的行车数据和虚拟世界的模拟器训练,二者缺一不可,共同驱动自动驾驶的不断进化。
测试车、量产车:跑出来的数据
真实的行车数据很好理解,它主要来源于自动驾驶测试车队和已经上路的量产车的真实数据。
得益于科技公司、车企在自动驾驶方面的不断投入,在国内一些城市,顶着旋转的小摄像头穿梭于大街小巷的测试车越来越常见。它们为自动驾驶收集了大量真实的行驶数据。根据前不久由北京智能车联产业创新中心发布的《北京市自动驾驶车辆道路测试报告(2019年)》显示,截止2019年年底,各企业进行自动驾驶路测的车辆累计达到77辆,测试总里程超过104万公里(其中百度凭借52 辆测试车辆,75.4 万公里的全年测试里程占据绝对优势)。
在2月末,加州机动车辆管理局(California Department of Motor Vehicles)也发布了一批2019年自动驾驶汽车的测试报告,列举了Waymo、GM Cruise、苹果、Uber等公司在加州的公共道路上开展测试的行驶英里数,从数万到数十万不等。
可以说,自动驾驶的路试在全球范围内正如火如荼,这些行驶数据精确而全面,是最具有含金量的。
除了主动测试,每天奔跑在全球各地的汽车也是一座无比巨大的数据金矿。受传统观念和技术的限制,它们并没有被开发利用或仅仅开发了一小部分。而随着自动驾驶的逐渐逼近,这些数据的力量将迅速崛起。
举个最典型的例子,最具科技基因的车企特斯拉在最开始的产品设计理念上便极其重视行驶数据,通过其全球用户使用Autopilot的行驶数据反过来训练并完善其自动驾驶系统,形成了非常成熟的数据闭环。每一辆奔跑着的特斯拉都在源源不断地为其提供“数据原油”。
如今这也是特斯拉最大的优势之一——让我们通过数量级的对比来感受一下:截止到2020年1月,特斯拉已采集超过20亿英里的行驶数据,相比之下最强的对手谷歌Waymo,仅收集了2000万英里的行驶数据。而上文提到的测试车辆呢?100万英里已是顶尖水平。
当然,在这一方面,“传统”车企以及网约车公司(国外的Uber、国内的滴滴等)也在不断利用各自的优势不断发力。
“虚拟”的世界,“真实”的数据
除了积累真实世界中的数据,建立在计算机上的模拟仿真测试也在变得越来越重要。
简单来讲,自动驾驶的模拟仿真测试就是通过软件模拟车辆性能和操控、交通道路状况乃至天气、环境等各项参数,让车辆在虚拟世界中行驶并积累经验——这很容易让人联想到一些模拟赛车类游戏。从形式上看,二者的确是相通的。腾讯的自动驾驶仿真系统TAD Sim(Tencent Autonomous Driving Simulator)便结合了专业的游戏引擎。如同一部大型的RPG游戏,来还原足够真实的场景。
模拟仿真测试的优势非常明显。
其一,它可以在短时间内 “喂给”自动驾驶极其庞大的数据。在计算机能力愈发强大的今天,模拟训练是非常高效的数据获取手段。毕竟它不需要遵循现实世界中的时间,且可以多线程同步运行。据数据显示,Waymo公司的模拟自动驾驶测试总里程在2019年7月就已经达到了100亿英里,而在2018年9月时,这一数字还是50亿英里。
其二,它可以测试极端情况,同时规避测试车辆的风险。有些极端场景(如恶劣天气、稀有地形、特殊事故等)可遇不可求且费时费力。实际测试时还有可能会对车辆、人员和周围环境造成危害。
其三,针对某些场景可以节约经济成本,一切都在计算机上运行,不再需要派出车辆和人力,并协调相关的测试场地。
可以说,模拟仿真测试已经成为自动驾驶必不可少的工具。然而纵观这些优势,我们又并不能得出“模拟仿真测试可以完全取代实际测试”的结论。
即使围棋再复杂,它终究是一个纵横交错绝对规律且“有限”的世界。而真实世界的各项参数则是时刻变化、无穷无尽的。个体的行为无法精确预测,道路环境每天都不一样。
因此,自动驾驶仍需要实际的经验数据和数学模型共同来回答,甚至可以说,仿真模拟测试应该更多的起到辅助作用。
依据目前的经验和理论,我们还无法断言在这两个引擎的驱动下,自动驾驶最终会发展为什么形态。但虚拟与现实并驾齐驱的发展模式正日渐明晰。