1999年,以色列希伯来大学计算机系教授Amnon Shashua决定开始创业,项目听起来很直接:用一颗摄像头来完成车辆周边的障碍物检测。从工作原理来看,这项技术可以简单理解成为汽车装上眼睛,因此Shashua将其称为“EyeQ”。
谁也没想到,20年之后的现在,Shashua和他的Mobileye将“EyeQ”一词成功由医学领域泛化至汽车领域。人们发现,这个原本用于衡量人眼+大脑视知觉能力、形象记忆能力以及阅读能力的名词,几乎可以与摄像头+计算芯片叠加而来的视觉感知能力无缝链接。
有Mobileye在前方开路,视觉感知作为自动驾驶的底层技术能力,近年来也被推到了史无前例的高度,部分豪华车产品的整车摄像头数量已经达到甚至超过8颗。
而无论是车载摄像头硬件本身,还是与硬件匹配的算法算力,发展规模均呈现出几何级增长态势。HIS数据显示,作为手机产品之外的第二大应用场景,车载摄像头全球出货量预计会在2020年突破8000万颗,相比2016年的4000万颗再翻一倍。与此同时,车载摄像头的搭载形态也正向多元化转变,在主流的单目摄像头之外,双目量产数量增加,特斯拉Model 3也首次实现了三目落地。与之对应的,视觉芯片的图像数据计算能力也正以每年十几甚至几十倍的速度快速迭代。
在当下主流的多传感器融合路线中,视觉感知技术本身玩法固然称不上激进颠覆,却始终被认为是自动驾驶落地整体方案的基石。
某种层面上,只有理解了视觉,才能更好地认知自动驾驶。
1、初登舞台
如今看来极其主流的视觉系ADAS方案,最初受到了极大的挑战。
挑战之一,来源于视觉传感器本身。
想要进入车载市场,首先需要跨过的就是车规级的超高门槛。与大众熟悉的手机、相机镜头不同,ADAS传感器镜头格外强调产品在各类严酷环境下的稳定性,拥有持续稳定的聚焦特性和热补偿特性,日本车厂甚至要求其零公里故障率为0 PPM(PPM即“百万分之”)。
除了稳定性之外,OEM对于摄像头的尺寸也有要求。为了尽可能将尺寸减小,图像传感芯片就要在保证更高集成度的同时降低尺寸限制。
镜头硬件厂商同样面临着车规级的挑战。在建立符合车规和标准的生产线、并通过TS16949的质量体系等认证之后,他们必须要依照车规级图像传感器来匹配ADAS系统。在功能性安全方面,产品还要符合汽车安全完整性等级(ASIL)和ISO 26262,兼顾网络安全的图像传感器。
由于ADAS镜头对镜片等性能要求更高,一些视觉类能用塑料镜片解决的问题,到ADAS镜头中却会面临由温度等因素影响造成的变异,但玻璃镜片的高昂成本却又无法被大众市场接受。
除了车规级的挑战外,摄像头本身的高通光性、成像效果的清晰度、对于杂光强光的抗干扰性,均是硬性指标,考验着各大供应商的技术能力。
挑战之二,则在于多传感器的匹配。
在业内普遍的认知中,ADAS系统必须通过几项配置协调作用,利用安装在车上各式各样的传感器,让汽车在行驶过程中随时感应周围的环境,收集数据,进行静态、动态物体的辨识、侦测与追踪,并结合导航仪地图数据,进行系统的运算与分析,从而预先让驾驶者察觉到可能发生的危险,有效增加汽车驾驶的舒适性和安全性。
因此,为了实现上述一系列功能,传统方案利用各种传感器予以支持,包括视觉传感器、雷达、红外传感器等等。在这当中,不同分辨率的摄像头常常被车厂用来解决细分产品线的各种问题,也需要和其他传感器进行有机融合。
摄像头的学名即是“视觉传感器”,作为一个相对广义的概念,其中包括内视摄像头、后视摄像头、前视摄像头、侧视摄像头、环视摄像头等等。
从功能分工来看,内视摄像头主要应用于驾驶员监测系统,后视摄像头用于倒车影像,环视摄像头则用以实现“360°全景显示”功能。其中,前视摄像头作为ADAS (Advanced Driver Assistance Systems,意为高级驾驶辅助系统)的核心,用于感知车道线、障碍物、交通标志牌和地面标志、可通行空间、交通信号灯等要素,并衍生出整车FCW(前方碰撞预警系统)、LDW(车道偏离预警)以及AEB(自动紧急制动)等功能。
从结构上看,摄像头主要由镜头和后方传感器组成。单就镜头而言,有定制需求的客户需要提供传感器芯片以匹配镜头解像力(图像清晰度)水平,以及传感器所需的视场角度,来决定最终装载位置。
而在特定功能安全标准统一的前提下,部分车企需要通过附加的高分辨率摄像机来提供更加先进安全的选装功能。这就意味着在更高级别的智能驾驶部分,汽车制造商和一级供应商必须要面临较长的设计周期以及较高的工程成本。
真正的转折点出现在2014年。
那一年春天,欧盟开始实施新车碰撞测试(EURO-NCAP)新规。自此,ADAS被业界公认为能够提高汽车行驶安全的技术,并将逐渐成为智能汽车的标配,而摄像头作为成本最低、技术最为成熟的感知硬件,无疑成为了车企争相搭载的香饽饽。
这一方案的原理简单来说,就是通过拍一张或多张连续图片序列的方式,向汽车计算机下达任务指令,包括识别车辆、追踪物体、场景分割等等。在未来V2X技术逐步成熟之后,视觉传感器通过与行人、自行车等其他交通参与者沟通,充分理解当前场景,可以同时避免系统误判的情况。
这种给车辆“插眼”的思路,高度模仿了“人类基于视觉可见创建世界”的原理,因此摄像头产生的视觉图像天然包含了丰富的语义,也就情理之中地扛起了为无人车提供各种环境信息感知的任务。
更重要的是,这种摄像头基于CMOS技术运作,具备三点突出优势:低功耗、小尺寸、低成本。Mobileye埋头苦干8年的故事证明,这样一套名为“平台化图像传感器系列的产品”,能够在车载摄像头本居不高的价格基础上一再压低成本,进而加速自动驾驶技术的普及。 换句话说,即通过单一摄像机芯片将多个路况探测应用进行捆绑,可以把无人驾驶的技术成本由数十万美元直接缩减到几百块美金,同时也能节省传感器的占用空间。
从头到尾梳理清楚自动驾驶车辆视觉感知的工作原理之后可以发现,在相同技术水平下,摄像头的成本远远低于激光雷达,更何况其可见范围也超过激光雷达及毫米波雷达。作为被动传感器,摄像头也可以避免雷达光波相互干扰的问题,并且同一个摄像头能通过调整算法融合多种不同功能。
视觉感知的优势如此显著,使得该领域呈现异军突起的局势。
这项技术有多热,Mobileye被围攻的就有多惨烈。这位孵化于以色列的视觉系ADAS巨头,一方面借着东风在近几年几乎包揽了各大主流车企的相关订单,同时也遭受着来自整条产业链上下游的全方位压迫。
从Mobileye的商业模式来说,该公司是将定制化的视觉解决方案装进了基于ASIC架构的EyeQ系列芯片产品中,这本身就动了芯片厂商的蛋糕。最典型的就是人工智能大牛企业英伟达,双方甚至直接在2019 CES现场对飚起来。后者从相对通用的GPU架构入手,颇具针对性地推出了DRIVE PX,向车企开放整套技术体系,包括芯片、驱动、软件开发包、应用工具等。
与此同时,博世、日本电装、德州仪器、飞思卡尔等传统供应商们也动了凡心。有意思的是,目前飞思卡尔已被NXP收购,而近期坊间又疯狂传言称高通意图收购NXP。按照这个趋势,高通也将大概率成为Mobileye的竞争对手。更值得注意的是,车企意识到自动驾驶技术的重要性,开始自主研发相关技术,其中就包括视觉感知。
争夺蛋糕的过程中,核心技术成为各家比拼的关键。
Mobileye的拳头产品便是单目视觉传感方案。所谓单目,即车辆只装配一颗前置摄像头,将识别目标物与背后的数据库进行匹配,再进行障碍物判断与距离估算。得益于Mobileye“吃土”研发换来的先发优势,单目摄像头的算法成熟度目前相对更高。
这种摄像机模组由一个摄像机和一个镜头组成,也就意味着其测距的范围和距离完全取决于镜头,焦距越短视野越广,覆盖范围局限性较大。据悉,目前ADAS系统所要求的视距范围是40米-120米,未来将会达到200米及以上。Mobileye的产品在EyeQ5一代才刚刚赶上。此外,对于单目摄像头而言,物体越远测距精度还会降低。
关于单目摄像头方案的技术争论,集中体现在特斯拉与Mobileye经历的一场严重自动驾驶事故上。
2016年5月7日,一位特斯拉Model S车主驾车自西向东行驶,同时一辆白色货车从另一边拐下高速公路。二者相遇的时候,特斯拉汽车正处于自动驾驶状态,系统对于横向行驶的货车并没有做出任何反馈,车辆甚至从货车下面直接穿过去后仍继续行驶,连续撞击后无法运行才最终停下。对此业内人士均认为,事故很大一部分原因归结为车辆图像识别系统未能把货车的白色车厢与背后的蓝天白云区分开来。
从传感器装配角度来看,这辆特斯拉汽车的主传感器选择了Mobileye的视觉感知处理器,对前车尾部两个车灯和后车轮进行识别,选取明显特征点对车辆进行检测。也就是说,当前方车辆横向行驶时,Mobileye当时的芯片确实无法成功检测。单目视觉检测方案对于ADAS或者低阶自动驾驶而言完全够用,只是更加复杂的无人驾驶对场景语义分割要求较高,需要对每个像素进行类别判断,比如地面、建筑、天空,对不同车辆、物体有不同颜色的分类,来帮助行驶车辆理解场景和路径规划。
那次严重事故之后,特斯拉全然看清了眼前的局面:Mobileye单目摄像头的路线虽然当下占据行业领先优势,但总有一天将无法支撑其实现完全自动驾驶的目标。身为特斯拉掌门人,马斯克决定自己研发视觉感知方案。
于是我们看到,三年之后,这家毫无历史包袱的新创车企选择采用三目摄像头路线,并在特斯拉Model 3车型上首次搭载。
作为全球首个采用三目视觉感知的车型,特斯拉将三目摄像头具体分为前视窄视野摄像头(最远感知250米)、前视主视野摄像头(最远感知150米)及前视宽视野摄像头(最远感知60米,探测宽度达120度的鱼眼镜头),在视野和距离间进行了很好的平衡。在主要分工方面,宽视野摄像头负责近处测距,包括交通灯、道路障碍等近距离目标,主视野摄像头负责中距离的测距,窄视野摄像头则主管更远距离的测距。
根据各自焦距不同,每台传感器感知的范围也由远及近进行区分。三个摄像头听起来各司其职,似乎克服了单目及双目在视野局限性、测距精度、安装位置等方面的硬伤,甚至进而能够对车辆前方200米的道路环境进行精准测量。综合来看,三目可以说是当下最受欢迎的摄像头组合形式。其最大程度上模拟了人类双眼快速变焦、同时覆盖长短距范围的特性。
然而,核心问题是,摄像头数量越多,其精度误差率也就越大。这大大提升了软件和工程部门的工作难度。
一方面,三目摄像头摆脱了单目对庞大数据库的依赖,不需要对其进行更新和维护。另一方面,三目采取实时计算视差估测距离的方式,需要同时运算包括机动车、非机动车、摩托/自行车、行人、动物、道路标识、道路本身、交通灯、车道线等超过90%的环境信息。
三路数据的同步传输要求传感器具备更强的图像识别、融合算法及算力。除此之外,如果不同摄像头对同一个场景采集到的数据不同,系统后台算法却并没有一定的运算逻辑去进行审核,计算结果进入“黑匣子”,输出驾驶决策的准确性最终将无法预估。
特斯拉的勇敢在于,其身前并没有前辈把三目摄像头这条路蹚平。对于三目摄像头整个安装工程而言,前挡风玻璃的空间捉襟见肘,还要考虑镜头间由气温变化引起的测距误差。车规级制造工艺、成本、可靠性、精确性……量产车应用的问题扑面而来。
Mobileye和特斯拉两个年轻人“撕”得风生水起,老牌巨头却在旁边为自己的“先见之明”偷笑。
从技术的局限性来看,双目摄像头有可能成为单目和三目之间,更接近平衡的路线选择。
早在2016年,奔驰在S级车型中试验了双目摄像头。在智能配置方面,该产品共使用6个毫米波雷达,分别为:58和59左右前保险杠短距雷达,前向双模毫米波雷达66,60和61左右后保险杠短距雷达,62后向中远距毫米波雷达。
有意思的是,S级产品早期前向毫米波雷达使用的是博世LRR3,后更换为德国大陆汽车的ARS310。据报道,全新一代奔驰S级的毫米波雷达有可能将全部使用大陆的产品。不谈大陆在毫米波雷达领域的龙头地位,奔驰对于该硬件供应商的选择也就意味着其摄像头系统将大概率选择同一家厂商的产品。
后来的戴姆勒完全没有辜负我们的期待,实力验证了这一猜想。在2017年奔驰销量最广的E级车标配双目之后,这家传统车厂果不其然在大部分车型中装配了大陆的双目摄像头,一少部分则通过韩国LG代工。
同样青睐大陆的还有同一队列中的宝马。2015年,宝马在全新的CLAR后驱平台上发布代号为G11/G12的第六代7系车型,配置了大陆ARS4-A 77GHz毫米波雷达、超声波探头以及大陆的前视双目摄像头来支持整套ADAS系统。
后来,作为宝马在华销售主力军的3系和5系,同步贯彻了以摄像头为主的战略。在2017年4月上海车展上亮相的全新一代5系,搭载了与7系相同的前视双目摄像头系统。
有别于友商,宝马在ADAS系统配置的选择上却好像没那么坚定。宝马3系与5系在面临换代改款的压力下,最终采取了降价保量的销售策略。为此,车辆的智能化配置需要做出让步,完成中期改款的2016款3系标配了单目摄像头。
随后,宝马在中国投产并发售了一款非典型的全新UKL前驱平台,主打经济低价,产品主要为宝马X1与宝马2系旅行车。该平台产品明显舍弃了相当一部分智能配置,其中半自动泊车辅助系统采用10超声波探头替换掉12雷达,X1配备前视单目摄像头来完成FCW、LDW、PD、TSR等辅助驾驶功能。
纵使为了让渡部分成本,车厂降低了ADAS系统的配置等级,但诸如奔驰宝马等一线厂商始终愿意将双目摄像头留给自家的拳头产品。一定程度上,双目摄像头甚至称得上是奔驰S级和宝马7系的ADAS系统强大的根本原因。
当然,从核心技术层看,双目摄像头也是凭实力博得巨头们垂青的。
针对单目摄像头存在的缺陷,人们仿照人类双眼视差的三角测距原理又发明出了双目摄像头。两个摄像头同时拍摄物体,通过成像平面的像素偏移量、相机焦距和器材的实际距离进行障碍物识别。在这种模式下,传感器能够采集到精度较高的数据结果,并得到图像的深度几何信息,有助于进行图像分割及障碍物分类,也就从理论上避免了特斯拉惨剧。
可是,要想同时伺候好两个镜头并不容易。双目摄像头与人眼高度近似,镜头单体均会产生一定误差。现阶段实际应用的单目摄像头误差能够控制在3%以内,而双目要想与这一使用标准持平,后期调校算法的成本就会大幅增加。
另外,两个镜头的布置方式也有讲究,要求保持在10-20cm之间。其安装位置和距离甚至会因热胀冷缩问题产生微小的偏差,进而影响双目测距的准确性。专业人士直言,使用双目摄像头的场景相对有限,基本做不到主动巡航等功能。
双目摄像头的限制因素显而易见,在成本、制造工艺、精准度等因素的高标准严要求下,似乎很难在市场上推广。
这恰恰戳中了豪华品牌的兴奋点。相比双目能够取得的优秀效果,他们好像不太在意其中的成本差距。
路虎甚至直接把雷达从前视传感器中去掉,完全依靠双目摄像头实现ADAS功能。凭借这种激进的魄力,该公司也在NCAP中拿到了满分,获得了当年英国最佳安全车型奖。
至于双目系统的硬件,路虎选择由博世供应。此外,博世的双目系统还应用于捷豹的XFL及XE上。这家一级供应商公司包揽了毫米波雷达、单目和双目摄像头、超声波传感器、环视系统的全套生产工作,同时也在积极向车厂提供最新一代传感器。
总体而言,市面上活跃的双目系统厂商仅有大陆、博世、韩国LG、日本日立和日本电装这几家,声量相对较弱。他们进入这一细分市场的节奏,恰恰是钻了Mobileye供应链的空子。
凭借单一视觉解决方案入围的Mobileye方案并不完整,无法直接卖给相对封闭的OEM,最多扮演Tier 2的角色,其系统装机需要经过集成商的“倒手”。这时,大量Tier 1动了心思:既然本身就有能力开发自动驾驶解决方案,为什么不连视觉感知一起承包,而要采购外部方案呢?
事实上,早在1999年斯巴鲁就有过相同的想法,并且已在量产车中实现落地。
这家日本车厂也是最早将双目摄像头应用在汽车领域的玩家。从1999年推出第一代产品开始,至2013年,斯巴鲁将其更新至第三代“EyeSight驾驶辅助系统”,由CCD图像传感器改变为彩色CMOS图像传感器,通过立体摄像头进行单体控制,构建防碰撞制动系统(PCB)。
相比第二代产品,其最远探测距离从第二代的70米提高到100米,水平视角由25度扩展到35度,摄像头及处理IC等硬件由日立提供。直到2013年,其立体化摄像头实现远距,广角摄像头化以及彩色成像识别的能力之后,成功于第二年拿到世界第一ADAS系统的成绩。
这套20岁的系统基本可以说是目前公认最好的双目系统,却于2016年才正式进入中国市场,应用于全新傲虎与力狮上。具体而言,斯巴鲁EyeSight驾驶辅助系统将立体摄像头与3D图像处理器、发动机与变速箱、VDC及制动系统进行协作。摄像头主要负责采集信息,3D图像处理器则用以对数据进行实时分析后发出决策信号,对车辆的油门与制动进行主动干预。
EyeSight的实力印证了斯巴鲁技术宅的身份。如今其决定高调一把,将EyeSight装载在务实的中配车型中。相比其他厂商选择顶配车型以提升品牌形象,这位不苟言笑的日本车企反而更注用户对其技术成果的认知度。
4、未来战场
技术竞合时代,商业模式为王。
大家心里都无比清楚,当下视觉感知技术发展的主要趋势,便是将AI算法和AI芯片直接植入摄像头硬件前端,用以研发具有目标检测、分割与识别能力,甚至同时具有参数估计和行为意图预测功能的人工智能摄像头,来获得更加安全和更精准的感知性能,同时减少传统摄像头对传输带宽和传输可靠性的要求。
遵循这一要义,国内技术公司一部分转为智能网联或自动驾驶综合解决方案供应商(Tier 1),通过收购兼并等手段扩充产线,另一部分则选择从出行服务下手,聚焦自主泊车等单点服务,希望将技术方案打造成一条服务生态。
最多的还是延续自己的老本行。从某项核心技术产品突破,包括与英特尔一脉相承的嵌入式人工智能公司地平线,或是直接与Mobileye对标,通过计算机视觉等技术完成一套可量产的自动驾驶解决方案。
在自动驾驶新秀与产业链上下游的围追堵截之下,Mobileye同样也在谋划自己的拓宽路径,将视觉感知获取的数据用于定位。作为自动驾驶供应商,该公司计划以摄像头数据为基础,通过具备深度学习能力的图像识别体系,构建能够优化自动驾驶决策的高精度地图。
换句话说,就是让摄像头无限熟悉车辆行驶路径,把无人车变成一位老司机。即便车道被遮挡,ADAS系统也可以根据这张“习惯地图”操控车辆正常行驶。
与通过路测车队不断跑里程攒数据的方式相比,这种“轻地图”的模式显然更加务实。其更大的优势在于,传感器只要按照标准的接口协议提供数据即可,而高精地图图商未来大概率还要面临接口协议的问题。
回到国内市场,不少初创企业同样看到了这一契机。以国内自动驾驶厂商Maxieye智驾科技为例,其芯片产品IFVS-400支持矢量化高精地图创建,其中包括车道线地图、交通标志地图、停止线地图、斑马线地图等。为强化这部分业务,Maxieye还在嘉兴设立了一家子公司作为数据工厂,为其提供数据支撑。整体数据分为两部分:一部分用于深度学习训练,另一部分则为道路数据。
区别于在云端进行大数据汇总的地图厂商,视觉感知企业更多强调的是对通过摄像头采集的地图数据在终端生成技术的质量和精度,以保证高精地图的实时更新。对于客户而言,他们的地图数据可以说是智能驾驶产品的附加价值。这样一个地图计算引擎,成本是其最大的优势。
如今各大车企不再满足于L3级之前的辅助驾驶,咆哮着展现自己无人驾驶的肌肉,迫不及待地驾驶着自家L4-L5级自动驾驶汽车“上路”。本就错过移动浪潮的英特尔自然不会再由着Mobileye的性子,开始逐步放开自家技术体系,甚至考虑采用激光雷达作为安全冗余。
英特尔的逻辑其实十分具有代表性。
虽然视觉传感器的发展已经一路将其推上“感知能力最强元器件”的高度,但在大多数业内人士看来,拥有足够冗余的多传感器融合才是实现自动驾驶落地的终极方案。
几家典型企业的布局也力证了这一趋势。“摄像头鼻祖”Mobileye通过与英特尔体系的整合,于2018年调整了自家的视觉感知方案,在感知环节增强了冗余设计,并为激光雷达与毫米波雷达留了接口。就连叫嚣着“视觉为王”的特斯拉,也在Autopilot 8.0系统的更新中开始妥协,削弱了图像信息的权重,此前的主摄像头和图像处理系统转而向雷达探测倾斜,原先作为辅助传感器的雷达成功上位,变为主控制传感器,用来识别深度信息、进行语义分割等等。多重算法跑通后,才能形成一个合理可靠的决策。
同样来自硅谷的技术大牛Waymo则更加激进,当意识到视觉系统获取的数据相对粗糙之后,他们决定亲手打造一套自动驾驶方案,要有摄像头,也要有激光雷达,后者价格昂贵,但能够获取更精确的驾驶数据来和其它传感器抗衡。激光雷达老兵Velodyne去年表示,在扩大产能后,产品价格有望降至50美元以下。届时,激光雷达探测周围环境的精度优势无疑就能更好的发挥出来,对当下的视觉感知系统无疑将形成一股强劲的冲击波。
总体而言,纵使摄像头表现再优秀,也无法取代其他传感器的工作。其本身对于光线要求高、只能获得2D平面数据、数据处理延迟、地面异形识别障碍、工作易受外部条件干扰等等缺陷,均需要毫米波雷达、激光雷达等硬件补足。
自动驾驶终局或折或远,视觉感知技术也仅仅是破局的头一道密码。