近日,上海人工智能实验室(上海AI实验室)联合香港科技大学、德国图宾根大学、香港大学推出首个大规模自动驾驶视频生成模型GenAD,通过预测和模拟真实世界场景,为自动驾驶技术的研究和应用提供支撑。
自动驾驶是汽车行业“下半场”竞争的核心,随着科技的飞速发展,智能驾驶技术已经成为汽车行业的热门话题。从最初的辅助驾驶系统到如今的自动驾驶技术,智能驾驶正在逐步改变我们的出行方式。但自动驾驶是一个高度复杂的技术体系,不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容,还需要适应不同国家与地区的道路规则和交通文化,与车辆及行人进行良好的交互,以实现高度的可靠性和安全性。
近年来,上海AI实验室自动驾驶团队不断突破创新,挑战各项自动驾驶研究任务,在多模态、时空融合、端到端、多任务等方面提出了新思路、新模式。
先是在通用智能大模型“书生”(INTERN)的支持下,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在nuScenes真实场景数据集下,UniAD的所有任务均达到领域最佳性能(State-of-the-art),尤其是预测和规划效果远超之前的最佳方案。其中,多目标跟踪准确率超越SOTA20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低了38%和28%,打造出了业界首个感知决策一体化的自动驾驶大模型UniAD。
随后为应对“语言+自动驾驶”具体研究方向数据短缺的现状,联合团队构建了首个含图结构的“语言+自动驾驶”全栈开源数据集DriveLM,以覆盖自动驾驶系统中的感知(Perception)、预测(Prediction)、规划(Planning)等模块。
经由人工进行复杂标注和严格的质量检查,DriveLM包含了高质量标准、信息量丰富、逻辑关联充分的驾驶相关文本数据,将助力自动驾驶系统在复杂多变的交通环境中使用语言模态应对复杂任务。
此次联合团队将开源模型(SDXL)置于驾驶视频数据集OpenDV-2K进行训练,使之获得了第一人称驾驶视角图像的生成能力。随后,设计并引入了因果时序模块,包括为驾驶视频生成特别设计的解耦空间注意力、因果时序注意力和长时序交互机制,并在OpenDV-2K上进行视频预测训练,以此构建起GenAD模型。
自动驾驶是一个高度复杂的技术体系,不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容,还需要适应不同国家与地区的道路规则和交通文化,与车辆及行人进行良好的交互,以实现高度的可靠性和安全性。
上海AI实验室表示,联合团队构建了驾驶视频数据集OpenDV-2K。经过视觉语言模型(VLM)筛选、人工质检等工序,数据集收录了2059小时第一人称视角驾驶视频,覆盖超过244个城市场景,规模为当前之最。目前该数据集已用于GenAD预训练,同时向全社会开源。
同时上海AI实验室也认为,“世界模型”被视为通向通用人工智能(AGI)的重要路径,其可在不实际执行的情况下对未来结果进行预测,从而使模型作出更有效的决策。在自动驾驶领域,特斯拉、Wayve等机构纷纷尝试通过世界模型的研究提升自动驾驶的安全性。
得益于其强大的预测和可泛化能力,涵盖大规模驾驶场景的GenAD为自动驾驶大模型向世界模型迈进提供了重要技术潜力。未来,联合团队将进一步扩展驾驶视频数据集的规模,并持续研究以预测未来能力为核心的基础模型,推动理解复杂世界、三维空间和抽象概念性能提升。
近年来上海在自动驾驶领域持续发力,并取得了较好的成绩。2018年以来,上海分阶段、分批次开放自动驾驶测试道路,打造了嘉定、临港、奉贤、金桥四个各具特色的示范区。2023年3月22日,《上海市浦东新区促进无驾驶人智能网联汽车创新应用规定实施细则》(以下简称《实施细则》)正式发布,该规定是我国首部针对无驾驶人智能网联汽车创新应用的地方性法规。获得牌照的企业可以在浦东新区行政区域内划定的路段、区域开展车内全无人的智能网联汽车道路测试。
就在3月19日,浦东新区第二批自动驾驶开放测试道路新增了金桥经济技术开发区全域及浦东申江路、沪南公路、两港公路等“南北科创走廊通道”道路开放为自动驾驶测试道路。本次开放测试道路共205公里,这是继2022年开放首批12条、29.3公里自动驾驶测试道路后,浦东新区开放的第二批自动驾驶测试道路。至此,上海已累计开放测试道路达1003条,总里程突破2000公里。
截至目前,已有32家企业、794辆车获得道路测试、示范应用、示范运营牌照,累计测试里程约2290万公里,测试总时长约122万小时,企业参与度、测试道路里程数和场景丰富度位居全国前列。