用車智能駕駛

2025中國(guó)智駕開發(fā)者50人（第一期）

第一電動(dòng)張衛(wèi)東 2026-01-17 16:29

茨威格說過，一個(gè)真正具有世界歷史意義的時(shí)刻—— 一個(gè)人類群星閃耀的時(shí)刻出現(xiàn)以前，必然會(huì)有漫長(zhǎng)的歲月無謂地流逝而去。

類似的話，中國(guó)古人也說過：“天不生仲尼，萬古如長(zhǎng)夜”。你知道的，仲尼來的時(shí)候，不是一個(gè)人，而是一票人，他們一起爭(zhēng)奇斗艷，改寫了其后的2500年。

不知道歷史進(jìn)度條是否被突然加速了，還是這一代人原本就是這么幸運(yùn)，還是別的什么——在2024-2025年的某些時(shí)刻，我們忽然有了這樣的感覺：群星正在遙遙升起，即將劃過頭頂?shù)囊箍铡?/span>

具體的說，是2024年11月和2025年9月，中國(guó)智駕行業(yè)突然出現(xiàn)的兩次拐點(diǎn)，在【智駕大賽】上表現(xiàn)為參賽成績(jī)突然大幅提升，被參賽車友和裁判驚訝地捕捉到，快速溢出到更大范圍的車友群里。

把這兩次拐點(diǎn)串起來看，你會(huì)看到一條清晰的脈絡(luò)，這就是國(guó)內(nèi)智駕行業(yè)頭部陣營(yíng)過去兩年里攀登天梯的脈絡(luò)：

1、E2E 車端模型（參數(shù)量2B-4B），從2024年Q4的 “兩段式（感知 + 規(guī)控分階段）” 迭代為2025年Q4的 “一段式（單模型全流程）”，在結(jié)構(gòu)化城市場(chǎng)景的能力與體驗(yàn)上已逼近特斯拉FSD V13；

2、云端基座模型（參數(shù)量多為30B-70B），從2024年Q4的 “BEV+OCC+Transformer（感知底座）”，迭代升級(jí)為2025年Q4的“VLA（認(rèn)知決策）+WA（世界建模）+RL（行為優(yōu)化）+Transformer（核心骨干）”復(fù)合架構(gòu) —— 在保留原感知優(yōu)勢(shì)的基礎(chǔ)上，融入多模態(tài)理解與因果推理能力，打開了跨域應(yīng)用的大門。

2025年度，誰在推動(dòng)智駕進(jìn)步？今天起，我們將推出《2025中國(guó)智駕開發(fā)者50人》系列，分5期刊發(fā)。

入圍的80多位候選人，絕大多數(shù)在國(guó)內(nèi)，少數(shù)在國(guó)外，個(gè)別是海外華人。他們的研發(fā)成果，體現(xiàn)在過去兩年里發(fā)生的兩次智駕拐點(diǎn)上。但其中的大部分，都很低調(diào)。

入圍的標(biāo)準(zhǔn)有兩條（個(gè)別極其優(yōu)秀者例外）：

1、2025年內(nèi)，在全球頂會(huì)頂刊發(fā)表高引論文的第一作者（含合著團(tuán)隊(duì)）；

2、2025《智駕天梯榜》年度榜單上榜方案商和主機(jī)廠的核心研發(fā)人員。

經(jīng)過核實(shí)與比對(duì)，最終挑選出50位有代表性的人物。他們的身份，大體分四類：

1、學(xué)術(shù)研究者，在頂會(huì)頂刊上發(fā)表高引論文的作者（含作者團(tuán)隊(duì)）；

2、研發(fā)組織者，定投資、定方向、定目標(biāo)、定范式、定團(tuán)隊(duì)的人，類似奧本海默；

3、研發(fā)骨干，負(fù)責(zé)某一個(gè)具體方向的研發(fā)統(tǒng)籌，并和兄弟們一起拼搏出成果的人；

4、產(chǎn)品和工程負(fù)責(zé)人，負(fù)責(zé)產(chǎn)品定義、用戶交互、工程實(shí)施的人，做出了非常棒的產(chǎn)品體驗(yàn)，或者保障了連續(xù)的工程交付表現(xiàn)。

今天第一期，推薦11篇卓越論文的作者們。每篇論文都可能是團(tuán)隊(duì)協(xié)作完成，亦或由不同單位之間的團(tuán)隊(duì)協(xié)作完成。本文主要記錄第一作者，兼帶介紹合著團(tuán)隊(duì)（排名不分先后）。

#01

楊磊：在“海拔高度”中尋找純視覺感知的精確性

學(xué)術(shù)成果：《BEVHeight++: Toward Robust Visual Centric 3D Object Detection》（3D目標(biāo)檢測(cè)通用框架）

第一作者：楊磊，清華大學(xué)2020級(jí)博士研究生；合著團(tuán)隊(duì)：清華大學(xué)李駿院士團(tuán)隊(duì)

發(fā)表時(shí)間：2025年3月11日（發(fā)表于IEEE TPAMI）

（圖片來源：清華大學(xué)研究生教育）

2023年前后，視覺3D檢測(cè)正陷入一場(chǎng)“深度糾結(jié)”——行業(yè)標(biāo)配的做法是先預(yù)測(cè)“深度”，再投影。但他敏銳察覺到了視覺的天然軟肋：攝像頭預(yù)測(cè)的深度就像盲人摸象，尤其在遇到坡道或車輛顛簸時(shí)，預(yù)測(cè)出的深度會(huì)產(chǎn)生劇烈抖動(dòng)，導(dǎo)致感知結(jié)果“滿屏亂飄”。

那什么是可靠的？他和團(tuán)隊(duì)想到了“高度”。即便地面有坡度，車與路面的相對(duì)高度是相對(duì)穩(wěn)定的物理量。這就好比在原本松動(dòng)的地基（深度）旁，打下了一根名為“海拔高度”的鋼筋。通過對(duì)像素高度信息的挖掘，在不增加額外硬件傳感器（不加LiDAR）的情況下，提升了視覺感知在三維空間中的定位精度。

這意味著，可以用成本可控的攝像頭方案，達(dá)到接近昂貴傳感器的感知效果，這對(duì)降低量產(chǎn)車成本至關(guān)重要，所以BEVHeight++的角色，是“全場(chǎng)景感知的穩(wěn)定器”，它讓自動(dòng)駕駛汽車在面對(duì)復(fù)雜的上下坡、顛簸路面，以及在與智能路側(cè)設(shè)備“對(duì)話”時(shí)，擁有一雙更準(zhǔn)確、更不容易被欺騙的“三維眼睛”，它讓純視覺3D感知不再是一個(gè)“脆而易碎”的估算模型，而變成了一個(gè)具備幾何約束的穩(wěn)定工程方案。

這份學(xué)術(shù)成果的意義，是讓自動(dòng)駕駛系統(tǒng)在高速場(chǎng)景下的判斷更穩(wěn)，在復(fù)雜起伏的城市立交橋上，實(shí)現(xiàn)了打通“車路協(xié)同”最后一步的可能。

#02

曹家?。涸谒懔t線面前，讓模型“少看一點(diǎn)”

學(xué)術(shù)成果：《FastDriveVLA:Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》（基于重建的新型視覺token剪枝框架）

第一作者：曹家俊，北京大學(xué)計(jì)算機(jī)學(xué)院多媒體信息處理全國(guó)重點(diǎn)實(shí)驗(yàn)室；合著機(jī)構(gòu)：小鵬汽車

發(fā)表時(shí)間：2025年11月14日；AAAI 2026收錄公布于2025年12月28日

（圖片來源：Google Scholar）

VLA（視覺-語言-動(dòng)作大模型），它有著驚人的駕駛智慧，但體積大得驚人。成千上萬個(gè)視覺token隨時(shí)都在像潮水一樣涌入狹小的計(jì)算單元，巨大的計(jì)算開銷增加了推理延遲，算力總有跟不上的時(shí)候，這就出現(xiàn)了兩個(gè)問題：計(jì)算跑不動(dòng)、關(guān)鍵信息丟失。在瞬息萬變的時(shí)刻智駕出現(xiàn)致命“卡頓”，該怎么解決？

去年，在北京大學(xué)的實(shí)驗(yàn)室里，曹家俊（團(tuán)隊(duì)）和小鵬汽車開始審視那些被模型奉為圭臬的視覺信息——天空中的流云、路邊早已路過的廣告牌，這些token占據(jù)了大量算力資源，但對(duì)VLA輸出的行為貢獻(xiàn)不大。他們沒有粗魯?shù)亍翱车簟边@些畫面，而是像一位精細(xì)的外科醫(yī)生，開發(fā)出了一套不改動(dòng)原模型權(quán)重，但能將計(jì)算負(fù)載降低75%以上的token剪枝框架。

在研發(fā)FastDriveVLA的那段日子里，他們反復(fù)測(cè)試“刪除”的邊界，讓模型去學(xué)習(xí)，哪些像素即使消失了，也不會(huì)影響對(duì)駕駛意圖的判斷，用MAE風(fēng)格的像素重建技術(shù)，通過評(píng)估Token對(duì)前景區(qū)域重建的貢獻(xiàn)度來判斷其重要性，當(dāng)最終實(shí)現(xiàn)7.5倍的計(jì)算量縮減、且在nuScenes測(cè)試中幾乎不損失精度時(shí)，這份學(xué)術(shù)成果顯示出了它最大的意義，填補(bǔ)了智駕領(lǐng)域缺乏精細(xì)前景標(biāo)注的空白，賦予了VLA“排除雜念”的本能，讓智能模型在邁向L4時(shí)變得更輕盈、更敏捷。

#03

魯洪良：為冰冷死板的機(jī)器注入“社會(huì)直覺”

學(xué)術(shù)成果：《Empowering safer socially sensitive autonomous vehicles using human-plausible cognitive encoding》（利用類人認(rèn)知編碼賦能更安全、具有社會(huì)敏感性的自動(dòng)駕駛汽車）

第一作者：魯洪良，香港科技大學(xué)（廣州）博士；合著團(tuán)隊(duì)：東南大學(xué)、香港科技大學(xué)等團(tuán)隊(duì)

發(fā)表時(shí)間：2025年5月19日（PNAS《美國(guó)國(guó)家科學(xué)院院刊》）

（圖片來源于網(wǎng)絡(luò)）

好用的智能駕駛，應(yīng)該是同時(shí)具備高效和安全的。眼下，各類智駕系統(tǒng)都太“有禮貌”了，而這種禮貌是源于對(duì)規(guī)則的死板遵守，而非對(duì)社會(huì)的真正理解。這種機(jī)器人的生硬，往往是引發(fā)路怒和交通事故的隱性誘因。

于是，魯洪良與他的團(tuán)隊(duì)，決定做一個(gè)大膽的跨界：把人類的“認(rèn)知編碼”引入到代碼。這聽起來甚至有些哲學(xué)：如何量化“禮讓”的權(quán)重？如何讓車感知行人多變的運(yùn)動(dòng)軌跡？

他在論文中提出的“擬人化認(rèn)知編碼”，讓車輛開始具備某種“社會(huì)直覺”。比如借鑒神經(jīng)科學(xué)概念，通過編碼給系統(tǒng)看得到的交通參與者做一次風(fēng)險(xiǎn)分級(jí)，同時(shí)賦予他們差異化權(quán)重，再將加權(quán)后的風(fēng)險(xiǎn)整合成“行為信念”，最終動(dòng)態(tài)反映與潛在風(fēng)險(xiǎn)的時(shí)空關(guān)聯(lián)性。這將使得智駕系統(tǒng)，會(huì)預(yù)判自身動(dòng)作對(duì)周邊交通流的影響（比如突然變道是否會(huì)引發(fā)后車急剎），從而實(shí)現(xiàn)更平順的社會(huì)化交互。

當(dāng)算法跑通的那一刻，不再是冷冰冰的概率分布，而是車輛在路口優(yōu)雅地與其他交通參與者達(dá)成的默契。所以這份學(xué)術(shù)成果的意義，讓我們看到了智駕落地的終點(diǎn)，不是冰冷的機(jī)器接管世界，而是機(jī)器能與人類共建交通規(guī)則。

#04

明南：看清腳下路面的“褶皺”

學(xué)術(shù)成果：《TA-TOS: Terrain-Aware Tiny Obstacle Segmentation Based on MRF Road Modeling Using 3-D LiDAR Scans》（基于馬爾可夫隨機(jī)場(chǎng)的地形自適應(yīng)小型障礙物分割算法）

第一作者：明南，上海交通大學(xué)自動(dòng)化與感知學(xué)院2023級(jí)碩士；合著團(tuán)隊(duì)：上海交通大學(xué)智能網(wǎng)聯(lián)電動(dòng)汽車創(chuàng)新中心團(tuán)隊(duì)

發(fā)表時(shí)間：2025年6月10日（發(fā)表于IEEE Xplor）

（圖片來源于：上海交大智能網(wǎng)聯(lián)創(chuàng)新中心）

在上海交大智能網(wǎng)聯(lián)汽車中心的實(shí)驗(yàn)室里，明南和團(tuán)隊(duì)不斷在嘗試破解一個(gè)難題：除了肉眼可見的人、車和被標(biāo)注進(jìn)白名單的常見異型障礙物之外，有沒有一種不依賴GPU性能，專門解決坑洼碎石等小型障礙物的高精度檢測(cè)方法呢？

在研發(fā)TA-TOS期間，明南正處于碩士求學(xué)的高強(qiáng)度階段，這也是智駕技術(shù)火的發(fā)燙的技術(shù)大年，行業(yè)里都在追求“大模型”，但很少有人愿意俯下身子去研究路面的“褶皺”。

在這份學(xué)術(shù)成果里，他們像是一個(gè)手持放大鏡的偵探，引入了馬爾可夫隨機(jī)場(chǎng)（MRF）來對(duì)路面建模，經(jīng)過漫長(zhǎng)的打磨和一次次修正，最終通過負(fù)指數(shù)能量函數(shù)實(shí)現(xiàn)了障礙物的魯棒分割。這為智駕系統(tǒng)補(bǔ)上了一塊“非平整路工況”的關(guān)鍵拼圖。這份學(xué)術(shù)成果，也讓外界注意到，真正的安全好用的智駕系統(tǒng)，不僅應(yīng)具備強(qiáng)博弈能力，更應(yīng)首先能看清腳下的路。

#05

鄭宇鵬：在無標(biāo)注的荒原上，讓機(jī)器學(xué)會(huì)自我進(jìn)化

學(xué)術(shù)成果：《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》（融合多模態(tài)駕駛意圖的物理潛世界模型端到端自動(dòng)駕駛框架）

第一作者：鄭宇鵬（圖片資料暫時(shí)空缺），中國(guó)科學(xué)院自動(dòng)化研究所2024級(jí)博士；合著機(jī)構(gòu)：理想汽車

發(fā)表時(shí)間：2025年7月1日

能不能跳過人工標(biāo)注，讓汽車直接從原始傳感器數(shù)據(jù)里，自己“悟”出來一條駕駛之道？

2025年7月前，正在攻讀博士的鄭宇鵬和正全力推進(jìn)下一代智能駕駛技術(shù)的理想汽車，就一同在探索這個(gè)問題，到底能不能實(shí)現(xiàn)？

學(xué)術(shù)團(tuán)隊(duì)和理想團(tuán)隊(duì)一邊打磨物理潛空間表征理論，一邊拿著不斷投喂的新模型做實(shí)戰(zhàn)，最終他們發(fā)現(xiàn)，其實(shí)系統(tǒng)并不需要知道路上的物體叫什么，只需要知道在某種“駕駛意圖”下，未來的物理空間會(huì)怎么去演化，這就是World4Drive的核心：一個(gè)“意圖感知”的物理潛世界模型。它不再像傳統(tǒng)的視覺模型那樣，耗費(fèi)巨大算力生成華麗的像素畫面，而是在干澀但高效的“潛空間”里腦補(bǔ)出多條候選軌跡，然后再拿著預(yù)測(cè)結(jié)果和實(shí)際觀測(cè)做一輪自監(jiān)督比對(duì)，哪條路徑最穩(wěn)、哪條路徑最不容易碰撞，最終完成“閉環(huán)自校準(zhǔn)”。

實(shí)戰(zhàn)下來的效果驚人，在完全沒有人工標(biāo)注的情況下，碰撞率降低了46.7%，軌跡偏差縮小了18.1%，訓(xùn)練收斂速度提升了整整3.75倍。

這意味著系統(tǒng)可以擺脫對(duì)昂貴標(biāo)注數(shù)據(jù)的依賴，在缺失外部標(biāo)注的極端環(huán)境下也能做出安全決策。這不僅為城區(qū)NOA的決策博弈提供了關(guān)鍵路徑，也標(biāo)志著智駕會(huì)從“看見世界”邁向“理解物理規(guī)律”完成進(jìn)化。

#06

陳小雪：0.4秒，讓仿真訓(xùn)練進(jìn)入“大批量自動(dòng)化生成時(shí)代”

學(xué)術(shù)成果：《DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images》（自動(dòng)駕駛仿真場(chǎng)景的無姿態(tài)圖像4D前饋重建方案）

第一作者：陳小雪，清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）趙昊課題組；合著結(jié)構(gòu)：小米汽車

發(fā)表時(shí)間：2025年12月2日

（圖片來源于：清華大學(xué)智能產(chǎn)業(yè)研究院）

智駕行業(yè)一直有個(gè)“昂貴的門檻”：想要把一段平凡的路測(cè)視頻，復(fù)刻成可以在電腦里反復(fù)練習(xí)的4D仿真場(chǎng)景，傳統(tǒng)方法（如3DGS或NeRF）通常需要針對(duì)每個(gè)視頻進(jìn)行長(zhǎng)達(dá)數(shù)小時(shí)、甚至數(shù)天的計(jì)算優(yōu)化。更糟糕的是，如果傳感器的外參標(biāo)定有一點(diǎn)點(diǎn)偏差，生成的畫面就會(huì)像被打碎的鏡子一樣重影。對(duì)于追求“發(fā)布即量產(chǎn)、量產(chǎn)即好用”的智能駕駛系統(tǒng)來說，這種數(shù)據(jù)處理方式談不上高效，更談不上緊跟模型迭代的腳步。有沒有破局之道？

已經(jīng)在清華AIR實(shí)驗(yàn)室攻讀博士的陳小雪，她想找到這個(gè)答案，也包括小米汽車。2025年，學(xué)術(shù)團(tuán)隊(duì)和小米汽車，日復(fù)一日的在挑戰(zhàn)這個(gè)讓行業(yè)頭疼已久的效率瓶頸：能不能跳過漫長(zhǎng)的訓(xùn)練，實(shí)現(xiàn)“瞬間復(fù)刻”？

學(xué)術(shù)團(tuán)隊(duì)在扎實(shí)的幾何視覺理論基礎(chǔ)上，大膽提出了“前饋重建”的新范式，企方則拿出了端到端路測(cè)原始數(shù)據(jù)，雙方在實(shí)戰(zhàn)中反復(fù)磨合，最終誕生的DGGT框架展現(xiàn)了令人震撼的性能：它將原本數(shù)小時(shí)的重建過程縮短到了驚人的0.4秒。

這意味著，智駕每天產(chǎn)生的數(shù)百萬小時(shí)路測(cè)視頻，幾乎可以實(shí)時(shí)地轉(zhuǎn)化為可交互的4D仿真教材！更具意義的是，參與論文研發(fā)的團(tuán)隊(duì)還攻克了“Unposed（無位姿）”難題，讓系統(tǒng)能直接處理存在標(biāo)定誤差的原始數(shù)據(jù)。這份成果不僅為“閉環(huán)仿真”插上了翅膀，更標(biāo)志著智駕仿真從“手工作坊式”的精雕細(xì)琢，正式跨入了“工業(yè)級(jí)流水線”的瞬間生成時(shí)代。

#07

馬楠：讓智能駕駛“活過來”

學(xué)術(shù)成果：《Embodied Interactive Intelligence Towards Autonomous Driving》（邁向自動(dòng)駕駛的核心技術(shù)框架）

第一作者：馬楠，北京工業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院教授；合著團(tuán)隊(duì)：李德毅團(tuán)隊(duì)（中國(guó)工程院院士）

發(fā)表時(shí)間：2025年12月3日（發(fā)表于Engineering）

（圖為馬楠；圖片來源于：北京工業(yè)大學(xué)新聞網(wǎng)）

當(dāng)全行業(yè)都在通過卷參數(shù)、卷算力來提升感知精度時(shí)，馬楠教授與李德毅院士注意到了一個(gè)被忽略的深層危機(jī)：自動(dòng)駕駛車開得越來越像“準(zhǔn)時(shí)卻生硬的機(jī)器人”。在擁堵的路口，它們要么因?yàn)檫^于保守而永遠(yuǎn)動(dòng)彈不了，要么因?yàn)闊o法預(yù)判行人的運(yùn)動(dòng)軌跡而頻繁點(diǎn)頭急剎。這種“缺乏人味”的表現(xiàn)，揭示了傳統(tǒng)“感知→規(guī)劃→控制”鏈條的局限。

（圖為李德毅；圖片來源于：網(wǎng)絡(luò)）

2025年底，兩位學(xué)者和他們的團(tuán)隊(duì)，在“駕駛腦”理論的基礎(chǔ)上，正式提出了“具身交互智能”架構(gòu)。這不再是針對(duì)某一個(gè)算法的縫縫補(bǔ)補(bǔ)，而是一場(chǎng)由學(xué)術(shù)界發(fā)起的范式革命：將自動(dòng)駕駛從“看圖做題”的計(jì)算機(jī)視覺任務(wù)，徹底轉(zhuǎn)變?yōu)椤?/span>具身智能體”與物理環(huán)境的博弈與協(xié)作。

論文中尖銳地指出了當(dāng)下的三大難題：意圖對(duì)齊難、泛化能力弱、被動(dòng)響應(yīng)多。為了解決這些痛點(diǎn)，團(tuán)隊(duì)提出了一個(gè)稱為UniCVE的閉環(huán)智能架構(gòu)，同時(shí)圍繞“感知-認(rèn)知-行為”三層模型展開，構(gòu)建了一套讓汽車具備“物理直覺”和“社會(huì)常識(shí)”的認(rèn)知模型，讓系統(tǒng)根據(jù)實(shí)時(shí)反饋的信息，不斷優(yōu)化內(nèi)部預(yù)測(cè)與行為決策。這讓最終的智駕行為，不再是單純的避障，而是真正的像老司機(jī)一樣，通過輕微的位移試探或意圖表達(dá)，與周圍的行人、車輛進(jìn)行主動(dòng)溝通。

雖然距離這種完全擬人化的駕駛?cè)媛涞厣行钑r(shí)日，但這份科研成果仍具有劃時(shí)代的意義，這份構(gòu)想已成為通往L5級(jí)無人駕駛的關(guān)鍵理論支柱，它為“后端到端”時(shí)代的進(jìn)化指明了終極方向——讓車輛從一臺(tái)“按線行駛的機(jī)器”，變成有交互能力的“智能生命體”。

#08

中科院自動(dòng)化所：用世界模型解決“監(jiān)督赤字”

學(xué)術(shù)成果：《DriveVLA-W0:World Models Amplify Data Scaling Law in Autonomous Driving》（基于世界模型增強(qiáng)自動(dòng)駕駛數(shù)據(jù)規(guī)?；?yīng)的研究）

第一作者：Liyingyan（音譯李英艷，圖片資料暫時(shí)空缺）；合著結(jié)構(gòu)：引望智能

發(fā)表時(shí)間：2025年12月18日

自動(dòng)駕駛領(lǐng)域一直信奉著一條“暴力美學(xué)”定律——數(shù)據(jù)規(guī)模定律（Scaling Law）：只要投喂的數(shù)據(jù)足夠多，模型就會(huì)越聰明。然而，2025年的開發(fā)者們普遍撞上了一堵墻：監(jiān)督赤字（Supervision Deficit）。

啥是“監(jiān)督赤字”？在VLA模型里，輸入的是高維且稠密的視覺信息流，但它的監(jiān)督信號(hào)卻往往是低維且稀疏的駕駛動(dòng)作，模型的大部分表征能力都被白白浪費(fèi)了，這就導(dǎo)致了模型無法充分學(xué)習(xí)復(fù)雜的行為。正當(dāng)學(xué)術(shù)界和開發(fā)者們熱議這一瓶頸時(shí)，一支來自國(guó)內(nèi)頂尖學(xué)術(shù)機(jī)構(gòu)和華為合作的研發(fā)團(tuán)隊(duì)，在去年12月悄然給出了破解的錦囊。

研究團(tuán)隊(duì)想到了一個(gè)辦法，與其依賴稀疏的“動(dòng)作”，倒不如讓模型去學(xué)習(xí)稠密的“世界”，把預(yù)測(cè)未來圖像作為一項(xiàng)稠密的自監(jiān)督訓(xùn)練任務(wù)，也就是利用世界模型提供“稠密”的自監(jiān)督信號(hào)，大量的實(shí)驗(yàn)最終證實(shí)了：在稀疏的動(dòng)作監(jiān)督下，VLA模型的性能會(huì)隨著數(shù)據(jù)量的增加迅速飽和，所謂的Data Scaling Law效應(yīng)在此大打折扣。

也可以理解成傳統(tǒng)的VLA僅依賴稀疏的動(dòng)作監(jiān)督，而DriveVLA-W0是額外引入了稠密的視覺預(yù)測(cè)任務(wù)，迫使模型去理解環(huán)境，當(dāng)模型被要求預(yù)測(cè)下一幀的完整視覺畫面時(shí)，它就必須得學(xué)習(xí)和理解這個(gè)物理世界的真實(shí)運(yùn)行規(guī)律，這為VLA模型提供了更豐富和稠密的學(xué)習(xí)信號(hào)，從根本上緩解了“監(jiān)督赤字”，這套方案不僅提供了清晰的解題思路，也展示了世界模型在“生成”之外的另一條核心價(jià)值路徑。

#09

蔣安慶：在概率的叢林里，為智駕找尋“最優(yōu)解”

學(xué)術(shù)成果：《DiffVLA:Vision-Language Guided Diffusion Planning for Autonomous Driving》（視覺-語言引導(dǎo)擴(kuò)散規(guī)劃賦能自動(dòng)駕駛）

第一作者：蔣安慶（圖片資料暫時(shí)空缺），清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）；合著結(jié)構(gòu)：博世中國(guó)研究院

發(fā)表時(shí)間：2025年6月3日；CVPR2025正式收錄于同年6月17日

當(dāng)你開車進(jìn)入一個(gè)極其擁堵的路口，左側(cè)有加塞的公交車，右側(cè)有亂穿馬路的電動(dòng)車，作為人類司機(jī)，你的大腦其實(shí)瞬間模擬了無數(shù)種可能：是稍微減速避讓？還是果斷切斜前方通過？這種“多路徑生成與優(yōu)中選優(yōu)”的能力，正是VLA最稀缺的。

2025年初，蔣安慶與研發(fā)團(tuán)隊(duì)注意到了傳統(tǒng)端到端模型的一個(gè)通?。河捎诓捎脝我坏膭?dòng)作預(yù)測(cè)，模型在復(fù)雜博弈中往往顯得“優(yōu)柔寡斷”，或者只能給出一個(gè)平庸的平均方案。

為了破解這一局限，蔣安慶（團(tuán)隊(duì)）將大語言模型（LLM）的常識(shí)推理能力與擴(kuò)散模型（Diffusion Model）的生成能力巧妙結(jié)合，提出了DiffVLA框架，并經(jīng)過博世中國(guó)研究院進(jìn)行了大量驗(yàn)證，來確保這套復(fù)雜的數(shù)學(xué)推演能夠真正適配真實(shí)的行車邏輯。

DiffVLA的核心創(chuàng)新在于，它不再讓模型只猜一個(gè)“標(biāo)準(zhǔn)答案”。模型會(huì)首先通過視覺和語言指令理解當(dāng)前的復(fù)雜語義（如路況擁堵，請(qǐng)尋找超車空隙），隨后利用擴(kuò)散模型在空間中像“潑墨”一樣生成大量可能的候選軌跡。

最關(guān)鍵的一步是，系統(tǒng)會(huì)根據(jù)語言指令的引導(dǎo)，從這些候選方案中篩選出最符合安全、效率與舒適度的路徑。它賦予了自動(dòng)駕駛系統(tǒng)一種前所未有的“決策彈性”，也為自動(dòng)駕駛的閉環(huán)性能樹立了新的標(biāo)桿。

#10

林宏彬：讓端到端學(xué)會(huì)“思考”

學(xué)術(shù)成果：《FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model》（基于潛在思維鏈推理的自動(dòng)駕駛軌跡優(yōu)化框架）

第一作者：林宏彬，香港中文大學(xué)（深圳）博士；合著結(jié)構(gòu)：小鵬汽車

發(fā)表時(shí)間：2025年12月12日

（圖片來源于：網(wǎng)絡(luò)，侵刪）

現(xiàn)在的端到端模型反應(yīng)雖然很快，但在處理復(fù)雜路口博弈時(shí)，往往顯得有些“一根筋”。它們更像是一個(gè)只有肌肉記憶、不懂戰(zhàn)術(shù)的短跑運(yùn)動(dòng)員，看到障礙物會(huì)躲避，卻不理解“躲避”背后的連鎖反應(yīng)。人類司機(jī)的強(qiáng)大就在于會(huì)預(yù)判，比如看到路邊有皮球，腦子里會(huì)立刻跳出“后面可能會(huì)跟著小孩”，這個(gè)就叫邏輯鏈。那么，能不能給自動(dòng)駕駛也裝上這種“先思考、再動(dòng)手”的大腦？

2025年末，林宏彬和他的團(tuán)隊(duì)，與小鵬汽車一起試圖去破解智駕大模型“邏輯缺失”的頑疾。他們面臨的挑戰(zhàn)極其硬核：大語言模型的思維鏈（CoT）雖然聰明，但極度消耗算力，如果車在路口思考太久，就會(huì)產(chǎn)生致命的延遲。

他們想到了一個(gè)辦法，不在冗余的像素世界里思考，而是在極度壓縮的“潛空間（Latent Space）”里，點(diǎn)亮思維鏈。這套名為FutureX的框架，為系統(tǒng)設(shè)計(jì)了一個(gè)“自動(dòng)思考開關(guān)”，在路況簡(jiǎn)單的環(huán)路上，模型保持高效的瞬時(shí)反應(yīng)；一旦進(jìn)入人車混行的復(fù)雜工況，開關(guān)開啟，模型便會(huì)在潛空間里進(jìn)行多步未來演化的“邏輯預(yù)演”。

實(shí)戰(zhàn)數(shù)據(jù)顯示了這套“三思而后行”方案的威力。在NavSim等閉環(huán)模擬中，F(xiàn)utureX顯著降低了碰撞率，展現(xiàn)了極強(qiáng)的博弈能力。這份成果最大的意義在于，它證明了端到端系統(tǒng)不應(yīng)只是機(jī)械地模仿動(dòng)作，而應(yīng)具備邏輯推演的能力，這讓智駕大腦告別了盲目執(zhí)行，揭開了屬于智駕系統(tǒng)的“認(rèn)知”大幕

#11

特別推薦：這篇論文10年了，含金量還在上升

盡管本文人選的入圍范圍，是2025年內(nèi)在頂會(huì)/頂刊發(fā)表過高引論文的開發(fā)者，但有一個(gè)例外人選不得不提：任少卿，現(xiàn)任蔚來副總裁、自動(dòng)駕駛研發(fā)首席專家，中國(guó)科技大學(xué)講座教授。

他在2015年作為第一作者發(fā)表的《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》（基于區(qū)域建議網(wǎng)絡(luò)的實(shí)時(shí)目標(biāo)檢測(cè)），這篇讓深度學(xué)習(xí)真正具備“上車資格”的開山之作，經(jīng)過10年時(shí)間，成為智能駕駛領(lǐng)域引用數(shù)最高的（11.5萬次）經(jīng)典論文。直到今天，它依然是無數(shù)感知算法的根基，在NeurIPS 2025（人工智能頂會(huì)）獲得了時(shí)間檢驗(yàn)獎(jiǎng)。

回到2015年，那是一個(gè)感知算法極慢、完全無法用于動(dòng)態(tài)駕駛的年代。人們面對(duì)的是一個(gè)幾乎無解的矛盾：想要識(shí)別得準(zhǔn)，計(jì)算量就大得沒法跑；想要跑得快，準(zhǔn)確率就慘不忍睹。任少卿用一種近乎優(yōu)雅的物理直覺，提出了“候選區(qū)域網(wǎng)絡(luò)（RPN）”。

這個(gè)設(shè)計(jì)的精妙之處在于，它讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了“先看一眼哪里像物體”，并實(shí)現(xiàn)了特征的完美共享，直接把物體檢測(cè)的速度提到了“準(zhǔn)實(shí)時(shí)”的門檻。

10年后的今天，《Faster R-CNN》所開創(chuàng)的錨點(diǎn)框和區(qū)域建議思想，影響力還在增長(zhǎng)。超過11.5萬次的引用記錄，證明了它作為感知論文“北斗星”般的地位。

寫在最后：群星閃耀的時(shí)刻，再一次開始了

在跨越拐點(diǎn)的過程中，必然有分歧和爭(zhēng)論，有時(shí)聲音還蠻大，但都是插曲，因?yàn)闋?zhēng)論過后不久，方向和步調(diào)很快就變得一致起來。

因?yàn)樵谥袊?guó)智駕的前面，有且僅有一座高山，大家離他越來越近，近的幾乎已經(jīng)可以聽到他的心跳了。這種新鮮感讓人興奮不已。

但越過這座山之后，前方就是茫茫黑夜，再無高舉火把的手。在歷史的刻度上，我們即將到達(dá)人類認(rèn)知的新邊疆。巨大的孤獨(dú)即將襲來。怎么辦？

不知道。

但我們知道，孤獨(dú)和無助，并不是人類前進(jìn)的障礙，傲慢和無知才是。正因?yàn)楣陋?dú)和無助，才讓人類得以更好的連接。而美好的連接，會(huì)激發(fā)出探索未知的勇氣。本文推薦的11篇重磅論文的第一作者，及合著團(tuán)隊(duì)（機(jī)構(gòu)），正是勇敢探索未知的范例。

看到他們，那些年輕人的臉，相信你會(huì)有一種雞皮疙瘩炸起的感覺：群星閃耀的時(shí)刻，再一次開始了。

任少卿在十年前種下的那顆感知的種子，已升起為一顆大星。陳小雪用0.4秒的奇跡，讓機(jī)器學(xué)會(huì)了如何在瞬息間復(fù)刻出“平行世界”；楊磊為那些輕飄飄的視覺幻覺釘上了物理的骨骼。他們解決的是“真實(shí)感”的問題，讓智駕的進(jìn)化擁有了無窮無盡、且絕對(duì)可信的數(shù)字戰(zhàn)場(chǎng)。

當(dāng)數(shù)據(jù)量堆疊到令人窒息的千萬小時(shí)時(shí)，李英艷敏銳地捕捉到了“監(jiān)督赤字”的陰影，她用世界模型作為杠桿，撬動(dòng)了數(shù)據(jù)進(jìn)化的第二曲線。這種對(duì)效率的極致追求，與曹家俊那把剪向冗余Token的“手術(shù)刀”交相輝映——他們一個(gè)在為大腦擴(kuò)容，一個(gè)在為神經(jīng)減負(fù)。

更令人欣慰的變化，發(fā)生在機(jī)器的“性格”里。鄭宇鵬試圖在潛空間里尋找機(jī)器的自我意識(shí)，讓“自監(jiān)督”取代了昂貴的人工標(biāo)注；而林宏彬和蔣安慶則分別用“思維鏈”和“擴(kuò)散規(guī)劃”，教會(huì)了模型在復(fù)雜的人性博弈中學(xué)會(huì)三思而后行。從此，車不再是冰冷的鐵盒，它開始具備了某種程度上的“博弈直覺”與“決策彈性”。

最后，馬楠教授與李德毅院士提出的具身智能范式，像一顆最新的星，照亮了更遠(yuǎn)的方向：智駕不應(yīng)只是看圖做題的算法，它應(yīng)該是具備社會(huì)常識(shí)、能與人類共情的生命體。

這些勇敢的充滿創(chuàng)造力的探索，展現(xiàn)了當(dāng)代中國(guó)智駕開發(fā)者們的格局和氣象。在1月31日舉行的【2025智駕天梯榜年度盛典】上，我們將邀請(qǐng)他們中的一部分，作為“2025智駕開發(fā)者50人”的代表進(jìn)行現(xiàn)場(chǎng)分享，敬請(qǐng)關(guān)注。