作者 | Jessie
出品 | 焉知
自動駕駛領(lǐng)域的發(fā)展見證了采用端到端算法框架的方法的快速增長,這些方法利用原始傳感器輸入來生成車輛運(yùn)動計(jì)劃,而不是專注于檢測和運(yùn)動預(yù)測等單個任務(wù)。與模塊化管道相比,端到端系統(tǒng)受益于感知和規(guī)劃的聯(lián)合特征優(yōu)化。由于大規(guī)模數(shù)據(jù)集的可用性、閉環(huán)評估以及對自動駕駛算法在具有挑戰(zhàn)性的場景中有效執(zhí)行的需求不斷增加,該領(lǐng)域蓬勃發(fā)展。
傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化部署策略,其中感知、預(yù)測、規(guī)劃等各個功能都是單獨(dú)開發(fā)并集成到車載車輛中。規(guī)劃或控制模塊負(fù)責(zé)生成轉(zhuǎn)向和加速輸出,在確定駕駛體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。模塊化Pipeline中最常見的規(guī)劃方法涉及使用復(fù)雜的基于規(guī)則的設(shè)計(jì),這通常無法有效解決駕駛時發(fā)生的大量情況。因此,利用大規(guī)模數(shù)據(jù)并使用基于學(xué)習(xí)的規(guī)劃作為可行的替代方案的趨勢日益明顯。我們將端到端自動駕駛系統(tǒng)定義為完全可微分的程序,該程序?qū)⒃紓鞲衅鲾?shù)據(jù)作為輸入并生成計(jì)劃或低級控制操作作為輸出。圖 1 (a)-(b) 說明了經(jīng)典公式和端到端公式之間的差異。傳統(tǒng)方法將每個組件的輸出(例如邊界框和車輛軌跡)直接輸入后續(xù)單元(虛線箭頭)。相反,端到端范式跨組件傳播特征表示(灰色實(shí)線箭頭)。例如,優(yōu)化函數(shù)設(shè)置為規(guī)劃性能,并通過反向傳播(紅色箭頭)最小化損失,在此過程中任務(wù)得到聯(lián)合全局優(yōu)化。
圖 1:自動駕駛端到端整體概覽
本文首次提供了端到端自動駕駛的全面分析,包括高層動機(jī)、方法論、基準(zhǔn)等。我們提倡的不是單個模塊的優(yōu)化,而是整體設(shè)計(jì)算法框架的理念,最終目標(biāo)是實(shí)現(xiàn)安全舒適的駕駛。1、端到端系統(tǒng)的動機(jī)
在經(jīng)典Pipeline中,每個模型都提供獨(dú)立的組件并對應(yīng)于特定的任務(wù)(例如交通燈檢測)。這樣的設(shè)計(jì)在可解釋性、可驗(yàn)證性和易于調(diào)試方面是有益的。然而,由于各個模塊的優(yōu)化目標(biāo)不同,感知中的檢測追求平均精度(mAP),而規(guī)劃則以駕駛安全性和舒適性為目標(biāo),整個系統(tǒng)可能不會朝著一個統(tǒng)一的目標(biāo),即最終的規(guī)劃/控制任務(wù)。隨著順序過程的進(jìn)行,每個模塊的錯誤可能會加劇并導(dǎo)致驅(qū)動系統(tǒng)的信息丟失。此外,多任務(wù)、多模型部署可能會增加計(jì)算負(fù)擔(dān),并可能導(dǎo)致計(jì)算使用不佳。
與傳統(tǒng)的對應(yīng)系統(tǒng)相比,端到端自治系統(tǒng)具有多種優(yōu)勢。(a) 最明顯的優(yōu)點(diǎn)是它簡單地將感知、預(yù)測和規(guī)劃結(jié)合到一個可以聯(lián)合訓(xùn)練的模型中。(b) 整個系統(tǒng),包括其中間表示,針對最終任務(wù)進(jìn)行了優(yōu)化。(c) 共享主干網(wǎng)提高了計(jì)算效率。(d) 數(shù)據(jù)驅(qū)動的優(yōu)化有可能通過簡單地?cái)U(kuò)展培訓(xùn)資源來提供改進(jìn)系統(tǒng)的新興能力。
請注意,端到端范式不一定表示只有規(guī)劃/控制輸出的黑匣子。它可以像經(jīng)典方法一樣采用中間表示和輸出進(jìn)行模塊化(圖 1 (b))。事實(shí)上,一些最先進(jìn)的系統(tǒng)提出了模塊化設(shè)計(jì),但同時優(yōu)化所有組件以實(shí)現(xiàn)卓越的性能。
本文重點(diǎn)說明了三種流行的范式,包括兩種模仿學(xué)習(xí)框架(行為克隆和逆最優(yōu)控制)以及在線強(qiáng)化學(xué)習(xí)。
2、方法
本文回顧大多數(shù)現(xiàn)有端到端自動駕駛方法背后的基本原理。并討論了使用模仿學(xué)習(xí)的方法,并提供了兩個最流行的子類別的詳細(xì)信息,即行為克隆和逆最優(yōu)控制。最后,總結(jié)了遵循強(qiáng)化學(xué)習(xí)范式的方法。
圖 2:端到端自動駕駛方法概述
2.1 模仿學(xué)習(xí)模仿學(xué)習(xí)(IL),也稱為從演示中學(xué)習(xí),通過模仿專家的行為來訓(xùn)練智能體學(xué)習(xí)最優(yōu)策略。IL 需要數(shù)據(jù)集





2.2 行為克隆
行為克隆BC 在駕駛?cè)蝿?wù)中的早期應(yīng)用利用端到端神經(jīng)網(wǎng)絡(luò)從攝像頭輸入生成控制信號。在行為克隆中,將代理策略與專家策略相匹配的目標(biāo)是通過最小化計(jì)劃損失來實(shí)現(xiàn)的,作為收集數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)問題:


然而,存在一些與行為克隆相關(guān)的常見問題。在訓(xùn)練過程中,行為克隆將每個狀態(tài)視為獨(dú)立且相同分布,從而導(dǎo)致一個稱為協(xié)變量偏移的重要問題。對于一般的IL,已經(jīng)提出了幾種在策略方法來解決這個問題。在端到端自動駕駛的背景下,行為克隆的另一個常見問題是因果混淆,即模仿者利用并依賴某些輸入組件和輸出信號之間的錯誤相關(guān)性。這個問題已經(jīng)在中的端到端自動駕駛的背景下進(jìn)行了討論。基于模仿學(xué)習(xí)的端到端自動駕駛的這兩個具有挑戰(zhàn)性的問題將在后續(xù)文段中進(jìn)一步討論。
2.3 行為克隆
成本學(xué)習(xí)方法仍然存在一些挑戰(zhàn)。特別是,為了產(chǎn)生更現(xiàn)實(shí)的成本,通常會結(jié)合高清地圖、輔助感知任務(wù)和多個傳感器,這增加了多模態(tài)多任務(wù)框架的學(xué)習(xí)和構(gòu)建數(shù)據(jù)集的難度。為了解決這個問題,MP3、ST-P3和 IVMP放棄了先前工作中使用的 HD 地圖輸入,并利用預(yù)測的 BEV 地圖來計(jì)算交通規(guī)則的成本,例如靠近中心線并避免與道路邊界發(fā)生碰撞。上述成本學(xué)習(xí)方法顯著增強(qiáng)了自動駕駛汽車決策的安全性和可解釋性,相信受行業(yè)啟發(fā)的端到端系統(tǒng)設(shè)計(jì)是真正實(shí)現(xiàn)自動駕駛汽車決策的可行方法。
2.4 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)是一個通過反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)的領(lǐng)域。深度Q網(wǎng)絡(luò)(DQN)在Atari 2600基準(zhǔn)上實(shí)現(xiàn)人類級別的控制的成功已經(jīng)普及了深度強(qiáng)化學(xué)習(xí)。DQN 訓(xùn)練一個稱為批評家(或 Q 網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將當(dāng)前狀態(tài)和操作作為輸入,并預(yù)測該操作的貼現(xiàn)未來獎勵(當(dāng)隨后遵循相同的策略時)。然后通過選擇具有最高 Q 值的操作來隱式定義策略。強(qiáng)化學(xué)習(xí)需要一個允許執(zhí)行潛在不安全操作的環(huán)境,因?yàn)樗枰剿鳎ɡ纾袝r在數(shù)據(jù)收集期間執(zhí)行隨機(jī)操作)。此外,強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)需要更多的數(shù)據(jù)來訓(xùn)練。因此,現(xiàn)代強(qiáng)化學(xué)習(xí)方法通常會跨多個環(huán)境并行數(shù)據(jù)收集。在現(xiàn)實(shí)汽車中滿足這些要求提出了巨大的挑戰(zhàn)。因此,幾乎所有在自動駕駛中使用強(qiáng)化學(xué)習(xí)的論文都只研究了仿真技術(shù)。
實(shí)際上,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合已成功應(yīng)用于自動駕駛。隱式可供性、GRI都使用監(jiān)督學(xué)習(xí)、語義分割和分類等輔助任務(wù)來預(yù)訓(xùn)練其架構(gòu)的 CNN 編碼器部分。在第二階段,預(yù)訓(xùn)練的編碼器被凍結(jié),并使用現(xiàn)代版本的 Q 學(xué)習(xí)對凍結(jié)圖像編碼器的隱式可供性進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)也已成功用于微調(diào) CARLA 上的完整架構(gòu),這些架構(gòu)是使用模仿學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練的。
強(qiáng)化學(xué)習(xí)還被有效地應(yīng)用于網(wǎng)絡(luò)可以訪問特權(quán)模擬器信息的規(guī)劃或控制任務(wù)。本著同樣的精神,強(qiáng)化學(xué)習(xí)已應(yīng)用于自動駕駛的數(shù)據(jù)集管理。Roach在特權(quán) BEV 語義分割上訓(xùn)練 RL 方法,并使用該策略自動收集用于訓(xùn)練下游模仿學(xué)習(xí)代理的數(shù)據(jù)集。WoR 采用 Q 函數(shù)和表格動態(tài)規(guī)劃來為靜態(tài)數(shù)據(jù)集生成附加或改進(jìn)的標(biāo)簽。
該領(lǐng)域未來的挑戰(zhàn)是將模擬結(jié)果轉(zhuǎn)移到現(xiàn)實(shí)世界。在強(qiáng)化學(xué)習(xí)中,目標(biāo)被表示為獎勵函數(shù),大多數(shù)算法要求這些獎勵函數(shù)是密集的,并在每個環(huán)境步驟提供反饋。當(dāng)前的工作通常使用簡單的目標(biāo),例如進(jìn)度和避免碰撞,并將它們線性組合。這些簡單化的獎勵函數(shù)因鼓勵冒險行為而受到批評。設(shè)計(jì)或?qū)W習(xí)更好的獎勵函數(shù)仍然是一個懸而未決的問題。另一個方向是開發(fā)可以處理稀疏獎勵的強(qiáng)化學(xué)習(xí)算法,從而直接優(yōu)化相關(guān)指標(biāo)。強(qiáng)化學(xué)習(xí)可以與世界模型有效結(jié)合,當(dāng)前自動駕駛的 RL 解決方案嚴(yán)重依賴于場景的低維表示。
強(qiáng)化學(xué)習(xí)已經(jīng)證明了在空蕩蕩的街道上的真車上成功學(xué)習(xí)車道跟隨。盡管早期結(jié)果令人鼓舞,但必須指出的是,三十年前就已經(jīng)通過模仿學(xué)習(xí)完成了類似的任務(wù)。迄今為止,還沒有報告顯示強(qiáng)化學(xué)習(xí)端到端訓(xùn)練的結(jié)果可以與模仿學(xué)習(xí)相媲美。在與 CARLA 模擬器發(fā)布一起進(jìn)行的直接比較中,強(qiáng)化學(xué)習(xí)遠(yuǎn)遠(yuǎn)落后于模塊化Pipeline和端到端模仿學(xué)習(xí)。這種失敗的原因很可能是通過強(qiáng)化學(xué)習(xí)獲得的梯度不足以訓(xùn)練駕駛所需的深度感知架構(gòu)(ResNet 規(guī)模)。RL取得成功的 Atari 等基準(zhǔn)測試中使用的模型相對較淺,僅由幾個層組成。
3、標(biāo)桿管理
自動駕駛系統(tǒng)需要對其可靠性進(jìn)行全面評估以確保安全。為了實(shí)現(xiàn)這一目標(biāo),研究人員必須使用適當(dāng)?shù)臄?shù)據(jù)集、模擬器和指標(biāo)對這些系統(tǒng)進(jìn)行基準(zhǔn)測試。端到端自動駕駛系統(tǒng)大規(guī)模基準(zhǔn)測試有兩種方法:
(1)模擬中的在線或閉環(huán)評估;
(2)人類駕駛數(shù)據(jù)集的離線或開環(huán)評估。其中需要特別關(guān)注更有原則性的在線設(shè)置,并提供離線評估的簡要總結(jié)以確保完整性。
4、挑戰(zhàn)對于圖 1 中所示的每個主題/問題,我們現(xiàn)在討論相關(guān)工作、當(dāng)前挑戰(zhàn)以及有希望的未來趨勢和機(jī)遇。我們先基于處理不同輸入方式和公式相關(guān)的挑戰(zhàn)開始。然后是關(guān)于高效政策學(xué)習(xí)的視覺抽象的討論。此外,我們還介紹了學(xué)習(xí)范式,例如世界模型學(xué)習(xí)、多任務(wù)框架和策略蒸餾。最后,我們討論阻礙安全可靠的端到端自動駕駛的一般問題,包括可解釋性、因果混亂、穩(wěn)健性和普遍性。
不同的模式具有不同的特征,因此,需要有效融合它們并關(guān)注行動關(guān)鍵特征的挑戰(zhàn)。這里我們以點(diǎn)云和圖像為例來描述各種融合策略。
4.1 輸入方式
4.1.1多傳感器融合
盡管早期的工作成功實(shí)現(xiàn)了簡單的自動駕駛?cè)蝿?wù),例如使用單目攝像頭進(jìn)行車道跟蹤,但這種單一輸入模式不足以處理復(fù)雜的場景。因此,最近的自動駕駛汽車上引入并配備了各種傳感器,如圖4所示。
特別是,來自攝像頭的RGB圖像自然地復(fù)制了人類如何感知世界,具有豐富的語義視覺信息;LiDAR 或立體相機(jī)提供準(zhǔn)確的 3D 空間知識。此外,車速表和 IMU 的速度和加速度等車輛狀態(tài)以及高級導(dǎo)航命令是指導(dǎo)端到端系統(tǒng)的其他輸入線。然而,各種傳感器具有不同的視角和數(shù)據(jù)分布,它們之間的巨大差距給自動駕駛的有效融合、互補(bǔ)帶來了巨大挑戰(zhàn)。
多傳感器融合主要在感知相關(guān)領(lǐng)域進(jìn)行討論,例如物體檢測、跟蹤和語義分割,通常分為三類:早期、中、后期融合。端到端自動駕駛算法探索類似的融合方案。早期融合意味著在將感知信息輸入特征提取器之前對其進(jìn)行組合。串聯(lián)是融合各種輸入的常用方法,例如圖像和深度、BEV點(diǎn)云和高清地圖等,然后使用共享特征提取器對其進(jìn)行處理。還有在 BEV 上繪制與透視圖像相同大小的 LiDAR 點(diǎn),并將它們組合作為輸入。為了解決視圖差異,一些工作嘗試在 2D 圖像上投影點(diǎn)云或通過提前預(yù)測圖像的語義標(biāo)簽為每個 LiDAR 點(diǎn)附加一個附加通道。另一方面,后期融合方案結(jié)合了多模態(tài)的多個結(jié)果。由于其性能較差,因此討論較少。
與這些方法相反,中間融合通過單獨(dú)編碼輸入,然后在特征級別將它們組合來實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)的多傳感器融合。通用串聯(lián)模式也經(jīng)常被用來融合來自不同模態(tài)的特征。最近,有研究采用 Transformers來模擬特征對之間的交互。Transfuser使用兩個獨(dú)立的卷積編碼器處理圖像和 LiDAR 輸入,將每個分辨率的特征與 Transformer 編碼器互連,從而產(chǎn)生四階段特征融合。自注意力層用于傳感器Token令牌,關(guān)注感興趣的區(qū)域并更新來自其他模式的信息。MMFN 進(jìn)一步在 Transfurser 之上整合了 OpenDrive 地圖和雷達(dá)輸入。采用單級 Transformer 編碼器架構(gòu)來融合最后一個編碼器塊之后的各種特征。注意力機(jī)制在聚合不同傳感器輸入的上下文和實(shí)現(xiàn)更安全的端到端駕駛性能方面表現(xiàn)出了巨大的有效性。
4.1.2語言輸入自動駕駛系統(tǒng)
人類使用視覺感知和內(nèi)在知識(例如交通規(guī)則和所需路線)來駕駛汽車,它們共同形成因果行為。在一些與自動駕駛相關(guān)的領(lǐng)域,例如機(jī)器人和室內(nèi)導(dǎo)航(也稱為嵌入式人工智能),將自然語言作為細(xì)粒度指令來控制視覺運(yùn)動代理已取得顯著進(jìn)展。
然而,室外自動駕駛?cè)蝿?wù)與室內(nèi)機(jī)器人應(yīng)用相比,在以下情況下具有不同的特點(diǎn):
(1)室外環(huán)境未知,車輛無法來回探索。
(2)鮮明的錨點(diǎn)標(biāo)志很少,給語言指令的落地帶來了巨大的挑戰(zhàn)。
(3)駕駛場景更加復(fù)雜,具有連續(xù)的動作空間和高度動態(tài)的代理。
操縱過程中,安全是重中之重。為了將語言知識融入到駕駛行為中,Talk2Car數(shù)據(jù)集提供了在室外環(huán)境中定位參考對象的基準(zhǔn)。Talk2Nav、TouchDown和 Map2Seq數(shù)據(jù)集引入了使用 Google 街景的視覺語言導(dǎo)航任務(wù)。將世界建模為離散連接圖,并需要以節(jié)點(diǎn)選擇格式導(dǎo)航到目標(biāo)。HAD首先采用人對車的建議,并使用基于 LSTM 的控制器添加視覺接地任務(wù)。將自然語言指令編碼為高級行為,包括左轉(zhuǎn)、右轉(zhuǎn)、不左轉(zhuǎn)等,并在 CARLA 模擬器中驗(yàn)證他們的語言引導(dǎo)導(dǎo)航方法。后面,相關(guān)研究又通過關(guān)注文本動作命令來解決低級實(shí)時控制問題。最近,CLIP-MC和 LM-Nav 利用 CLIP,受益于大規(guī)模視覺語言預(yù)訓(xùn)練,從指令中提取語言知識,從圖像中提取視覺特征。它們展示了預(yù)訓(xùn)練模型的優(yōu)勢,并為使用多模態(tài)模型解決復(fù)雜的導(dǎo)航任務(wù)提供了一個有吸引力的原型。不同的模式通常會帶來更大的視野和感知準(zhǔn)確性,但融合它們來提取端到端自動駕駛的關(guān)鍵信息還需要進(jìn)一步探索。必須在統(tǒng)一空間(例如 BEV)中對這些模式進(jìn)行建模,識別與政策相關(guān)的背景,并丟棄不相關(guān)的感知信息。此外,充分利用強(qiáng)大的 Transformer 架構(gòu)仍然是一個挑戰(zhàn)。自注意力層將所有令牌互連以自由建模其感興趣的領(lǐng)域,但它會產(chǎn)生大量的計(jì)算成本,并且不能保證有用的信息提取。感知領(lǐng)域更先進(jìn)的基于 Transformer 的多傳感器融合機(jī)制,也在逐步應(yīng)用于端到端駕駛?cè)蝿?wù)。
4.2 視覺抽象
端到端自動駕駛系統(tǒng)大致分兩個階段實(shí)現(xiàn)操縱任務(wù):將狀態(tài)空間編碼為潛在特征表示,然后用中間特征解碼駕駛策略。在城市駕駛的情況下,輸入狀態(tài),即周圍環(huán)境和自我狀態(tài),與視頻游戲等常見的政策學(xué)習(xí)基準(zhǔn)相比更加多樣化和高維。因此,首先使用代理預(yù)訓(xùn)練任務(wù)來預(yù)訓(xùn)練網(wǎng)絡(luò)的視覺編碼器是有幫助的。這使得網(wǎng)絡(luò)能夠有效地提取對駕駛有用的信息,從而促進(jìn)后續(xù)的策略解碼階段,同時滿足所有端到端算法的內(nèi)存和模型大小限制。此外,這可以提高 RL 方法的樣本效率。
視覺抽象或表示學(xué)習(xí)的過程通常包含某些歸納偏差或先驗(yàn)信息。為了實(shí)現(xiàn)比原始圖像更緊湊的表示,一些方法直接利用預(yù)訓(xùn)練分割網(wǎng)絡(luò)中的語義分割掩模作為后續(xù)策略訓(xùn)練的輸入表示。SESR更進(jìn)一步,通過 VAE 將分割掩碼編碼為類解纏結(jié)表示。另外,預(yù)測的可供性指標(biāo),例如交通燈狀態(tài)、速度、車道中心偏移、危險指標(biāo)和與領(lǐng)先車輛的距離,被用作策略學(xué)習(xí)的表示。
在觀察到分割或可供性作為表示可能會造成人類定義的瓶頸并導(dǎo)致有用信息的丟失后,一些人選擇了預(yù)訓(xùn)練任務(wù)中的中間潛在特征作為有效的表示。ImageNet預(yù)訓(xùn)練模型的早期層可以作為有效的表示。采用通過語義分割和/或可供性預(yù)測等任務(wù)預(yù)先訓(xùn)練的潛在表示作為強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入,并取得優(yōu)異的性能。比如,有在VAE中的潛在特征通過從分割的擴(kuò)散邊界和深度圖獲得的注意力圖來增強(qiáng),以突出重要區(qū)域。或者通過運(yùn)動預(yù)測和深度估計(jì)以自我監(jiān)督的方式在未標(biāo)記的駕駛視頻上學(xué)習(xí)有效的表示。也有利用一系列先前任務(wù)的數(shù)據(jù)來執(zhí)行與任務(wù)相關(guān)的不同預(yù)測任務(wù),以獲得有用的表示。同時,潛在表示是通過近似來學(xué)習(xí)互模擬度量,由動態(tài)模型的獎勵和輸出的差異組成。除了這些帶有監(jiān)督預(yù)測的預(yù)訓(xùn)練任務(wù)之外,還采用了基于增強(qiáng)視圖的無監(jiān)督對比學(xué)習(xí)。進(jìn)一步將轉(zhuǎn)向角辨別添加到對比學(xué)習(xí)結(jié)構(gòu)中。
由于當(dāng)前的方法主要依賴于人類定義的預(yù)訓(xùn)練任務(wù),因此學(xué)習(xí)到的表示不可避免地存在可能的信息瓶頸,并且可能包含與駕駛決策無關(guān)的冗余信息。因此,如何在表示學(xué)習(xí)過程中更好地提取驅(qū)動政策的關(guān)鍵信息仍然是一個懸而未決的問題。
4.3 世界模型和基于模型的強(qiáng)化學(xué)習(xí)
除了更好地抽象感知表示的能力之外,端到端模型對未來做出合理的預(yù)測以采取安全的操作也至關(guān)重要。在本節(jié)中,我們主要討論當(dāng)前基于模型的政策學(xué)習(xí)工作的挑戰(zhàn),其中世界模型為政策模型提供了明確的未來預(yù)測。
深度強(qiáng)化學(xué)習(xí)通常會面臨樣本復(fù)雜度高的挑戰(zhàn),這對于自動駕駛等任務(wù)來說尤其明顯,因?yàn)闃颖究臻g很大。基于模型的強(qiáng)化學(xué)習(xí)(MBRL)通過允許代理與學(xué)習(xí)的世界模型而不是實(shí)際環(huán)境進(jìn)行交互,為提高樣本效率提供了一個有前途的方向。MBRL方法顯式地對世界模型/環(huán)境模型進(jìn)行建模,該模型由過渡動力學(xué)和獎勵函數(shù)組成,并且代理可以以較低的成本與之交互。這對于自動駕駛特別有幫助,因?yàn)橄?CARLA 這樣的 3D 模擬器相對較慢。
對高度復(fù)雜和動態(tài)的駕駛環(huán)境進(jìn)行建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了簡化問題,假設(shè)世界是在軌道上的,將過渡動力學(xué)分解為非反應(yīng)性世界模型和自車的簡單運(yùn)動學(xué)自行車模型。利用分解世界模型和獎勵函數(shù)來豐富靜態(tài)數(shù)據(jù)集的標(biāo)簽,通過動態(tài)編程優(yōu)化更好的標(biāo)簽。概率序列潛在模型被用作世界模型來降低強(qiáng)化學(xué)習(xí)的樣本復(fù)雜性。為了解決學(xué)習(xí)世界模型潛在的不準(zhǔn)確性問題,使用多個世界模型的集合來提供不確定性評估。基于不確定性,世界模型和政策代理之間的想象推出可以相應(yīng)地被截?cái)嗪驼{(diào)整。受成功的 MBRL 模型 Dreamer的啟發(fā),ISO-Dream考慮環(huán)境中的非確定性因素,并將視覺動態(tài)解耦為可控和不可控狀態(tài)。然后,策略在分離狀態(tài)上進(jìn)行訓(xùn)練,明確考慮不可控因素(例如其他智能體的運(yùn)動)。
在原始圖像空間中學(xué)習(xí)世界模型并不適合自動駕駛。預(yù)測圖像中很容易錯過重要的小細(xì)節(jié),例如交通信號燈。為了解決這個問題,MILE將世界模型合并到 BEV 語義分割空間中。它將世界建模與模仿學(xué)習(xí)結(jié)合起來,采用Dreamer式的世界模型學(xué)習(xí)作為輔助任務(wù)。SEM2還擴(kuò)展了 Dreamer 結(jié)構(gòu),但使用了 BEV 分割圖,并使用 RL 進(jìn)行訓(xùn)練。除了直接使用 MBRL 學(xué)習(xí)到的世界模型之外,DeRL 將無模型的行動者評論家框架與世界模型結(jié)合起來。具體來說,學(xué)習(xí)的世界模型提供了對當(dāng)前行為的自我評估,它與評論家的狀態(tài)值相結(jié)合,以更好地了解車輛的表現(xiàn)。
用于端到端自動駕駛的世界模型學(xué)習(xí)(MBRL)是一個新興且有前途的方向,因?yàn)樗蟠蠼档土?RL 的樣本復(fù)雜性,并且了解世界有助于駕駛。然而,由于駕駛環(huán)境高度復(fù)雜和動態(tài),仍需要進(jìn)一步研究來確定需要建模的內(nèi)容以及如何有效地建模世界。
4.4 帶有策略預(yù)測的多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)(MTL)涉及通過單獨(dú)的分支/頭基于共享表示聯(lián)合執(zhí)行多個相關(guān)任務(wù)。MTL 通過使用單個模型執(zhí)行多個任務(wù),顯著降低了計(jì)算成本。此外,相關(guān)領(lǐng)域知識在共享模型內(nèi)共享,并且可以更好地利用任務(wù)關(guān)系來提高模型的泛化能力和魯棒性。因此,MTL非常適合端到端的自動駕駛,最終的政策預(yù)測需要對當(dāng)前環(huán)境進(jìn)行全面了解。
與需要密集預(yù)測的常見視覺任務(wù)相比,端到端自動駕駛預(yù)測稀疏信號。這里的稀疏監(jiān)督給輸入編碼器提取有用信息以進(jìn)行決策帶來了挑戰(zhàn)。對于圖像輸入,端到端自動駕駛模型中普遍采用語義分割和深度估計(jì)等輔助任務(wù)。語義分割確保模型獲得對場景的高層次理解并識別不同類別的物體;深度估計(jì)使模型能夠理解環(huán)境的 3D 幾何形狀,并更好地估計(jì)到關(guān)鍵物體的距離。通過執(zhí)行這些任務(wù),圖像編碼器可以更好地提取有用且有意義的特征表示,以供后續(xù)規(guī)劃。除了透視圖像上的輔助任務(wù)之外,3D 對象檢測對于 LiDAR 編碼器也很有用。
隨著BEV 成為自動駕駛的自然且流行的代表,高清地圖映射和 BEV 分割等任務(wù)被包含在聚合 BEV 空間特征的模型中。此外,除了這些多任務(wù)視覺任務(wù)之外,還有針對預(yù)測視覺可供性,包括交通燈狀態(tài)、到路口的距離以及到對面車道的距離等。
端到端自動駕駛的多任務(wù)學(xué)習(xí)已證明其在提高性能和提供自動駕駛模型的可解釋性方面的有效性。然而,輔助任務(wù)的最佳組合以及其損失的適當(dāng)權(quán)重以實(shí)現(xiàn)最佳性能仍有待探索。此外,構(gòu)建具有多種類型的對齊和高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集提出了重大挑戰(zhàn)。
4.5 政策蒸餾
由于模仿學(xué)習(xí)或其主要子類別行為克隆只是模仿專家行為的監(jiān)督學(xué)習(xí),因此相應(yīng)的方法通常遵循“師生”范式。教師(例如 CARLA 提供的手工制作的專家自動駕駛儀)可以訪問周圍智能體和地圖元素的真實(shí)狀態(tài),而學(xué)生則通過收集的專家軌跡或僅使用原始傳感器輸入的控制信號來直接監(jiān)督。這給學(xué)生模型帶來了巨大的挑戰(zhàn),因?yàn)樗麄儾粌H必須提取感知特征,還必須從頭開始學(xué)習(xí)駕駛策略。
為了解決上述困難,一些研究提出將學(xué)習(xí)過程分為兩個階段,即訓(xùn)練教師網(wǎng)絡(luò),然后將策略提煉為最終的學(xué)生網(wǎng)絡(luò)。特別是,首先使用特權(quán)代理來學(xué)習(xí)如何直接訪問環(huán)境狀態(tài)。然后,他們讓感覺運(yùn)動代理(學(xué)生網(wǎng)絡(luò))密切模仿特權(quán)代理,并在輸出階段進(jìn)行蒸餾。通過更緊湊的 BEV 表示作為特權(quán)代理的輸入,它提供了比原始專家更強(qiáng)的泛化能力和監(jiān)督。該過程如圖 5 所示。LAV進(jìn)一步賦予特權(quán)代理預(yù)測所有附近車輛軌跡的能力,并將這種能力提煉給使用視覺特征的學(xué)生網(wǎng)絡(luò)。
圖 4:政策蒸餾(a)特權(quán)代理通過訪問特權(quán)真實(shí)信息來學(xué)習(xí)穩(wěn)健的策略。專家用虛線標(biāo)記,表明如果特權(quán)代理通過 RL 進(jìn)行訓(xùn)練,則不是強(qiáng)制性的。(b) 感覺運(yùn)動智能體通過特征蒸餾和輸出模仿來模仿特權(quán)智能體。
除了直接監(jiān)督規(guī)劃結(jié)果之外,一些工作還通過在特征級別提取知識來訓(xùn)練其預(yù)測模型。例如,F(xiàn)M-Net采用現(xiàn)成的網(wǎng)絡(luò),包括分割和光流模型,作為輔助教師來指導(dǎo)特征訓(xùn)練。盡管人們付出了大量的努力來設(shè)計(jì)更強(qiáng)大的專家并將知識從教師傳授給不同級別的學(xué)生,但師生范式仍然存在提煉效率低下的問題。正如之前的所有作品所示,視覺運(yùn)動網(wǎng)絡(luò)與其特權(quán)代理相比表現(xiàn)出巨大的性能差距。例如,特權(quán)代理可以訪問交通信號燈的真實(shí)狀態(tài),它們是圖像中的小物體,對提取相應(yīng)特征提出了挑戰(zhàn),這可能會導(dǎo)致學(xué)生的因果混亂。因此,如何從機(jī)器學(xué)習(xí)中的通用蒸餾方法中汲取更多靈感來縮小差距是值得探索的。
總結(jié)
我們首先討論端到端自動駕駛系統(tǒng)的動機(jī)和路線圖。端到端方法可以大致分為模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),我們對這些方法進(jìn)行了簡要回顧。我們涵蓋閉環(huán)和開環(huán)評估的數(shù)據(jù)集和基準(zhǔn)。我們總結(jié)了一系列關(guān)鍵挑戰(zhàn),包括可解釋性、泛化、世界模型、因果混亂等。后續(xù)文章我們將接續(xù)本文進(jìn)一步討論端到端自動駕駛索要面臨的一系列挑戰(zhàn)。并重點(diǎn)分析其應(yīng)該接受的未來趨勢,幫助讀者可以有效的整合數(shù)據(jù)引擎、大型基礎(chǔ)模型和車輛到一切的最新發(fā)展。