日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

首頁 熱點 要聞 國內(nèi) 產(chǎn)業(yè) 財經(jīng) 滾動 理財 股票

全球今熱點:CVPR最佳論文:大模型成就端到端自動駕駛|焦點分析

2023-06-25 13:50:42 來源 : 手機網(wǎng)易網(wǎng)

文丨李安琪


(相關資料圖)

編輯丨李勤

與自動駕駛相關文章,首次獲得全球頂級計算機視覺會議CVPR的最佳論文。

6月22日,全球頂級計算機視覺會議CVPR 2023公布了最佳論文等獎項。一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導向的自動駕駛)論文,成功從9155篇投稿、2359篇接收論文、12篇入選最佳論文候選名單中脫穎而出。

這也是近十年來,CVPR會議上第一篇以中國學術機構作為第一單位的最佳論文。該論文由上海人工智能實驗室、武漢大學及商湯科技聯(lián)合完成。

CVPR在學術界及產(chǎn)業(yè)界的影響力毋庸置疑,與ICCV、ECCV并列為計算機視覺領域三大頂級會議。全球最聰明的頭腦匯聚于此,特斯拉也連續(xù)幾年在CVPR上公布其自動駕駛技術最新進展。

今年的競爭相當激烈。據(jù)公開信息,今年12篇入選最佳論文候選名單機構,不僅有谷歌、Stability AI等人工智能領域頂尖企業(yè),也有上海人工智能實驗室、斯坦福大學、康奈爾大學、香港中文大學、香港科技大學、南洋理工大學等研究機構及高校。

而上海人工智能實驗室、武漢大學及商湯科技聯(lián)合獲獎的關鍵在于,提出了一個感知決策一體化的自動駕駛通用大模型UniAD。

大會官方組委會認為,論文提出的端到端感知決策一體框架,融合了多任務聯(lián)合學習的新范式,使得進行更有效的信息交換,協(xié)調(diào)感知預測決策,以進一步提升路徑規(guī)劃能力。

這證明了大模型與自動駕駛產(chǎn)業(yè)結合的潛力。今年初,ChatGPT的爆火,讓機器學習與理解人類語言的能力有了本質(zhì)飛躍。而大模型,也有望為自動駕駛產(chǎn)業(yè)落地指出更清晰的方向。

端到端的自動駕駛大模型UniAD

論文指出,隨著深度學習發(fā)展,自動駕駛算法被組裝成一系列任務,包括目標檢測與跟蹤、在線建圖、軌跡預測、占據(jù)柵格預測等子任務。

基于這些子任務,行業(yè)有著多種自動駕駛系統(tǒng)框架設計:模塊化設計,多任務框架,但兩種方案都面臨著累積錯誤或任務協(xié)調(diào)不足的困擾。

比如自動駕駛公司W(wǎng)aymo、Cruise采用的模塊化設計方案,每個獨立的模塊負責單獨的子任務。這種方案具備簡化研發(fā)團隊分工,便于問題回溯,易于調(diào)試迭代等優(yōu)點。但由于將不同任務解耦,各個模塊相對于最終的駕駛規(guī)劃目標存在信息損失問題,且多個模塊間優(yōu)化目標不一致,誤差會在模塊間傳遞。

論文認為,多任務框架是更優(yōu)雅的一種設計方案,代表性企業(yè)有美國特斯拉、中國小鵬汽車等。方案中不同任務使用同一個特征提取器,具備便于任務拓展、節(jié)省計算資源等優(yōu)點。但不同任務之間仍存在預測不一致、表征沖突的問題。

a為模塊化設計、b為多任務框架、c1/c2為兩種端到端方案、c3為UniAD方案示意 圖源論文

相比之下,端到端自動駕駛方案將感知、預測和規(guī)劃所有節(jié)點視為一個整體,但現(xiàn)有的兩種端到端方案也還面臨挑戰(zhàn)。

一種簡單的方式直接以傳感器信號作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結果,但缺乏可解釋性與實際應用安全性,尤其是在復雜的城市道路場景。

另一種方案是,對模型進行顯式設計,將整個架構分為感知-預測-規(guī)劃模塊,使其具有部分中間結果表達。但這種方式面臨檢測結果在模塊間不可微導致無法端到端優(yōu)化,稠密BEV預測時長有限,過去-未來、物體-場景等多維度信息難以高效利用等困難。

因此,本篇論文提出了一個端到端方案Unified Autonomous Driving,即UniAD。上海人工智能實驗室指出,UniAD能夠成功解決不同任務融合難的問題,從而實現(xiàn)多任務和高性能的關鍵在于以下兩點。

一是多組查詢向量的全Transformer 模型:UniAD利用多組 query 實現(xiàn)了全棧 Transformer 的端到端模型,可以從具體 Transformer 的輸入輸出感受到信息融合。二是以最終“規(guī)劃”為目標,全部模塊通過輸出特定的特征來幫助實現(xiàn)最終的目標“規(guī)劃”。

自動駕駛端到端架構 (UniAD) 的流程 圖源論文

從論文來看,UniAD 將感知、預測、規(guī)劃等三大類主任務、六小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規(guī)劃)整合到統(tǒng)一的端到端網(wǎng)絡框架下。

具體來說,將一系列多攝像頭圖像輸入特征提取器,并通過 BEVFormer 轉換為統(tǒng)一的鳥瞰圖(BEV)。這部分可以快速替換為其他BEV模型,具有較好可拓展性。

在感知環(huán)節(jié)中,UniAD的目標檢測與跟蹤模塊可以實現(xiàn)對動態(tài)元素的特征提取、幀間物體跟蹤;在線建圖模塊實現(xiàn)了對靜態(tài)物體的特征提取、實例級地圖預測;

在預測模塊,UniAD可以實現(xiàn)動靜態(tài)元素交互與長時序軌跡預測;占據(jù)柵格預測模塊實現(xiàn)了短時序全場景BEV、實例級預測;

在規(guī)劃模塊,UniAD實現(xiàn)基于自車query的軌跡預測和基于占據(jù)柵格的碰撞優(yōu)化。

論文表示,UniAD 的培訓分兩個階段:首先聯(lián)合訓練感知部分,即目標跟蹤和建圖模塊,這將持續(xù)幾個階段(在實驗中為 6個階段),然后使用所有感知、預測和規(guī)劃模塊端到端地訓練模型20個階段。

從結果來看,論文表示,在 nuScenes 真實場景數(shù)據(jù)集下,所有任務均達到領域最佳性能(State-of-the-art),尤其是預測和規(guī)劃效果遠超之前最好方案。其中,多目標跟蹤準確率超越SOTA 20%,車道線預測準確率提升30%,預測運動位移和規(guī)劃的誤差則分別降低了38%和28%。

在晴天直行場景中,UniAD 可以感知左前方等待的黑色車輛,預測其未來軌跡(即將左轉駛入自車的車道),并立即減速以進行避讓,待黑車駛離后再恢復正常速度直行 圖源上海人工智能實驗室

在雨天轉彎場景中,即便面對視野干擾較大且場景復雜的十字路口,UniAD 能通過分割模塊生成十字路口的整體道路結構(如右側 BEV圖中的綠色分割結果所示),并完成大幅度的左轉 圖源上海人工智能實驗室

從論文到產(chǎn)業(yè)還要多久?

當然,從前瞻學術論文到產(chǎn)業(yè)跟進、技術大規(guī)?;萜?,所需要的時間并不短。

以當下被行業(yè)火熱討論的BEV為例。2021年特斯拉首次基于Transformer將攝像頭2D圖像拼接轉化成3D圖景,生成鳥瞰圖 “Bird"s Eye View”,簡稱“BEV”。這是大模型在自動駕駛感知環(huán)節(jié)的應用。

兩年時間過去,當下國內(nèi)企業(yè)雖已紛紛跟進,但僅有少數(shù)幾家能拿出先期成果。

而UniAD大模型是更為龐大的、涉及感知、預測、規(guī)劃的復雜系統(tǒng)工程,其中的技術優(yōu)化與工程化落地只會比BEV更艱難。

論文本身也指出,協(xié)調(diào)這樣一個具有多個任務的綜合系統(tǒng)并非易事,需要大量的計算能力,尤其是經(jīng)過時間歷史訓練的計算能力。如何為輕量級部署設計和管理系統(tǒng)值得未來探索。

論文作者之一、上海人工智能實驗室青年科學家李弘揚博士表示,UniAD提供了全套關鍵自動駕駛任務配置,其充分的可解釋性、安全性、與多模塊的可持續(xù)迭代性,是目前為止最具希望實際部署的端到端模型。這套基于視覺的全棧自動駕駛框架,據(jù)初步測算,每年節(jié)省激光雷達與標注成本可達千萬級。

部分玩家已經(jīng)在行動。據(jù)36氪了解,小鵬和理想汽車都在籌備研發(fā)全棧端到端自動駕駛方案?!澳壳靶Ч€不太好,但潛力很大。”有內(nèi)部人士透露。

總而言之,新的技術的種子已經(jīng)播下,行業(yè)新一輪競賽也可能已經(jīng)開始。接下來,就看誰能給出更肥沃的土壤與更恒久的耐心。

文章參考:

1.《Planning-oriented Autonomous Driving》

2.《AIR學術|上海人工智能實驗室李弘揚、陳立:端到端自動駕駛算法設計思考》

3.《上海AI實驗室聯(lián)合團隊獲CVPR最佳論文獎 | CVPR 2023》

關鍵詞:
相關文章

最近更新
精彩推送
2023鄭州宜家招聘信息 2023-06-25 14:10:35
趙富洲被查 微速訊 2023-06-25 14:07:16