● 智能駕駛、自動(dòng)駕駛也是人工智能非常重要的一個(gè)部分,它的技術(shù)的變遷也反映了人工智能發(fā)展的三個(gè)階段。
● 我們需要有個(gè)非常強(qiáng)大的質(zhì)量非常高的世界模型重構(gòu)我們的萬千世界,能夠讓安全有更多的確定性。
[汽車之家 行業(yè)] 伴隨L2級(jí)輔助駕駛的加速普及,智能駕駛技術(shù)迎來關(guān)鍵的窗口期。行業(yè)內(nèi)既涌動(dòng)著對(duì)技術(shù)突破的期待與積極探索,也存在對(duì)技術(shù)落地、安全應(yīng)用等方面的審慎討論。
為凝聚共識(shí)、共促發(fā)展,汽車之家于9月21日舉辦“汽車之家全球AI科技大會(huì)”,以“Hi Future”為主題,匯聚行業(yè)頂尖技術(shù)專家、車企領(lǐng)袖及生態(tài)伙伴,探索智能技術(shù)如何筑牢安全底線、重塑競(jìng)爭(zhēng)邊界。在本次大會(huì)上,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO,商湯絕影CEO王曉剛分享了主題為《世界模型:智能駕駛范式演進(jìn)新路標(biāo)》的演講。
王曉剛認(rèn)為,世界模型可以推動(dòng)自動(dòng)駕駛在三個(gè)方面取得突:一是數(shù)據(jù)瓶頸,可以通過世界模型產(chǎn)生無限長(zhǎng)尾場(chǎng)景。二是能夠得到驗(yàn)證技術(shù)邊界,因?yàn)樗軌蛲ㄟ^仿真模擬恢復(fù)物理的世界,在仿真環(huán)境不斷地嘗試進(jìn)行實(shí)現(xiàn)。三是通過強(qiáng)化學(xué)習(xí)達(dá)到超越人類駕駛的體驗(yàn)。
我們需要有個(gè)非常強(qiáng)大的、質(zhì)量非常高的世界模型來重構(gòu)我們的萬千世界,能夠讓安全有更多的確定性。在王曉剛看來,我們對(duì)世界模型的要求會(huì)有三方面:一是生成的數(shù)據(jù)應(yīng)該是能夠面向量產(chǎn),能夠一鍵生成復(fù)雜的場(chǎng)景。二是場(chǎng)景里面有各種因素,可以針對(duì)各種因素進(jìn)行編輯,能夠把各種的因素通過自由的組合,能夠?qū)崿F(xiàn)更多的拓展。三是實(shí)時(shí)性,在一定空間里面有非常高效的推理的效率,可以在一個(gè)世界模型里面實(shí)時(shí)進(jìn)行互動(dòng)。
對(duì)于世界模型在具身智能領(lǐng)域的應(yīng)用,王曉剛認(rèn)為,今天在自動(dòng)駕駛的場(chǎng)景里用到的世界模型,所開發(fā)出來所有技術(shù)的體系,其實(shí)也可以用到具身智能領(lǐng)域,具身智能對(duì)世界模型的需求更加迫切。因?yàn)闄C(jī)器人的數(shù)量會(huì)更少,每個(gè)機(jī)器人硬件的配置千差萬別。未來通過大量的模擬仿真的數(shù)據(jù),能夠推動(dòng)自動(dòng)駕駛與具身智能,跨越到下一個(gè)階段。
以下為演講實(shí)錄,經(jīng)汽車之家精編整理:
各位領(lǐng)導(dǎo)、各位同仁、各位嘉賓,大家下午好!
非常感謝汽車之家的邀請(qǐng),來到會(huì)場(chǎng)參加全球AI科技大會(huì),也能夠有機(jī)會(huì)能夠跟大家分享我們世界模型通用人工智能給自動(dòng)駕駛帶來的技術(shù)的變遷。
我們認(rèn)為自動(dòng)駕駛的技術(shù)是演進(jìn)的頻率是非常快的,我們認(rèn)為它有三個(gè)階段,智能駕駛、自動(dòng)駕駛也是人工智能非常重要的一個(gè)部分,它的技術(shù)的變遷也反映了人工智能發(fā)展的三個(gè)階段。所以說大家比較熟悉的像我們說第一個(gè)階段基于規(guī)則的智能駕駛,我們又通過AI輸出感知的結(jié)果,能夠各種規(guī)則預(yù)定義這些邏輯,能夠根據(jù)優(yōu)化物理模型實(shí)現(xiàn)規(guī)控。在人工智能發(fā)展的每個(gè)階段我們也會(huì)問這樣的問題,智能到底是從哪里來?實(shí)際在第一個(gè)階段很多的智能來自于人工,我們需要大量的標(biāo)注各種感知數(shù)據(jù),得到它的輸出,人工的書寫各種各樣的規(guī)則。所以在那個(gè)時(shí)候有一句話有多少人工就有多少的智能,其實(shí)很像人工智1.0發(fā)展的階段,我們?nèi)四樧R(shí)別、視頻分析,我們也會(huì)針對(duì)在安防的場(chǎng)景、人工的場(chǎng)景輸入智能的數(shù)據(jù)。
第二個(gè)階段是大模型的出現(xiàn),我們說在人工智能的領(lǐng)域2.0的時(shí)候,比如說ChatGPT,實(shí)際在互聯(lián)網(wǎng)上出現(xiàn)了積累了過去很多年人類行為的數(shù)據(jù),比如各種文章、代碼,這都是人類行為智能的體現(xiàn)。在自動(dòng)駕駛領(lǐng)域?qū)?yīng)的就是人類的駕駛行為,第二階段大家推動(dòng)的是端到端的自動(dòng)駕駛。實(shí)際它把過去長(zhǎng)時(shí)間人類行為積累的智能能夠轉(zhuǎn)化成為模型的智能,所以這里出現(xiàn)了一個(gè)很大的智能和體驗(yàn)上的躍遷。但是它自己也有它的瓶頸,人類的這些行為就是智能的天花板,同時(shí)又是大量的依賴數(shù)據(jù)。所以說今天看到大模型的發(fā)展也遇到了瓶頸,就是因?yàn)槲覀冊(cè)诨ヂ?lián)網(wǎng)上,積累起來的互聯(lián)網(wǎng)的數(shù)據(jù)的價(jià)值面臨著枯竭的境地。同時(shí)可以看到自動(dòng)駕駛積累的大量數(shù)據(jù)也有它的瓶頸。
第三個(gè)階段通過世界模型,通過所謂的生成式的智駕,通過強(qiáng)化學(xué)習(xí)能夠進(jìn)一步的突破。一個(gè)非常典型的例子,2015年的時(shí)候在圍棋里面AIphaGo,后面出現(xiàn)了阿爾法Zero,不需要任何人類的知識(shí)的輸入,它也能夠產(chǎn)生大量的智能。今天在自動(dòng)駕駛里希望有世界模型,在圍棋里面有棋盤,有人類定義的圍棋的規(guī)則,這是更高階的智能。我們希望在自動(dòng)駕駛里面也能夠通過強(qiáng)化學(xué)習(xí)突破人類的行為上限的時(shí)候我們就需要一個(gè)世界模型,許多它模擬物理世界的規(guī)律、人類行為的法則和規(guī)律。強(qiáng)化學(xué)習(xí)在仿真的世界模型環(huán)境里面,通過強(qiáng)化學(xué)習(xí)不斷的提升,突破人類駕駛的上限。
所以類似的我們也可以看到今天在人工智能的3.0的發(fā)展,人們提出了具身智能,就要從原來的互聯(lián)網(wǎng)數(shù)據(jù)走出來,通過跟物理世界的交互產(chǎn)生新的智能。實(shí)際具身智能的領(lǐng)域世界模型也會(huì)扮演非常重要的角色。
今天說端到端的自動(dòng)駕駛所面臨的問題,一是我們需要大量的數(shù)據(jù),特斯拉有幾百萬臺(tái)車,而且這些車的傳感器的配置是一致的,所以能夠回流大量的數(shù)據(jù)。今天我們面臨的問題是沒有如此規(guī)模的數(shù)據(jù)。二是對(duì)于各種危險(xiǎn)復(fù)雜的場(chǎng)景,Corner Case這些獲得成本是非常高的,風(fēng)險(xiǎn)也是非常高的,怎么獲得這些高質(zhì)量的數(shù)據(jù)是我們需要解決的問題。另外是安全的邊界,今天端到端的自動(dòng)駕駛看到一個(gè)問題場(chǎng)景,我們?cè)趺唇鉀Q這個(gè)問題場(chǎng)景,我們需要采集很多跟這個(gè)場(chǎng)景所類似的其他的數(shù)據(jù),重新訓(xùn)練模型。但是模型訓(xùn)練完之后也不能夠確定這個(gè)場(chǎng)景是否能夠真正的被解結(jié),因?yàn)槎说接胁淮_定性在。所以我們不知道大模型端到端的點(diǎn)在哪里,這是兩個(gè)比較重要的核心問題。
接下來我講未來我們要把世界模型和強(qiáng)化學(xué)習(xí)跟端到端相結(jié)合,在這里核心還是要有一個(gè)端到端的多模態(tài)的大模型,它的輸入可能是有各種視覺的、激光的、語言文字導(dǎo)航的輸入,輸出就是車輛的行為。端到端的大模型會(huì)預(yù)測(cè)車輛的軌跡,基于預(yù)測(cè)的軌跡反饋給世界模型,它就會(huì)能夠模擬仿真出我們的物理世界將會(huì)怎樣的變化,能夠給我們反饋出基于世界模型里合成出的視頻,能夠反饋重新訓(xùn)練端到端的模型。而且這里我們會(huì)有個(gè)方法,告訴我們什么樣的仿真模型是好的,如此循環(huán)往復(fù)的迭代,不斷的提升端到端的性能。同時(shí),在這個(gè)仿真環(huán)境里面可以無數(shù)次的試錯(cuò),有個(gè)問題的場(chǎng)景以后,通過無數(shù)次的嘗試一定能夠解決我們所關(guān)心的問題。而且能夠做到舉一反三、舉一反十、反百。所以今天的世界模型并不是無中生有,而且你用了問題場(chǎng)景我們可以通過復(fù)現(xiàn)物理場(chǎng)景,不能的改變各種要素,如天氣、道路、車速等等把類似的問題得到比較徹底的解決。
接下來我就給大家舉一個(gè)例子,看一看我們?cè)趺从檬澜缒P秃蛷?qiáng)化學(xué)習(xí)解決問題。這里展示的是一個(gè)問題的場(chǎng)景有個(gè)施工占道出現(xiàn)了急剎。我們有幾步?第一步需要做4D仿真的浮現(xiàn),通過3DGS通過靜態(tài)的場(chǎng)景浮現(xiàn),同時(shí)通過3D的目標(biāo)進(jìn)行呈現(xiàn)。這兩個(gè)相結(jié)合浮現(xiàn)場(chǎng)景,通過世界模型對(duì)它進(jìn)行修復(fù),就能夠得到更高質(zhì)量的4D空間。在4D空間里就可以嘗試各種不同駕駛的行為,調(diào)整端到端的模型,嘗試各種不同的駕駛行為,直到你在這個(gè)環(huán)境里找到最佳的駕駛行為的結(jié)果。因?yàn)槲覀冇羞@個(gè)辦法可以評(píng)價(jià)什么樣的駕駛行為是好的。
在單一的場(chǎng)景里面我們能夠得到模型的更新和驗(yàn)證之后,接下來我們需要對(duì)它進(jìn)一步的得到多個(gè)泛化。其實(shí)有很多其他的類似的場(chǎng)景,比如說復(fù)雜的施工區(qū)域,換道的通行,圍欄的減速等等。這些不同的場(chǎng)景都是通過世界模型所生成出來的各種泛化的場(chǎng)景,我們的模型能夠在這些泛化場(chǎng)景里面進(jìn)一步的學(xué)習(xí)進(jìn)行測(cè)試。
所以說今天我們的世界模型就可以推動(dòng)自動(dòng)駕駛在三個(gè)方面取得突破,一是數(shù)據(jù)瓶頸,可以通過世界模型產(chǎn)生無限長(zhǎng)尾場(chǎng)景。二是能夠得到驗(yàn)證技術(shù)邊界,因?yàn)樗軌蛲ㄟ^仿真模擬恢復(fù)物理的世界,在仿真環(huán)境不斷的嘗試進(jìn)行實(shí)現(xiàn)。三是通過強(qiáng)化學(xué)習(xí)達(dá)到超越人類駕駛的體驗(yàn)。
背后核心就是我們需要有個(gè)非常強(qiáng)大的質(zhì)量非常高的世界模型重構(gòu)我們的萬千世界,能夠讓安全有更多的確定性。所以說我們對(duì)世界模型會(huì)有哪些要求呢?會(huì)有幾方面,一是生成的數(shù)據(jù)應(yīng)該是能夠面向量產(chǎn),能夠有更多的場(chǎng)景,非常復(fù)雜的場(chǎng)景是可控的,能夠一鍵生成復(fù)雜的場(chǎng)景。二是場(chǎng)景里面有各種因素,可以針對(duì)各種因素進(jìn)行編輯,能夠把各種的因素通過自由的組合,能夠?qū)崿F(xiàn)更多的拓展。三是有實(shí)時(shí),在一定空間里面有非常高效的推理的效率,可以在一個(gè)世界模型里面實(shí)時(shí)的進(jìn)行互動(dòng)。
這里我們給大家所看到的是一個(gè)例子,我們坐車輛Cut-in比較危險(xiǎn)的場(chǎng)景,我們可以看到車?yán)镉?個(gè)攝像頭,我們要生成一個(gè)好的世界模型,就要保持它的時(shí)空的一致性。大家知道很早2024年的時(shí)候就有Sora能夠做各種視頻的生成,今天用世界模型做自動(dòng)駕駛它的難得在哪里?生成視頻比圖像更難,就是因?yàn)橛羞B續(xù)性。今天用在自動(dòng)駕駛環(huán)境里視頻的生成會(huì)更難,因?yàn)橛斜姸嗟臄z像頭,要保持多個(gè)攝像頭時(shí)空的一致性。這里比如說有車牌、道路的限行、各個(gè)攝像頭里內(nèi)容應(yīng)該是一致的,還有空間的幾何關(guān)系是一致的,這樣生成的視頻才能夠有效的用作自動(dòng)駕駛的訓(xùn)練和測(cè)試。
基于此,我們就可以針對(duì)打車Cut-in一個(gè)場(chǎng)景可以改變各種的要素,我們換不同的天氣的條件、不同的道路路形、大車的車型、車速和Cut-in的距離。剛才說了有了這個(gè)以后,就可以做到舉一反十、反一百、反一千。這里也可以看到一鍵生成更加復(fù)雜的場(chǎng)景,比如說車禍和碰撞的場(chǎng)景。
而且在這里我們需要對(duì)場(chǎng)景里面的各種要素能夠做到任意編輯,可以找到一個(gè)車輛任意的替換不同的車型,增加車輛、減少相應(yīng)的車輛,模擬不同的駕駛環(huán)境。
在這里我們現(xiàn)在也能夠做到實(shí)時(shí)的推理,所以這里我們展示的是在上海市區(qū),在市區(qū)里可以自由的進(jìn)行開車,加減速、轉(zhuǎn)彎,但是你今天看到的這些視頻都是跟真實(shí)世界的物理環(huán)境更加接近的。
我們也把世界模型能夠產(chǎn)品化,能夠開放API,所以在這里用戶可以描述你所想采用的數(shù)據(jù)一鍵生成,形成各種各樣我們期待的視頻。所以我們現(xiàn)在也能夠積累百萬級(jí)的數(shù)據(jù)集,覆蓋各種復(fù)雜的場(chǎng)景,能夠?qū)崿F(xiàn)高保真。今天每一個(gè)Clips(音)有150s,有7個(gè)攝像頭能夠保持比1080P更好圖像的質(zhì)量。
今天說這是個(gè)基礎(chǔ)的設(shè)施,我們也看到各地的政府也建立了實(shí)訓(xùn)場(chǎng),能夠提供算力的平臺(tái),真實(shí)的采集實(shí)車的數(shù)據(jù)。另外有一半的數(shù)據(jù)也是通過世界模型模擬仿真進(jìn)行生成,兩個(gè)相結(jié)合提供給行業(yè)里車廠進(jìn)行端到端模型的訓(xùn)練。
最后說今天在自動(dòng)駕駛的場(chǎng)景里用到的世界模型開發(fā)出來所有技術(shù)的體系,其實(shí)也可以用到具身智能里,具身智能對(duì)世界模型的需求是更加迫切。因?yàn)闄C(jī)器人的數(shù)量會(huì)更少,而且每個(gè)機(jī)器人硬件的配置千差萬別。所以說我們就希望在具身里面世界模型能夠做到多模態(tài)、數(shù)據(jù)對(duì)齊,能夠得到4D空間,能夠進(jìn)行快速的推理。
所以這里我給大家舉個(gè)例子,有兩個(gè)例子,一是你輸一條指令讓機(jī)器人能夠在公園里進(jìn)行跳躍,會(huì)自動(dòng)的生成機(jī)器人的骨骼、姿態(tài)、動(dòng)作的變化,基于這個(gè)能夠生成機(jī)器人第一視角看到視頻的數(shù)據(jù)和第三視角。下面說讓機(jī)器臂切黃瓜,同樣可以生成第一和第三視角的數(shù)據(jù)。未來我們可以用大量的模擬仿真的數(shù)據(jù),能夠推動(dòng)自動(dòng)駕駛,推動(dòng)具身智能,能夠跨越到下一個(gè)階段。好,謝謝大家!(編譯/汽車之家 秦超)