亚洲中文无码卡通动漫_亚洲精品偷拍自综合网_国产在线精品观看_污污网站在线免费观看

當(dāng)前位置:首頁(yè) 車(chē)聞中心 行業(yè)動(dòng)態(tài) 正文

極越“汽車(chē)機(jī)器人進(jìn)化日”超前體驗(yàn)!

收藏 (0條) 舉報(bào)/糾錯(cuò) 向編輯提問(wèn)

  [汽車(chē)之家 資訊]  日前,極越汽車(chē)舉辦了“汽車(chē)機(jī)器人進(jìn)化日”超前體驗(yàn)活動(dòng)。極越數(shù)字產(chǎn)品負(fù)責(zé)人潘云鵬;百度自動(dòng)駕駛技術(shù)負(fù)責(zé)人/百度IDG技術(shù)委員會(huì)主席王亮,將針對(duì)此次OTA升級(jí)計(jì)劃以及最新技術(shù)進(jìn)展做出分享。具體信息如下:

極越 極越01 2023款 Max 長(zhǎng)續(xù)航

  潘云鵬:非常榮幸,能和大家一起分享一下V1.3.0、1.3.1軟件關(guān)鍵內(nèi)容。我們?cè)谲浖矫,積極聽(tīng)取用戶意見(jiàn),在新浪微博上還專門(mén)有這么一個(gè)熱詞#極越聽(tīng)勸。我們基本上一直保持這個(gè)人設(shè),我們的整體軟件迭代邏輯有一個(gè)核心點(diǎn),就是通過(guò)SIMO來(lái)獲取用戶反饋,一共得到將近12000多條反饋,每天有大幾百條反饋給數(shù)據(jù)庫(kù)里灌。

用戶反饋

  第一個(gè)階段已經(jīng)過(guò)去,無(wú)論在車(chē)展上拉橫幅、400投訴電話、微博找CEO,用戶都處在非常弱勢(shì),非常無(wú)助的情況,不知道該怎么做,車(chē)企也不太很清楚怎么樣才能拿到用戶最真實(shí)的反饋。

  極越汽車(chē)解決了這個(gè)問(wèn)題,從公司創(chuàng)建的時(shí)候開(kāi)始,直接進(jìn)入2.0時(shí)代,用SIMO專屬客服作為橋梁,每當(dāng)大家覺(jué)得有問(wèn)題的時(shí)候,就說(shuō)SIMO我要反饋問(wèn)題,無(wú)論是收集到產(chǎn)品建議,還是吐槽,還是對(duì)誰(shuí)的建議,我們都可以直接收到,并且我們的后臺(tái)有自動(dòng)分發(fā)系統(tǒng)標(biāo)簽,直接到“罪魁禍?zhǔn)住保üこ處煟┑氖掷铩?/p>

  2024年我們已經(jīng)升級(jí)到了3.0,融合大模型能力,做到更快速的反饋。因?yàn)楝F(xiàn)在每天反饋量太多,人工處理的邊際成本特別高,所以融合大模型的能力,現(xiàn)在會(huì)做自動(dòng)診斷,自動(dòng)判斷,也會(huì)在用戶吐槽的時(shí)候第一時(shí)間給到用戶解法。

  之前發(fā)過(guò)一個(gè)視頻,有一個(gè)比較直觀的例子,只要說(shuō)SIMO我要反饋,我們的用戶APP可以以秒級(jí)的速度收到一條問(wèn)題,然后開(kāi)始處理。這是內(nèi)部的群,包括各個(gè)團(tuán)隊(duì)一級(jí)部門(mén)負(fù)責(zé)人都在里面,實(shí)時(shí)收到,包括所有需要解決問(wèn)題所需的lock都會(huì)在里面。從用戶側(cè)收到的反饋,最終吐槽得對(duì),屬于比較好的產(chǎn)品建議,或者是比較好的產(chǎn)品問(wèn)題,我們會(huì)給予50積分獎(jiǎng)勵(lì)。我們這套機(jī)制運(yùn)轉(zhuǎn)了很長(zhǎng)一段時(shí)間,基于這個(gè)體系幫助我們迭代我們的軟件。

  我們一共收到12584條反饋,在1.3.0和1.3.1的版本上有60%的問(wèn)題已經(jīng)得到解決,平均處理時(shí)長(zhǎng)小于1天。問(wèn)題過(guò)來(lái)后,從工程師實(shí)時(shí)看這些問(wèn)題,并分析這些問(wèn)題,小于24個(gè)小時(shí)完成反饋。在用戶比較關(guān)注的幾大類反饋問(wèn)題中,智艙智駕占30%,產(chǎn)品建議占20%,其他問(wèn)題,其他功能軟件占20%。比較多的例子,車(chē)主比較共鳴,不清楚轉(zhuǎn)向燈怎么用,PPA怎么開(kāi)啟,定位會(huì)飄,娛樂(lè)功能少,APP覺(jué)得不夠豐富,藍(lán)牙鑰匙離車(chē)落不了鎖,或者進(jìn)車(chē)解不了鎖。我們?cè)?.3.0和1.3.1針對(duì)這些問(wèn)題得到了解決和優(yōu)化。

軟件1.3.0和1.3.1版本的主要功能

  智艙主要分幾部分,第一部分更多是U型方向盤(pán),之前是圓型,我們做這款產(chǎn)品的時(shí)候這款產(chǎn)品發(fā)現(xiàn)U型方向盤(pán)有更好的視野,這次U型方向盤(pán)大家可以感受到駕駛,3D地圖的體驗(yàn)有了質(zhì)的飛躍。

  第二個(gè)轉(zhuǎn)向燈,我們認(rèn)為在自動(dòng)駕駛或者人動(dòng)手開(kāi)的時(shí)候,可以通過(guò)算法,盡量不需要手動(dòng)開(kāi)啟轉(zhuǎn)向燈,在1.3.0版本里無(wú)論在變道還是轉(zhuǎn)彎,已經(jīng)不需要再關(guān)閉轉(zhuǎn)向燈,這個(gè)功能已經(jīng)上線了。1.4版本里,我們通過(guò)你的意圖,我們主動(dòng)打起轉(zhuǎn)向燈,在1.4的版本里會(huì)做。

  接著是換擋,很多用戶覺(jué)得換擋的時(shí)候容易手滑,滑不到位,現(xiàn)在可以“點(diǎn)擊換擋”,輕輕一點(diǎn),極速換擋。換檔會(huì)做成自動(dòng)化,判斷前車(chē)和后車(chē)相對(duì)位置,包括通過(guò)上次行車(chē)的行為,判斷出自動(dòng)前進(jìn)或后退。

SIMO文心一言

   SIMO文心一言的能力,我們?cè)谥鞍姹纠镂男囊谎允羌蛇M(jìn)去了,是需要特地的說(shuō)聊天或喚起文心一言進(jìn)入文心一言的空間,F(xiàn)在文心一言是原生集成到SIMO能力里,并不需要刻意的來(lái)講(喚醒),我要調(diào)動(dòng)起文心一言的哪些能力,它可以根據(jù)你的說(shuō)話內(nèi)容自動(dòng)的幫助你完成這些任務(wù)。

  這是一個(gè)視頻,(#SIMO從可見(jiàn)即可說(shuō)到可說(shuō)即可做)。還可以有更多的場(chǎng)景延展,包括問(wèn)SIMO現(xiàn)在最熱門(mén)的電視劇有哪些。比如《繁花》《三大隊(duì)》,立馬說(shuō)SIMO我要播放《三大隊(duì)》或者《繁花》,基本能夠?qū)崟r(shí)播放,在SIMO大模型領(lǐng)域和娛樂(lè)域能做到比較好的切換。這是關(guān)于座艙部分的更新。

OCC技術(shù)用戶體驗(yàn)

  現(xiàn)在一共有三代,第一代是單目DNN感知網(wǎng)絡(luò)環(huán)視后融合,2.0大家遇到比較多的BEV+Transformer時(shí)空融合,極越汽車(chē)是唯一一家能夠做BEV+OCC+Transformer多任務(wù)統(tǒng)一網(wǎng)絡(luò)的企業(yè),我們給它起了一個(gè)名字,BOT,也是機(jī)器人的概念。本質(zhì)上,是想說(shuō)我們是超高精度體素,甚至小于厘米級(jí),由過(guò)去BEV2D變成3D,來(lái)判斷駕駛空間里是否被占用。超直覺(jué),之前需要判斷前方是人是車(chē)還是什么東西,現(xiàn)在基本上認(rèn)為前方有一個(gè)物體,和開(kāi)車(chē)的時(shí)候很像,通過(guò)直覺(jué)繞開(kāi)它,而不需要通過(guò)思考。

  這是三個(gè)在1.3.1的時(shí)候比較關(guān)鍵的場(chǎng)景,遇障剎停,第二個(gè)遇到障礙物無(wú)感繞障,提前規(guī)劃,到障礙物可以跨車(chē)道繞開(kāi)。另外是遠(yuǎn)離硬隔離,它會(huì)在你離水馬硬路很近的時(shí)候適當(dāng)遠(yuǎn)離,給大家很足的安心感,這種場(chǎng)景在匝道上大家感受很明顯。

  PPA我們做了很多細(xì)節(jié)上的提升,PPA之前大家覺(jué)得變道比較保守,現(xiàn)在比較自信,在一些需要判斷要不要變道的路況中,我們不會(huì)來(lái)回的猶豫。第二,有一些更加靈活的變道或者通行策略,比如公交車(chē)道在可以行駛的時(shí)間段,我們可以借用公交車(chē)道進(jìn)行通行。包括黃虛線借道上有更加靈活繞行策略。

  無(wú)感區(qū)域,繞過(guò)路障、以及過(guò)路障已經(jīng)提到了,主要是基于OCC能力。在一些小路上,導(dǎo)航地圖如果有一些信息不是夠完整、準(zhǔn)確的時(shí)候,我們能夠更加從容的通過(guò)這些路段。在這個(gè)圖上沒(méi)有展示的,或者對(duì)比之前地圖有很大量的變道,大家可能覺(jué)得不知道為什么變道、剎車(chē),我們會(huì)告訴大家為什么變道,有時(shí)候因?yàn)槌?chē),有時(shí)候因?yàn)楸苷,有時(shí)候因?yàn)樵训赖搅,有時(shí)候因?yàn)閷?dǎo)航路徑規(guī)劃的原因,這些東西都在這個(gè)版本上給大家做了提升。

  我們?cè)诮衲昴甑,除了上海以外,北京、杭州、深圳,開(kāi)了大量的城區(qū)路寬,而不是開(kāi)一條路,是真正做到把路連成網(wǎng),讓它有連續(xù)性,用戶可以從A點(diǎn)到B點(diǎn)實(shí)現(xiàn)智駕通勤。我們認(rèn)為只有做到60%-70%的用車(chē)場(chǎng)景和90%以上高頻場(chǎng)景的覆蓋才能叫真正的開(kāi)城。2024年會(huì)完成200+城市的城區(qū)道路,我們會(huì)采取通勤+輕圖的模式。

視覺(jué)系統(tǒng)

  我們一直說(shuō)汽車(chē)機(jī)器人,我們認(rèn)為視覺(jué)不僅僅用在自動(dòng)駕駛身上,我們認(rèn)為視覺(jué)(系統(tǒng))可以用在更多的通用任務(wù),比如開(kāi)門(mén)剎、燒餅?zāi)J健⒏珳?zhǔn)路況識(shí)別、透明底盤(pán),大家在1.3版本上都能感受到。

  泊車(chē)我們做了算法的升級(jí),我們自動(dòng)APA滲透率比較高,達(dá)到96%,成功率88%,算法重寫(xiě)之后,平均可以減少20-30%的時(shí)間,斷頭路和極窄車(chē)位提升25%的成功率,斷頭路比較極端的場(chǎng)景,我們測(cè)試下來(lái),有將近一倍容錯(cuò)次數(shù)的減少,也是比較大的升級(jí)。

安全方面

  后面是關(guān)于安全上的更新。我們是電動(dòng)門(mén),大家會(huì)擔(dān)憂電動(dòng)門(mén),在車(chē)輛沒(méi)電的情況下,是否會(huì)有打不開(kāi)的情況,我們有有專門(mén)獨(dú)立電源,專門(mén)應(yīng)對(duì)電動(dòng)門(mén)的場(chǎng)景,電動(dòng)門(mén)會(huì)在碰撞的15秒保持關(guān)閉,這樣避免司機(jī)或者乘客被甩出去,進(jìn)行二次傷害。最后是1.3版本更新上的,我們有一個(gè)救生門(mén)模式,借助破冰模式,在冬天的時(shí)候,破冰的場(chǎng)景上,我們應(yīng)用到碰撞場(chǎng)景上,可以用一百斤力量把車(chē)門(mén)頂開(kāi),保證乘客在事故之后的安全,得到安全的救助。

娛樂(lè)方面

  娛樂(lè)進(jìn)化,大家一直吐槽APP太少,這次加入了B站、云聽(tīng)、小宇宙,后期大家可以期待一下,我們很快會(huì)加速APPStore的建設(shè),會(huì)有更多第三方的生態(tài)APP接入進(jìn)來(lái)。還有switch投屏,可以在車(chē)內(nèi)通過(guò)轉(zhuǎn)接頭進(jìn)行投屏,進(jìn)行游戲,除了抽煙以外,又多了一個(gè)回家在車(chē)上多待一會(huì)兒的理由。車(chē)載KTV方面,我們?cè)谏坛巧霞芰讼鄳?yīng)的麥克風(fēng)等硬件,可以在車(chē)上和朋友進(jìn)行K歌。

體驗(yàn)方面

  最后一個(gè)是體驗(yàn)進(jìn)化,冬天充電速度,座艙預(yù)熱,破冰門(mén),雪地脫困,這次上了APP,會(huì)有座艙預(yù)約加熱功能,電池預(yù)熱,特別是磷酸鐵鋰電池在比較低溫情況下,為了保持化學(xué)上的活性,我們可以為電池進(jìn)行提前加熱,使得車(chē)輛得到了充電站之后,充電效率和充電速率可以得到提升,這是電池預(yù)熱的功能,在1.3版本里已經(jīng)加入。對(duì)于performance版本車(chē)型,會(huì)有雪地模式,讓大家在雪地下有比省心的駕駛體驗(yàn)。

  在一萬(wàn)兩千多條的反饋下,包括哨兵模式,大家吐槽有誤報(bào),PPA開(kāi)啟后為什么車(chē)輛變道,3D地圖下,紅綠燈,轉(zhuǎn)向燈,大家覺(jué)得聽(tīng)不到,特別開(kāi)音樂(lè)的時(shí)候轉(zhuǎn)向燈聲音太小,我們比較聽(tīng)勸,都做了調(diào)整。

  手機(jī)和藍(lán)牙實(shí)時(shí)音頻,以前大家連接到手機(jī)上以后,播放手機(jī)上的媒體,之前要手動(dòng)切換到手機(jī)藍(lán)牙才能播放,現(xiàn)在手機(jī)實(shí)時(shí)藍(lán)牙檢測(cè),它可以在你想播放手機(jī),比如微信、抖音多媒體信道可以自由的進(jìn)行切換,播完之后自動(dòng)切換車(chē)內(nèi)通道。舒適進(jìn)出是用戶投訴反饋比較多的,座椅沒(méi)有恢復(fù)到已有的位置或者記憶位置,以及記憶位置不準(zhǔn)確,我們?cè)?.3.0和1.3.1都有優(yōu)化。

技術(shù)上OCC怎么實(shí)現(xiàn)的?

  王亮:各位媒體朋友,各位集度同事大家下午好!很榮幸收到邀請(qǐng),過(guò)來(lái)跟大家做技術(shù)層面的交流。今天分享的題目Vision Takes All,有一個(gè)副標(biāo)題,用AI原生思維重構(gòu)自動(dòng)駕駛視覺(jué)感知技術(shù),這里有一些詞解釋一下,英文這個(gè)詞代表什么?這是我們內(nèi)部的愿景,我們希望是用純視覺(jué),#用一個(gè)視覺(jué)大模型去Takes All,英文翻譯過(guò)來(lái)是“通吃”,我們希望解決所有自動(dòng)駕駛感知相關(guān)的問(wèn)題,用純視覺(jué)大模型做。副標(biāo)題里,AI原生思維,是什么概念?這在百度內(nèi)部被提的比較多的概念。

  我說(shuō)一下我的理解,什么是好的AI原生思維,在今天大模型時(shí)代大數(shù)據(jù)時(shí)代,我舉一個(gè)很好的例子,極越語(yǔ)音設(shè)計(jì)就是非常AI原生思維的產(chǎn)品設(shè)計(jì),我認(rèn)識(shí)的人,包括我,開(kāi)車(chē)久了之后,不會(huì)再找車(chē)上按紐,所有事情很自然的通過(guò)語(yǔ)音交互去完成。

  如果從算法上講,舉一個(gè)例子,趨勢(shì)是什么?都是從規(guī)則到多模型多任務(wù),再到模型的聚合,大模型,多任務(wù)的過(guò)程,比如我們?cè)瓉?lái)判斷會(huì)不會(huì)有車(chē)輛、會(huì)不會(huì)加塞,最早會(huì)有每個(gè)時(shí)刻的障礙物擬合加軌跡,看看和前行的軌跡會(huì)不會(huì)有交叉,都可以靠數(shù)學(xué)計(jì)算幾何計(jì)算做判斷。第二步可以做模型判斷,可以學(xué)車(chē)輪子、學(xué)車(chē)燈、學(xué)車(chē)道線,這三個(gè)模型輸出的結(jié)果,能更好更準(zhǔn)確的判斷,這個(gè)車(chē)會(huì)不會(huì)對(duì)我們進(jìn)行加塞動(dòng)作。到今天會(huì)怎么做?我們把所有的小模型都去掉,我們用連續(xù)幀視頻的信息直接判斷會(huì)不會(huì)加塞,這也是一種在算法層面AI原生思維的體現(xiàn)。

  分享第一部分,很多人會(huì)問(wèn),媒體朋友也會(huì)感興趣,為什么極越高階智駕PPA選擇用純視覺(jué)做?有很多人問(wèn),為什么不用激光雷達(dá)。馬斯克說(shuō)人類沒(méi)有主動(dòng)的測(cè)距能力,兩個(gè)眼睛就能開(kāi)車(chē),AI也可以。激光雷達(dá)是比較昂貴的,雖然現(xiàn)在降本大潮下,價(jià)格不斷的往下打,但是我可以很確定的說(shuō),它的器件和成像原理在這里,再怎么降本,它的成本也會(huì)是相機(jī)的5-10倍。激光雷達(dá)是很精密的光學(xué)測(cè)距儀器,里面有很多移動(dòng)部件,這種部件有很高概率會(huì)出現(xiàn)可靠性問(wèn)題,會(huì)帶來(lái)售后問(wèn)題。

  第四點(diǎn),我們也有毫米波雷達(dá)、超聲波雷達(dá),它們?cè)聿畈欢啵梢宰龊芏嗉す饫走_(dá)做的工作,但是不管激光雷達(dá)還是毫米波、超聲波,他們都代替不了相機(jī)。最后更專業(yè)一點(diǎn)的算法同學(xué)會(huì)有感觸,激光雷達(dá)也不是一個(gè)完美的系統(tǒng),它會(huì)有偽影,消除偽影的影響也是非常難做,非常痛苦的過(guò)程。這都是大家耳熟能詳?shù)脑颉?/p>

  我們?nèi)粘5难葸M(jìn)迭代速度等于什么?(初速度+加速度)×?xí)r間,跟時(shí)間相關(guān)的是加速度。初速度很重要,這是算法從0到1的階段,也是激光雷達(dá)最大的優(yōu)勢(shì)。2017年左右很多創(chuàng)業(yè)公司可以在三個(gè)月可以在城市里把激光雷達(dá)的自動(dòng)駕駛方案demo跑出來(lái),為什么這么快?他們不用深耕嗎?如果有很好的工程師,利用激光雷達(dá)直接提供的三維信息,可以不需要那么強(qiáng)的算法,就能把這個(gè)事情跑起來(lái),沒(méi)那么難。但是在視覺(jué)方案這邊,視覺(jué)初速度很慢。從Mobileye做了25年的視覺(jué)方案,就能發(fā)現(xiàn)這個(gè)事情足夠難,這也是Mobileye CEO講這是他們?yōu)槭裁创嬖诘睦碛。特斯拉是什么時(shí)候?2015年和Mobileye分手之后自己開(kāi)始組團(tuán)隊(duì),自研純視覺(jué)的方案,到今天也有八年多的時(shí)間,百度的視覺(jué)方案在2019年正式開(kāi)始進(jìn)行高強(qiáng)度嘗試,當(dāng)時(shí)通過(guò)小的項(xiàng)目,在Apollo Lite上做了開(kāi)始,到和極越合作過(guò)程中,已經(jīng)開(kāi)始算完成從0到1的進(jìn)化。加速度和什么相關(guān)?在這個(gè)大模型時(shí)代,OpenAI有很有名的文章,Scaling Laws for Neural Language Models,這里提了一個(gè)結(jié)論,整個(gè)模型的迭代速度跟三件事情相關(guān),模型的參數(shù)量、數(shù)據(jù)的規(guī)模、訓(xùn)練算力,這三者相輔相成,決定了模型的質(zhì)量。論文告訴我們?cè)诮裉旒夹g(shù)時(shí)代,我們要把能力上限做上去,迭代的更快,需要關(guān)注模型大小,訓(xùn)練的質(zhì)量,還有超強(qiáng)算力。

模型怎么做大?

  車(chē)上如果一堆小模型都在跑各自任務(wù),不可能把單一模型做特別大,所以我們一定要合并,減少激光雷達(dá)的模型,這樣就可以給視覺(jué)模型多幾千萬(wàn)的參數(shù)。第二個(gè)是數(shù)據(jù)力量,第三,在有限算力下怎么設(shè)計(jì),如果讓訓(xùn)練更加充分。這個(gè)公式是我們選擇純視覺(jué)方案背后的深層邏輯,為了上限更高,迭代更快。

為什么是視覺(jué)?

  既然說(shuō)到數(shù)據(jù),要關(guān)注數(shù)據(jù)的質(zhì)量,所有傳感器都是每時(shí)每刻對(duì)環(huán)境進(jìn)行離散采樣,這里做了一個(gè)對(duì)比,第一列是主流的很多城市NOA使用的激光雷達(dá)的參數(shù),分辨率、最大幀率兩者相乘變成一秒內(nèi)點(diǎn)頻采樣數(shù)。中間列(SOTA)是沒(méi)有量產(chǎn),最近剛剛有宣傳的代表,參數(shù)是業(yè)內(nèi)最好的,性能最高的激光雷達(dá),它對(duì)應(yīng)的參數(shù)是這樣的。現(xiàn)在極越車(chē)上搭載的800萬(wàn)攝像頭分辨率、幀率、點(diǎn)頻,三者對(duì)比大概比例1:8:160,也就是說(shuō)今天主流NOA是我們1/160,明天最好的激光雷達(dá)是我們1/20,這只是可量化的部分。

  還有不是那么容易量化的部分,數(shù)據(jù)里到底蘊(yùn)含多少信息,可以供算法迭代,左邊是激光雷達(dá)點(diǎn)云,激光雷達(dá)返回幾何信息,另外更重要是Appearance-紋理,這是圖像提供的。右圖(PPT所示)隨便找一個(gè)路口看一張圖像,左邊是對(duì)應(yīng)的激光雷達(dá)掃下來(lái)的點(diǎn)云。如果看這個(gè)圖像,這個(gè)信息實(shí)在太多了,首先大概能知道這里有兩條路,在中間有斑馬線,這里有紅綠燈,面向我們這個(gè)朝向是紅的,面向行人是綠色的,還有不一樣的行人,右邊有一個(gè)男生,想過(guò)馬路,擔(dān)心有車(chē)闖紅燈,朝我們看了一眼,過(guò)程中放慢腳步,很快通過(guò)了,左邊有一個(gè)拿箱子的男士,這個(gè)箱子到底是不是靜止的障礙物,還是會(huì)跟著這個(gè)人一起走,不看圖像是不知道的。有一個(gè)女生站的很筆直,她是過(guò)馬路還是等車(chē),是在準(zhǔn)備過(guò)馬路還是等車(chē)過(guò)去之后再過(guò)馬路。如果從這個(gè)圖看,大家肯定知道她是要過(guò)的,因?yàn)樗@邊是綠色的,而且已經(jīng)走到馬路中間,后面還有摩托車(chē)馱著一個(gè)行人,這是一個(gè)物體還是兩個(gè)物體,通過(guò)圖像,大家能有更好的解讀的能力。看點(diǎn)云,我們知道有一堆障礙物在路上,不能碰他,我們減速,等它過(guò)去,這個(gè)車(chē)也能走,大家可以想象二者的上限和智能性的差異化是什么。從絕對(duì)的數(shù)量再到點(diǎn)云,從不太容易量化的信息來(lái)看,視覺(jué)的信息量數(shù)據(jù)的境況遠(yuǎn)遠(yuǎn)大于激光雷達(dá)的。

  再談?wù)劶铀俣。做視覺(jué)不會(huì)那么快,比較難,在這張圖里,剛才我解讀了很多,有一個(gè)問(wèn)題,對(duì)機(jī)器來(lái)說(shuō)非常難,這是計(jì)算機(jī)視覺(jué)幾十年的難題,在我們這張圖像成圖的過(guò)程中已經(jīng)把三維做了有損投影,把三維世界壓到二維平面上,這是成像的過(guò)程。無(wú)人車(chē)最重要第一步在三維環(huán)境里規(guī)劃軌跡,怎么從二維圖像里把三維的信息找出來(lái),這就是計(jì)算機(jī)視覺(jué)幾十年的難題,二維到三維的挑戰(zhàn)。

  如果有三維物體,看一下這個(gè)物體上面任何一個(gè)點(diǎn),投在圖像上某個(gè)位置,這是非常容易的事情,高中生都能做的數(shù)學(xué)公式來(lái)計(jì)算它。反過(guò)來(lái),如果不告訴你這個(gè)物體在哪里,只有一張圖像和一個(gè)像素,我問(wèn)你,這個(gè)像素在空間中的什么位置,這就屬于病態(tài)問(wèn)題或者ill-posed問(wèn)題。我可以在空間中任意一個(gè)移動(dòng)物體上,把這個(gè)物體投到對(duì)應(yīng)的圖像位置上,等于我們有三個(gè)未知數(shù)要求,但是只有兩個(gè)方程,大家都不知道怎么做這個(gè)事情。

  圍繞這個(gè)難題,我們有三代技術(shù)方案,大概代表了整個(gè)自動(dòng)駕駛行業(yè)用純視覺(jué)解決自動(dòng)駕駛?cè)S問(wèn)題的過(guò)程。第一個(gè)過(guò)程,從2019年開(kāi)始,意識(shí)到激光雷達(dá)和視覺(jué)放在一起的時(shí)候,為什么視覺(jué)發(fā)展不了?工程師還是會(huì)用身體投票,他在巨大業(yè)績(jī)壓力下會(huì)選擇做簡(jiǎn)單的事情,會(huì)選擇用激光雷達(dá)解bug,沒(méi)有人愿意花這么多精力死磕視覺(jué)方案。當(dāng)時(shí)我們做了一個(gè)決定,把激光雷達(dá)拿掉,定了同樣的業(yè)務(wù)目標(biāo),讓做視覺(jué)的算法同學(xué)死磕這類問(wèn)題。當(dāng)時(shí)我們用的方案,左邊是多個(gè)相機(jī)不同視角的輸入,每個(gè)相機(jī)或者幾個(gè)相機(jī)之間會(huì)分享DNN深度學(xué)習(xí)的網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)做的是從單一視角,從二維到三維的恢復(fù),這樣的任務(wù)。每個(gè)網(wǎng)絡(luò)把它看到東西匯報(bào)出來(lái)之后,首先在時(shí)序上對(duì)單相機(jī)做障礙物的跟蹤,是基于規(guī)則。再往后還要做一步,把多路相機(jī)感知到的東西做拼接,拼到無(wú)人車(chē)統(tǒng)一的坐標(biāo)系下,不然會(huì)有很多重復(fù),無(wú)人車(chē)就沒(méi)有辦法走。這兩步后面都是基于規(guī)則的,雖然當(dāng)時(shí)的效果還不錯(cuò),但是調(diào)到后面發(fā)現(xiàn)很難調(diào),數(shù)據(jù)能解決的只在第一部分,后面還有很多要依靠假設(shè),依靠多樣的參數(shù),依靠經(jīng)驗(yàn),依靠專家系統(tǒng)調(diào)的東西。這個(gè)路走不了那么遠(yuǎn)。

  2022年,我們果斷的做了一次大的升級(jí),也是用當(dāng)時(shí)比較流行的BEV解決問(wèn)題,最大的變化把DNN變成Transformer,Transformer和DNN有什么區(qū)別?我試圖用一個(gè)大家比較能容易理解的方式來(lái)說(shuō)這個(gè)事情,不是Deep Learning (DNN是Deep Learning深度學(xué)習(xí)的基礎(chǔ)模型之一)不能做BEV,其實(shí)也能做,但是做不到Transformer這么好,Transformer提供了一個(gè)能力是學(xué)習(xí)三維,我們把三維做約定,畫(huà)一個(gè)網(wǎng)格,每個(gè)網(wǎng)格能學(xué)習(xí)到各個(gè)圖像上怎么樣聚合圖像上的信息,再把這個(gè)信息在三維網(wǎng)格上提取出我們感興趣的東西。到這一步,我們用Transformer+BEV的方式,左邊原來(lái)是每一個(gè)相機(jī)同一時(shí)刻的輸入,現(xiàn)在每一個(gè)時(shí)刻都是時(shí)序上,從時(shí)刻T到T-N倒推,比如N幀,每一刻都是環(huán)視一圈數(shù)據(jù)進(jìn)來(lái),進(jìn)到這個(gè)網(wǎng)絡(luò),基本沒(méi)有什么規(guī)則和后處理,全是端到端直接輸出障礙物,并且在結(jié)果上增加了除了2D框,我們?cè)黾恿祟A(yù)測(cè)任務(wù),這個(gè)框物體未來(lái)幾秒未來(lái)的走向和趨勢(shì)是什么。這一步升級(jí)之后,這是1.1SOP版本的方案,整體就非常有信心,可以用純視覺(jué)代替激光雷達(dá)做障礙物檢測(cè),這個(gè)方法上有一定缺陷,少一張視覺(jué)拼圖,因?yàn)樗鼘?duì)檢測(cè)可以用框來(lái)表達(dá)的東西還是很擅長(zhǎng)的,但是有些東西是沒(méi)有辦法用框表達(dá),比如延續(xù)很長(zhǎng)的柵欄,或者擺放無(wú)序的施工的土包、圍擋都不太容易用框來(lái)表達(dá)。要徹底的趕超激光雷達(dá),我們2024年完成第三步升級(jí),這是BEV+OCC+Transformer多任務(wù)統(tǒng)一的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)跟剛才相比,我們加了3D的Transformer,我們把多個(gè)任務(wù)放在一塊學(xué)習(xí),右邊除了幾何,整個(gè)三維世界里的位置、深度、高度信息,還有語(yǔ)義信息,這個(gè)東西到底代表什么,是路邊遮擋還是車(chē)輛,我們會(huì)自動(dòng)的把這些幾何信息和語(yǔ)義信息聚合在一起,輸出三維信息框也好,或者OCC也好。

  還有我們?cè)谘械墓δ,下一版希望推上去,整個(gè)跟蹤和預(yù)測(cè)都可以通過(guò)直接學(xué)習(xí)來(lái)做,包括速度預(yù)估,原來(lái)還需要做速度差分,幾幀之間的障礙物,用數(shù)學(xué)公式算速度,這個(gè)速度很難收斂,現(xiàn)在通過(guò)大量的數(shù)據(jù),可以把速度和未來(lái)運(yùn)動(dòng)趨勢(shì)都做學(xué)習(xí),第四步還在研,這是我們完整的輸出,Vision Takes AII的愿景理念,這基本涵蓋所有我們做無(wú)人駕駛相關(guān)的感知任務(wù),從檢測(cè),動(dòng)態(tài)障礙物檢測(cè)、靜態(tài)障礙物檢測(cè)到場(chǎng)景語(yǔ)義理解解讀,到時(shí)序的跟蹤、運(yùn)動(dòng)估計(jì),全都可以用這樣一套架構(gòu)做統(tǒng)一,未來(lái)迭代速度會(huì)更快。

純視覺(jué)方案是不是非常降本的方法?

  介紹完這一部分的技術(shù)之后,第二個(gè)問(wèn)題跟大家探討一下,有很多人問(wèn),你們純視覺(jué)方案是不是非常降本的方法,這個(gè)問(wèn)題怎么看?其實(shí)不是的,大家看到的是車(chē)上少了幾千塊錢(qián)的BOM成本(如激光雷達(dá)等),用戶買(mǎi)車(chē)價(jià)格下來(lái)了,但是在看不到的背后,是極越和百度做這套純視覺(jué)方案的投入,天平的左邊是車(chē)上傳感器的成本,這部分最直接的獲益者是極越車(chē)主可以花更少的錢(qián)去體驗(yàn)高階智駕產(chǎn)品。

  大家會(huì)想圖像沒(méi)有3D,怎么把三維信息學(xué)出來(lái),現(xiàn)在激光雷達(dá)廠商生產(chǎn)最好的激光雷達(dá)我們都搭載到采集車(chē)上,我通過(guò)采集車(chē)上學(xué)2D、3D聯(lián)合的標(biāo)注,把激光雷達(dá)能力通過(guò)這個(gè)過(guò)程融入到純視覺(jué)系統(tǒng)里。一開(kāi)始用的是百度Robotaxi超過(guò)六千萬(wàn)公里訓(xùn)練的數(shù)據(jù),積累的數(shù)據(jù),都是全量落盤(pán),各種場(chǎng)景,幾十個(gè)城市的數(shù)據(jù),作為熱啟動(dòng)。這么多信息,要訓(xùn)練充分,背后需要很多算力,目前投入到跟極越項(xiàng)目上的卡數(shù)超過(guò)五千張(A100或A800這樣的大算力顯卡),每周級(jí)別做迭代。

  第三點(diǎn),自動(dòng)化生產(chǎn)數(shù)據(jù),數(shù)據(jù)不是標(biāo)注的嗎,找人標(biāo)就行了,到了BEV時(shí)代,我們又是時(shí)序,又是環(huán)視,又是多任務(wù),人已經(jīng)搞不清楚了,不像當(dāng)年在2D圖像上標(biāo)框這么簡(jiǎn)單,人沒(méi)法搞定,人可以做后續(xù)質(zhì)檢,但是整個(gè)生產(chǎn)流程是非常復(fù)雜的過(guò)程,有時(shí)候我們看系統(tǒng)覺(jué)得,感覺(jué)和光刻機(jī)的感覺(jué)比較像,投入非常大,做產(chǎn)線,把網(wǎng)絡(luò)需要訓(xùn)練的數(shù)據(jù),自動(dòng)化的生產(chǎn)出來(lái),是很有技術(shù)含量的過(guò)程,這里我們跟百度內(nèi)部溝通,內(nèi)部協(xié)同和研究院,用170億參數(shù)的視覺(jué)大模型,當(dāng)然170億參數(shù)用了MOE的架構(gòu),訓(xùn)練的時(shí)候?qū)嶋H推理時(shí)間跟6億參數(shù)模型是一樣的,不會(huì)花那么久的時(shí)間幫我們做輔助標(biāo)注。另外自動(dòng)化產(chǎn)線,搭建下來(lái),日均產(chǎn)能可以做到百萬(wàn)幀圖像,最后高質(zhì)量標(biāo)注數(shù)據(jù)用于BEV+OCC聯(lián)合訓(xùn)練的精標(biāo)數(shù)據(jù)超過(guò)上億幀,這是大家看不見(jiàn)的背后投入。

  高精度自動(dòng)化多任務(wù)共享的BEV+OCC訓(xùn)練數(shù)據(jù)的生成過(guò)程,首先我們有采集車(chē),采集車(chē)上搭載了先進(jìn)的激光雷達(dá)以及和極越配置近乎一樣或者完全一樣的攝像頭,上面還有一幀是點(diǎn)云直接采回來(lái),大家如果直接看點(diǎn)云,顯然不太能用,它還是比較離散,下面是自動(dòng)化標(biāo)注出來(lái)的供網(wǎng)絡(luò)學(xué)習(xí)的真實(shí)數(shù)據(jù),里面不止有語(yǔ)義,還有結(jié)構(gòu)化信息,以及更重要的是非常準(zhǔn)確的像雕刻過(guò)一樣的3D的感覺(jué),需要用很多步驟,來(lái)回用大模型刷,用各種專家系統(tǒng),雖然是離線(沒(méi)有那么高的實(shí)時(shí)要求),把專家系統(tǒng)做的非常細(xì)致,點(diǎn)云采集的車(chē),左邊灰色的圖還是看不清楚的,偶爾看到三輛車(chē),但是中間橙色真實(shí)數(shù)據(jù)已經(jīng)把車(chē)的形狀雕刻的非常精細(xì),這里需要對(duì)車(chē)輛離線進(jìn)行跟蹤,把點(diǎn)云拼接到同一個(gè)時(shí)刻,讓點(diǎn)云的密度增加之后,再在空間上做雕刻。這里可以看到雕刻之后的車(chē),精度已經(jīng)到厘米級(jí)。右邊路沿,每個(gè)車(chē)掃過(guò)去的時(shí)候只能有幾個(gè)點(diǎn)打在路沿上,非常稀疏。通過(guò)后處理以及視覺(jué)與大模型的分類,我們已經(jīng)可以把路沿很精細(xì)的刻畫(huà)出來(lái),在場(chǎng)景里,把高低起伏的地方標(biāo)注出來(lái),F(xiàn)在3D精度可以做到厘米級(jí),和激光雷達(dá)一樣,甚至比激光雷達(dá)還好一點(diǎn),分類接近一百類不一樣的東西,可以在上面通過(guò)視覺(jué)大模型打標(biāo)簽,做自動(dòng)化的分類。整個(gè)速度的估計(jì),視頻里是連續(xù)的視頻流,整個(gè)車(chē)輛速度,障礙物運(yùn)動(dòng)速度的精度可以做到0.1米/秒的誤差,是非常高質(zhì)量的產(chǎn)線。

  媒體:第一個(gè)問(wèn)題,有一個(gè)跟車(chē)機(jī)功能相關(guān)的點(diǎn),我那臺(tái)車(chē)更新完了,在切換賬號(hào)的時(shí)候,需要在APP上確認(rèn),沒(méi)有直接在車(chē)機(jī)里直接切換賬號(hào)就行了,這是多余的步驟。此外,QQ音樂(lè)播放的時(shí)候經(jīng)常無(wú)原因斷開(kāi),一首歌3分鐘的歌有四五次斷,播放就斷,斷了又回來(lái)。希望后續(xù)進(jìn)一步優(yōu)化。

  第二個(gè)跟智駕相關(guān),請(qǐng)教一下王亮博士,現(xiàn)在極越智駕基礎(chǔ)能力,方向盤(pán)抖動(dòng)特別嚴(yán)重,尤其在LCC過(guò)程中,它抖動(dòng)的原因是什么?比如我在開(kāi)小鵬或者蔚來(lái),在車(chē)道保持有些偏移的時(shí)候會(huì)修正回來(lái),在路況非常好的情況下極越方向盤(pán)抖動(dòng)特別嚴(yán)重,把手放在上面一直在抖也不知道它在修正什么?

  王亮:這個(gè)問(wèn)題我們意識(shí)到了,您體驗(yàn)是不是1.1的版本。

  媒體:1.3版本。

  潘云鵬:關(guān)于方向盤(pán)修正問(wèn)題,1.3.0做了優(yōu)化,另外方向盤(pán)如果是U型方向盤(pán),因?yàn)槭瞧降模瑫?huì)加重方向盤(pán)左右感受,我們會(huì)持續(xù)優(yōu)化,這不是什么太難的事情。關(guān)于賬號(hào)切換的問(wèn)題,是不是因?yàn)榫W(wǎng)絡(luò)原因,在高速上?

  媒體:不是。不可能在全國(guó)各地都有網(wǎng)絡(luò),我在上海有,在青島有,我在黃州有。我那臺(tái)車(chē)經(jīng)常登錄自己賬號(hào),用幾天之后,再用,發(fā)現(xiàn)它又重新掃賬號(hào),退出了。車(chē)主賬號(hào)一直沒(méi)有切換過(guò)。

  潘云鵬:二位的問(wèn)題我們記一下,除了網(wǎng)絡(luò)以外,QQ斷流顯然是不正常的。

  媒體:其次問(wèn)一下,輕圖(音)版本大概在什么時(shí)候上?

  潘云鵬:輕圖剛才已經(jīng)劇透了,200城,今年肯定會(huì)在上半年,爭(zhēng)取做一些提前的體驗(yàn)出來(lái)。要開(kāi)200城的話,在未來(lái)一到兩個(gè)季度有比較大的變化。

  王亮:200城是年度OKR。

  媒體:王亮博士,現(xiàn)在大模型的更新,比如OCC以后對(duì)通用障礙物識(shí)別肯定更廣泛能力更強(qiáng),現(xiàn)在我們大模型一次更新迭代的節(jié)奏是多長(zhǎng)?

  王亮:我們有預(yù)訓(xùn)練的過(guò)程,迭代一般可以用新的數(shù)據(jù),對(duì)問(wèn)題數(shù)據(jù)進(jìn)行小的優(yōu)化,一般小優(yōu)化比較快,一周左右,不到一周,很快測(cè)試出不同的版本的結(jié)果。刷一次大的,大概在一周到兩周之間,可以把車(chē)端幾千萬(wàn)的參數(shù)模型重新刷一遍,這還是比較敏捷,但是模型的刷,要包含線下測(cè)試、線上路上識(shí)路測(cè)試等,我們做的還是比較謹(jǐn)慎一些,擔(dān)心有離線測(cè)不出來(lái)的情況。所以大家感受上,模型發(fā)版沒(méi)有那么快,這個(gè)點(diǎn)是后續(xù)我們要進(jìn)一步探討的。我們會(huì)把模型驗(yàn)證做的更加充分,離線研究做的更充分,能讓用戶更高頻更敏捷感受到大模型的迭代。

  媒體:最后一個(gè)問(wèn)題,剛才講到現(xiàn)在正在開(kāi)放下一代模型,一直在看特斯拉做,他是把車(chē)和機(jī)器人算法一塊做,F(xiàn)在從BEV到Transformer到OCC是行業(yè)通識(shí)的,下一代在這里面,會(huì)不會(huì)是研發(fā)方向,這里是不是可以把端到端的東西往里做。

  王亮:特斯拉內(nèi)部應(yīng)該叫V12推送,在北美已經(jīng)推送給內(nèi)部員工了,我們看到了視頻,有說(shuō)好,有說(shuō)不好的,整體是大的趨勢(shì)。從圖像直接到車(chē)控制,可以看成兩個(gè)大網(wǎng)絡(luò)任務(wù),純視覺(jué),針對(duì)感知,檢測(cè)、跟蹤、語(yǔ)義理解、建圖在一起,它的變化是不再直接輸出人能感覺(jué)到的、可視化的障礙物,而是把BEV的特征直接傳遞到下游決策規(guī)劃,決策規(guī)劃也是做成網(wǎng)絡(luò)直接學(xué)好的駕駛員的行為和軌跡。不過(guò)這里有大的不確定性。首先需要多少數(shù)據(jù),不好回答,網(wǎng)絡(luò)要變得很大。另外,駕駛還是要保持穩(wěn)定,網(wǎng)絡(luò)是不是能保證也是一個(gè)問(wèn)題。特斯拉走的比較靠前,很多做智駕團(tuán)隊(duì)也在做嘗試、預(yù)演,然后像前幾年BEV+Transformer一樣,各種論文,各種新的點(diǎn)子層出不窮。我們比較堅(jiān)持能做出來(lái),能落地的功能,我們內(nèi)部也有這方面的布局,當(dāng)然什么時(shí)間在極越車(chē)上落地,什么場(chǎng)景釋放,還得等一段時(shí)間,我們?cè)俑襟w朋友,跟車(chē)主做交流,大家相信,這應(yīng)該是未來(lái)更好的讓車(chē)開(kāi)的車(chē)更智能的大方向,這個(gè)過(guò)程可能也要把整個(gè)決策規(guī)劃進(jìn)行重構(gòu),類似AI原生思維。

  媒體:OCC非常大,特斯拉推AEB性能有了很豐富的改進(jìn),速度區(qū)間,從以前8-150可以支持到5-200,下限5公里,上限200公里,橫穿障礙物,在過(guò)去用框不那么容易標(biāo)定的,不知道技術(shù)原理的,這些特斯拉明確說(shuō)了用OCC解決。還有明確說(shuō)了基于通用障礙物的AEB,也是用OCC實(shí)現(xiàn)的。同時(shí),2023年,尤其下半年比較重要的趨勢(shì),國(guó)內(nèi)在卷AEB,我們OCC是不是接下來(lái)有規(guī)劃強(qiáng)化極越主動(dòng)安全能力?

  王亮:肯定有的,原來(lái)車(chē)上有很多不同的網(wǎng)絡(luò),做不同的任務(wù),AEB有自己的網(wǎng)絡(luò),以后趨勢(shì)一定是,從通用Vision Takes All的理念上輸出,下游各方的應(yīng)用,都要做,這里不止是感知,把它做出來(lái)了,上去了,下面都可以用了,下面還是決策規(guī)劃等等要做一定適配,特別AEB需要大量測(cè)試的,這個(gè)是要做,但是有一定排期。特斯拉做的時(shí)間比我們長(zhǎng)一點(diǎn),我們還有需要進(jìn)一步提升的,比如視距提升。OCC在世界坐標(biāo)系畫(huà)一個(gè)格子,這個(gè)格子畫(huà)多大,分辨率多少,每個(gè)格子是1米×1米,還是10厘米×10厘米這個(gè)決定你能看多遠(yuǎn),做到多精細(xì),這個(gè)還有逐步工程化模型調(diào)優(yōu),整個(gè)模型加速的過(guò)程,我們會(huì)朝這個(gè)方向努力。在后面幾個(gè)版本,你能感受到OCC變化。要做到高速上200公里AEB,首先看得遠(yuǎn),這個(gè)BEV和OCC都要努力夠,做模型優(yōu)化。BEV的橫向障礙物識(shí)別,包括自動(dòng)學(xué)習(xí)速度預(yù)測(cè),應(yīng)該能給橫向AEB受益的。

  媒體:高算力訓(xùn)練集群大于五千卡,國(guó)內(nèi)大家說(shuō)的比較具體,是多少EFLOPS(音),極越是多少?

  王亮:大家可以折算一下,這個(gè)不難算,基本是A100、A800高算力的卡。

  媒體:去年CVPR上特斯拉簡(jiǎn)單帶了一點(diǎn)點(diǎn)關(guān)于世界模型的內(nèi)容,這可能是在OCC之后,下一個(gè)比較熱的東西,或者反過(guò)來(lái)說(shuō)光有OCC不足以支撐智能駕駛,它是一個(gè)階段性的終點(diǎn)。您對(duì)世界模型的看法,它有一個(gè)比較可供落地的技術(shù)路徑嗎,我們?cè)诟L(zhǎng)周期里有規(guī)劃嗎?

  王亮:關(guān)于世界模型,我們暫時(shí)沒(méi)有那么多的精力投入研究它,我大概看了一些,包括百度Apollo內(nèi)部有偏前瞻研究的部門(mén)也在看,我看到新技術(shù)很興奮,但是怎么和自動(dòng)駕駛很密切的結(jié)合,能讓用戶感受到明顯的變化,這個(gè)事情我沒(méi)有看那么清楚。端到端我有一些研究,我會(huì)看一下特斯拉,V12多多少少做出來(lái)了,這個(gè)方向上可落地性,不能說(shuō)一點(diǎn)問(wèn)題沒(méi)有,相信是肯定能做出來(lái)的。

  媒體:最后關(guān)于OCC的問(wèn)題,有一些車(chē)會(huì)有白名單,可以把視覺(jué)用提速解構(gòu)。極越是沒(méi)有白名單,還是會(huì)有一些東西?你能看到它,或者OCC可以標(biāo)注出來(lái),但是不確定是好的,你依然分辨不出來(lái)是什么樣的障礙物,有可能一個(gè)塑料袋也是標(biāo)注出來(lái),我們策略上是有白名單還是沒(méi)有白名單,所有策略有減速或者繞行。

  王亮:我們標(biāo)了近一百類的東西,這不是只有這一百類,肯定有某一類就叫其他,從OCC設(shè)計(jì)理念上肯定追求的就是去白名單化,希望可以涌現(xiàn)障礙物識(shí)別或者通行空間識(shí)別的能力,是它的本質(zhì),現(xiàn)在釋放的肯定是學(xué)的比較充分的,有比較充分的數(shù)據(jù)積累,會(huì)一步步的向用戶推送感受,F(xiàn)在雖然模型不是這么設(shè)計(jì),但是使用上會(huì)有這種感覺(jué),這是跟產(chǎn)品化結(jié)合過(guò)程中的策略,為了保證大家的體驗(yàn)。OCC上車(chē)并不容易,其實(shí)它特別難,因?yàn)樗鼤r(shí)時(shí)刻刻都在生效,但是被你碰到解決問(wèn)題的那個(gè),可能是小概率事件,可能很多人沒(méi)有遇到過(guò)。實(shí)時(shí)生效副作用是什么?跟AEB比較像,它檢測(cè)不準(zhǔn),有時(shí)候有莫名減速而讓用戶不爽,所以我們要把這個(gè)東西調(diào)的特別好,逐步的釋放。在很長(zhǎng)的分類名單里,你能感受到穩(wěn)定的障礙物,應(yīng)該會(huì)有逐步爬坡的過(guò)程。但它設(shè)計(jì)初衷不是做白名單,肯定提升對(duì)通用的障礙物識(shí)別的能力。

  媒體:我們看特斯拉自己分享,包括我們跟國(guó)內(nèi)其他品牌交流,大家普遍覺(jué)得要做OCC需要非常海量數(shù)據(jù),我們前面PPT說(shuō)了,百度Robotaxi本身賦能一部分,我們積累下來(lái)的所有Robotaxi積累下來(lái)的數(shù)據(jù)都可以復(fù)用嗎,如果不是,我們從哪個(gè)階段,我們實(shí)現(xiàn)OCC落地不過(guò)多的依賴極越車(chē)隊(duì),而是依賴L4事業(yè)部數(shù)據(jù)解決。

  王亮:數(shù)據(jù)從哪兒來(lái)?這個(gè)事情大家如果看百度,是有一定的優(yōu)勢(shì),比如量產(chǎn)車(chē)極越,可能其他新勢(shì)力也有。這些數(shù)據(jù)既可以通過(guò)把車(chē)再武裝一些高價(jià)傳感器來(lái)收集,比如激光雷達(dá),也可以攢個(gè)車(chē)隊(duì)去收集。百度有兩個(gè)東西是有差異化競(jìng)爭(zhēng)力的,我們有近千輛的Robotaxi在全國(guó)十多個(gè)城市運(yùn)營(yíng),每天除了一些時(shí)段沒(méi)有需求不做,其他都在做,這部分搭載比較好的傳感器,高精地圖等等,它可以貢獻(xiàn)數(shù)據(jù),而且這個(gè)數(shù)據(jù)不是走流量,有一個(gè)比較大的盤(pán),這是我們自己運(yùn)營(yíng)的車(chē),存儲(chǔ)的數(shù)據(jù)比較全,可以像圖書(shū)館一樣,你想要什么索引就好了,把它拉出來(lái)。另一個(gè)差異化是,我們有百度地圖,百度地圖會(huì)往全國(guó)各地撒出很多的采集車(chē),采集車(chē)也是有攝像頭、激光雷達(dá)去制高精地圖、SD地圖,這個(gè)數(shù)據(jù)跟我們開(kāi)城層面或者OCC很好的協(xié)同。我們跑的城市,地圖在幾個(gè)月之前已經(jīng)跑過(guò)一遍,而且這個(gè)數(shù)據(jù)也是全量落得。

  媒體:地圖采集數(shù)也是像圖書(shū)館索引一樣調(diào)取?

  王亮:而且比RT覆蓋更好,RT是在限定區(qū)域跑很久,基本上把區(qū)域吃的比較透。地圖的車(chē)跟我們開(kāi)城是強(qiáng)綁定的,像先頭部隊(duì)一樣,基本把每一寸道路丈量之后,數(shù)據(jù)采回來(lái),我們可以用這個(gè)數(shù)據(jù)做我們網(wǎng)絡(luò)。我們做的算比較快,極越不是第一個(gè)做電動(dòng)車(chē),我們不是第一個(gè)做智駕產(chǎn)品,我們的速度可以看到,基本做到什么事情說(shuō)到做到,按時(shí)交付、快速迭代,這跟百度自己內(nèi)部數(shù)據(jù)儲(chǔ)備,自身的優(yōu)勢(shì)是有關(guān)系的。這四者都有,而且極越的車(chē)日后會(huì)發(fā)揮越來(lái)越大的作用。百度的特殊車(chē)輛,包括還會(huì)有一些特殊的能力,我們需要在極越車(chē)上再加裝一些很高端的東西,還是用這個(gè)邏輯,把高端傳感器的能力學(xué)到攝像頭上,不斷的重復(fù)這個(gè)過(guò)程,我們純視覺(jué)能力可以媲美激光雷達(dá),這是我們遲早會(huì)做到的一件事情。

  媒體:我有一些關(guān)于座艙和車(chē)機(jī)、智能駕駛方面的疑問(wèn),第一個(gè),文心一言4.0版本上線之后,它的交流能力和獲取信息能力非常強(qiáng),它的使用場(chǎng)景僅限在座艙里,它得到的結(jié)果能不能和手機(jī)APP有更好的連接,比如用戶可以通過(guò)手機(jī)APP看到你跟文心一言交流的內(nèi)容,包括它幫你解決的問(wèn)題,可以用回答的方式體現(xiàn)在APP里?

  第二個(gè)問(wèn)題,在極越01首發(fā)新車(chē)有補(bǔ)盲功能,補(bǔ)盲功能是開(kāi)車(chē)門(mén)盲區(qū)監(jiān)測(cè),現(xiàn)在1.3.1上了打燈的盲區(qū),但是盲區(qū)畫(huà)面還是小,它本身來(lái)說(shuō)整個(gè)車(chē)機(jī)屏幕是非常大的。

  第三個(gè)問(wèn)題,極越01車(chē)機(jī)風(fēng)格是太冷了,太像機(jī)器人了,百度地圖是有很多好玩的功能,有很多語(yǔ)音包,還有其他百度功能特有的,這個(gè)功能能不能上線到極越01車(chē)上。這個(gè)應(yīng)該是吉利系造車(chē)問(wèn)題,電門(mén)總感覺(jué)有延遲。單踏板高電量和低電量下的標(biāo)定不統(tǒng)一。

  極越01自動(dòng)泊車(chē)做的很牛,為什么在解安全帶后會(huì)自動(dòng)停止,甚至它沒(méi)有更好的提示。

  最后一個(gè)問(wèn)題,關(guān)于輕圖覆蓋問(wèn)題,輕圖覆蓋需要一段時(shí)間,在輕圖覆蓋之前,對(duì)于基礎(chǔ)LCC的功能上有沒(méi)有提升?比如很多其他友商做的識(shí)別紅綠燈、穿過(guò)無(wú)標(biāo)簽的路口,提升它基礎(chǔ)LCC的能力。

  王亮:輕圖希望下次有分享,剛才還有一個(gè)能力沒(méi)有寫(xiě),視覺(jué)建圖能力,我們也會(huì)有一版大的迭代,是整個(gè)原理上的改變,這個(gè)東西上了之后,替換掉現(xiàn)在LCC使用的車(chē)道線檢測(cè),輕圖做無(wú)圖紅綠燈,這是順帶的,ACC/LCC能力肯定是可以讓輕圖方案受益的,我們是一套感知的中央的服務(wù),服務(wù)各個(gè)應(yīng)用,所以肯定會(huì)做。

  潘云鵬:現(xiàn)在圖做的比較好的百度、高德,在地圖這件事情上,輕圖挺快的,可能比大家想象的快,整個(gè)百度地圖所覆蓋到的輕圖制成的范圍,比大家想象的都要快。

  關(guān)于盲區(qū)畫(huà)面的問(wèn)題,1.3.1會(huì)變大,我們也意識(shí)到它太小,后面會(huì)優(yōu)化,會(huì)和你看后視鏡的感覺(jué)是類似的。

  關(guān)于文心一言的問(wèn)題,我們有兩個(gè)比較大的思考,后面做大模型本地化的支持,這次文心一言原聲支持只是起點(diǎn),代表了我們?cè)谧摰乃伎迹瑒偛拍闾岬绞謭D上V19開(kāi)始的大模型的集成,這后面肯定很快,我們畢竟是在基于大模型作為OS去嫁接文心一言、地圖,或者別的多媒體應(yīng)用。我們肯定可以把文心一言數(shù)據(jù)導(dǎo)出來(lái)的。

  電門(mén)問(wèn)題,我不是特別專業(yè),我也是遇到充滿電之后,會(huì)更活躍,動(dòng)力變得更好,相反電力匱乏的時(shí)候變得稍微差一點(diǎn),總體而言這是留給更專業(yè)的同事解答。

  媒體:第二個(gè)問(wèn)題,去年有一段時(shí)間,包括從極越開(kāi)始,開(kāi)始說(shuō)純視覺(jué)路線,但我注意到去年年末今年年初,大家又把激光雷達(dá)提出來(lái),可能因?yàn)槿ツ?1月份L3相關(guān)規(guī)范下發(fā)了,現(xiàn)在行業(yè)有一種探討或者說(shuō)法,如果后面做到L3級(jí)別,可能需要用到激光雷達(dá)做冗余傳感器,我可能要實(shí)現(xiàn)特殊路段脫眼脫手,如果做純視覺(jué)OCC路線,這塊我們?cè)趺纯紤]的?還是以后L3標(biāo)準(zhǔn)車(chē)型也會(huì)再加一些不一定是激光雷達(dá),是不是加一些其他的傳感器作為冗余?

  王亮:傳感器分兩種,一種是被動(dòng)光,像攝像頭,跟人眼成像原理比較一致。還有主動(dòng)光,激光雷達(dá),現(xiàn)在還有毫米波能起到主動(dòng)光測(cè)距,作為冗余的作用。我部門(mén)是做智駕解決方案,目前還沒(méi)有收到非常明確的需求,以我目前的認(rèn)知感覺(jué),現(xiàn)在做的脫手還是要求大家關(guān)注路況,做到脫眼脫手需要加一定的冗余,這個(gè)冗余是什么原理的傳感器,還有討論的空間,但不論什么,視覺(jué)是基礎(chǔ),其他不能用的那么重,不然就沒(méi)有替換的可行性。應(yīng)該是在很強(qiáng)的視覺(jué)能力下,加上主動(dòng)光傳感器是比較好的。

  媒體:今年我們看到行業(yè)里在提無(wú)高清地圖的概念,我們?cè)囻{很多車(chē)型,從體驗(yàn)的角度來(lái)看,如果是有圖,有高清,數(shù)據(jù)不錯(cuò)的情況下,整體體驗(yàn)是一定會(huì)比輕圖或無(wú)圖好,我們要解決泛化問(wèn)題,大家都在走這條路線,我特別好奇,極越,包括百度在地圖上有自己的優(yōu)勢(shì),如果你們做輕圖,你們會(huì)傾向于用什么樣的方式?我們知道現(xiàn)在行業(yè)有兩種方式,一種是通過(guò)用戶車(chē)隊(duì)方式提前對(duì)于路線進(jìn)行先驗(yàn)的方式。還有通過(guò)模型的方式,不停的在云端訓(xùn)練路口的模型,看過(guò)很多路口,大概這個(gè)路口就會(huì)走了。我們大概用什么樣的路線?還是自己的優(yōu)勢(shì)的路線?

  王亮:從本質(zhì)上,像極越這樣定位的車(chē)型車(chē)企,追求的是最好用戶體驗(yàn)的,還是要做到隨時(shí)隨地。現(xiàn)在有一種叫通勤模式。我個(gè)人感覺(jué),極越明年可能有一些主流大的城市都會(huì)有比較多的店,當(dāng)然會(huì)有用戶在沒(méi)有極越的店的情況下買(mǎi)到車(chē),我們也要支持。這是增加用戶滲透率的有效方式,這是我們?cè)诋a(chǎn)品功能上的支持。在技術(shù)方案上我們要做到泛化,我們要看過(guò)足夠多的路口,甚至利用百度地圖優(yōu)勢(shì),我們肯定有別人沒(méi)有的東西,內(nèi)部給我們的數(shù)據(jù)和接口,我們會(huì)有人無(wú)我有的差異化的競(jìng)爭(zhēng)力,肯定要做到極越鋪墊的主流城市里,做到哪里都能用。

  潘云鵬:這里涉及到兩個(gè)不同的方法,我們能夠冷啟動(dòng),基本買(mǎi)到之后就能用,因?yàn)槲覀冇械貓D上面的長(zhǎng)期的積累,因此在大部分的地區(qū),在主要銷售地區(qū)都會(huì)以這種方式完成這個(gè)任務(wù)。中國(guó)比較大,在一些特別相對(duì)而言沒(méi)有辦法覆蓋到的場(chǎng)景下,總體而言,我們還是追求冷啟動(dòng),追求從A點(diǎn)到B點(diǎn)PPA的體驗(yàn)。(編譯/汽車(chē)之家 姚宇)

向編輯姚宇提問(wèn)
收藏
+1
+1
推薦閱讀
發(fā)表我的評(píng)論
您認(rèn)為文章寫(xiě)的好么:
評(píng)價(jià)內(nèi)容: 修改 本文共有 4 個(gè)網(wǎng)友評(píng)價(jià),其中100.00%好評(píng),0%差評(píng)。
評(píng)價(jià)理由:語(yǔ)句不通/文章閱讀困難
0/5000字 提 交 同步到:
最新文章
加載中