李想：智能輔助駕駛目前是黎明前的黑暗我們?cè)敢馊ソ鉀Q問題

秦超

2025年05月07日 20:32 原創(chuàng) 來源：汽車之家發(fā)布于:北京

[汽車之家資訊] 日前，理想汽車董事長(zhǎng)兼CEO李想開啟第二季AI Talk，描述了理想汽車關(guān)于智能駕駛輔助方面接下來的發(fā)展方向，并重點(diǎn)分享了對(duì)于人工智能的最新思考，VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn)，以及對(duì)于創(chuàng)業(yè)和個(gè)人成長(zhǎng)的見解。

李想將AI工具分為三個(gè)層級(jí)，分別是信息工具、輔助工具和生產(chǎn)工具。目前，大多數(shù)人將AI作為信息工具使用，但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論，僅具參考價(jià)值。成為輔助工具后，AI可以提升效率，例如現(xiàn)在的輔助駕駛，但仍需人類參與。未來，AI發(fā)展為生產(chǎn)工具后，將能獨(dú)立完成專業(yè)任務(wù)，顯著提升效率與質(zhì)量。李想表示：“判斷Agent（智能體）是否真正智能，關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具，才是其真正爆發(fā)的時(shí)刻。就像人類會(huì)雇傭司機(jī)，人工智能技術(shù)最終也會(huì)承擔(dān)類似職責(zé)，成為真正的生產(chǎn)工具�！�

● VLA的實(shí)現(xiàn)不是突變的過程，是進(jìn)化的過程

目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段，而VLA（Vision-Language-Action Model，視覺語言行動(dòng)模型）能夠讓AI真正成為司機(jī)，成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對(duì)理想汽車而言，未來的VLA就是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型。

VLA的實(shí)現(xiàn)不是一個(gè)突變的過程，是進(jìn)化的過程，經(jīng)歷了三個(gè)階段，對(duì)應(yīng)理想汽車輔助駕駛的昨天、今天和明天。第一階段，理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛，類似“昆蟲動(dòng)物智能”。第二階段，理想汽車自2023年起研究，并于2024年正式推送的端到端+VLM（Vision Language Model，視覺語言模型）輔助駕駛，接近“哺乳動(dòng)物智能”。

端到端模型在處理復(fù)雜問題時(shí)存在局限，雖可借助VLM視覺語言模型輔助，但VLM使用開源模型，使其在交通領(lǐng)域的能力有限。同時(shí)端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗(yàn)，理想汽車自2024年起開展VLA研究，并在多項(xiàng)頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表論文，夯實(shí)了理論基礎(chǔ)。

在端到端的基礎(chǔ)上，到第三階段，VLA將開啟“人類智能”的階段。它能通過3D和2D視覺的組合，完整地看到物理世界，而不像VLM僅能解析2D圖像。同時(shí)，VLA擁有完整的腦系統(tǒng)，具備語言、CoT（Chain of Thought，思維鏈）推理能力，既能看，也能理解并真正執(zhí)行行動(dòng)，符合人類的運(yùn)作方式。

● VLA訓(xùn)練過程模擬人類學(xué)習(xí)，對(duì)齊人類價(jià)值觀

VLA的訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié)，類似于人類學(xué)習(xí)駕駛技能的過程。預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識(shí)，通過大量高清2D和3D Vision（視覺）數(shù)據(jù)、交通相關(guān)的Language（語言）語料，以及與物理世界相關(guān)的VL（Vision-Language，視覺和語言）聯(lián)合數(shù)據(jù)，訓(xùn)練出云端的VL基座模型，并通過蒸餾轉(zhuǎn)化為在車端高效運(yùn)行的端側(cè)模型。

后訓(xùn)練相當(dāng)于人類去駕校學(xué)習(xí)開車的過程。隨著Action（動(dòng)作）數(shù)據(jù)的加入——即對(duì)周圍環(huán)境和自車駕駛行為的編碼，VL基座變?yōu)閂LA司機(jī)大模型。得益于短鏈條的CoT，以及Diffusion擴(kuò)散模型對(duì)于他車軌跡和環(huán)境的預(yù)測(cè)，VLA具備實(shí)時(shí)性的特點(diǎn)，實(shí)現(xiàn)了在復(fù)雜交通環(huán)境中的博弈能力。

強(qiáng)化訓(xùn)練類似于人類在社會(huì)中實(shí)際開車練習(xí)，目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適，對(duì)齊人類價(jià)值觀，甚至超越人類駕駛水平。強(qiáng)化訓(xùn)練包含兩部分：一是通過RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強(qiáng)化學(xué)習(xí)）完成安全對(duì)齊，使模型遵守交通規(guī)則，貼合中國用戶的駕駛習(xí)慣；二是將純強(qiáng)化學(xué)習(xí)模型放入世界模型中訓(xùn)練，提升舒適性，避免碰撞事故，遵守交通規(guī)則。經(jīng)過預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后，VLA司機(jī)大模型即可部署至車端運(yùn)行。

VLA司機(jī)大模型以“司機(jī)Agent（智能體）”的產(chǎn)品形態(tài)呈現(xiàn)，用戶可通過自然語言與司機(jī)Agent溝通，跟人類司機(jī)怎么說，就跟司機(jī)Agent怎么說。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理，復(fù)雜指令則先由云端的VL基座模型解析，再交由VLA處理。

● 超級(jí)對(duì)齊確保AI決策安全，世界模型破解AI黑盒難題

除了提升專業(yè)能力，VLA司機(jī)大模型還需解決安全性和模型黑盒的問題。

模型能力越強(qiáng)，越需要職業(yè)性約束，以確保能力下限。為了保障VLA司機(jī)大模型能夠?qū)崿F(xiàn)職業(yè)司機(jī)般的安全和舒適，避免學(xué)習(xí)加塞等違規(guī)行為，理想汽車在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源，并于2024年底組建超過100人的超級(jí)對(duì)齊團(tuán)隊(duì)，相當(dāng)于為司機(jī)Agent注入職業(yè)素養(yǎng)。

為解決模型的黑盒問題，理想汽車結(jié)合重建和生成兩種路徑，打造了真實(shí)、符合物理世界規(guī)律的世界模型，覆蓋所有交通參與者和要素�；谑澜缒Ｐ偷姆抡婺芰Γ琕LA可以在世界模型中低成本、準(zhǔn)確地驗(yàn)證現(xiàn)實(shí)問題，提升解決問題的效率，有效應(yīng)對(duì)模型黑盒帶來的挑戰(zhàn)。

判斷司機(jī)Agent是否是個(gè)好司機(jī)，有三個(gè)關(guān)鍵標(biāo)準(zhǔn)：專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。VLA司機(jī)大模型提升了專業(yè)能力，超級(jí)對(duì)齊增強(qiáng)了職業(yè)能力，VLA通過理解自然語言、具備記憶能力提升了構(gòu)建信任的能力。

● 人工智能時(shí)代，扎實(shí)的基本功比走捷徑重要

理想汽車實(shí)現(xiàn)技術(shù)快速躍遷的背后，是從研究、研發(fā)到能力表達(dá)，再到將能力變成業(yè)務(wù)價(jià)值的基本功積累。研究是關(guān)鍵，研究突破后，研發(fā)的效率會(huì)大幅提升，且注重價(jià)值轉(zhuǎn)化，最終實(shí)現(xiàn)業(yè)務(wù)落地。

理想汽車堅(jiān)持自研，通過技術(shù)賦能用戶價(jià)值。例如，在輔助駕駛方面，由于英偉達(dá)Orin-X芯片無法直接運(yùn)行語言模型，端到端+VLM的輔助駕駛方案對(duì)部分企業(yè)來說仍具挑戰(zhàn)。理想汽車依托自有編譯團(tuán)隊(duì)，自研底層推理引擎，使芯片可通過INT4（4比特整型）量化的方式運(yùn)行VLM。同時(shí)，憑借芯片、控制器設(shè)計(jì)和自研汽車操作系統(tǒng)等綜合能力，理想汽車實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型。李想表示，大型企業(yè)的基本功和能力永遠(yuǎn)無法被逾越。

得益于DeepSeek的開源，理想汽車在VLA司機(jī)大模型的語言能力研發(fā)上提速顯著，節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。盡管如此，理想汽車仍選擇加大投入，在基座模型上投入超預(yù)期3倍的訓(xùn)練卡，專注打造適配多場(chǎng)景的自研模型。李想表示：“我們可以站在巨人的肩膀上，但它只是其中的一部分。”在受益開源的同時(shí)，理想汽車也選擇開源自研的汽車操作系統(tǒng)——理想星環(huán)OS，回饋社會(huì)。

● 成長(zhǎng)帶來能量，在痛苦中保持正能量

今年7月，理想汽車將迎來成立十周年。李想表示，創(chuàng)業(yè)路上苦多于甜，他選擇保留那些有價(jià)值的美好片段，用來激勵(lì)自己保持正能量�！皠�(chuàng)業(yè)確實(shí)不容易，但是沒必要苦哈哈的。苦和甜是一個(gè)硬幣的正反面，取決于看哪一面。”他將企業(yè)遭遇的打擊視為必須面對(duì)的挑戰(zhàn)，也正是這些挑戰(zhàn)，賦予了理想汽車更多的能力。也正因這份積極樂觀的創(chuàng)業(yè)心態(tài)，理想汽車才能快速成長(zhǎng)為千億營(yíng)收規(guī)模、百萬交付量的新勢(shì)力企業(yè)。

談及如何成為更有能量的人，李想認(rèn)為，關(guān)鍵在于關(guān)注自我，接受自身的優(yōu)點(diǎn)和不足，并用成長(zhǎng)替代改變——成長(zhǎng)意味著增強(qiáng)能力。除此之外，李想強(qiáng)調(diào)親密關(guān)系同樣重要，關(guān)注他人的成長(zhǎng)也能帶來能量，家人和同事能夠和他形成互補(bǔ)，相互支撐�！拔倚枰胰撕屯律踔脸^了他們需要我，首先是我需要他們，然后才是他們需要我，我們?cè)谝黄鹉軌蛐纬煞浅?qiáng)的腦力和心力�！崩钕氡硎�。

回顧幾次創(chuàng)業(yè)經(jīng)歷，李想表示，從高中創(chuàng)辦個(gè)人網(wǎng)站至今，自己的思維方式?jīng)]有什么變化：遇到問題解決問題，解決別人不愿解決的難題，解決用戶的痛點(diǎn)，不斷向他人學(xué)習(xí)。不同的是，如今面臨的問題更復(fù)雜、服務(wù)的用戶群體更多、公司規(guī)模和組織也更龐大。“幾次創(chuàng)業(yè)一路走來，最難時(shí)有人相助，遇坑也能迅速爬出，一幫人齊心協(xié)力變得更好，這是種幸運(yùn)，也沒什么可后悔的。”

面對(duì)AI的發(fā)展，李想認(rèn)為，在AI面前所有的人性都應(yīng)被保留，無論好壞，因?yàn)橐磺腥诵远际俏幕�、生命、性格、能力的特質(zhì)，也是人類真正的生命力所在。

從使用增程電動(dòng)和5C超充技術(shù)解決電池成本高、充電難、充電慢的問題，到自研汽車操作系統(tǒng)攻克傳統(tǒng)汽車操作系統(tǒng)性能差、開發(fā)緩慢、芯片匹配周期長(zhǎng)等挑戰(zhàn)，理想汽車始終以技術(shù)創(chuàng)新解決行業(yè)無法解決的問題。自研VLA時(shí)，理想汽車更是踏入了人工智能的無人區(qū)。當(dāng)前，輔助駕駛走到了新的十字路口上，理想汽車將不斷挑戰(zhàn)成長(zhǎng)的極限，持續(xù)為行業(yè)和用戶創(chuàng)造價(jià)值。

● Agent（智能體）應(yīng)該怎么定價(jià)？

李想表示，我們雇用人類費(fèi)用的幾分之一，至于幾分之一最后還是看把成本都算出來以后，我覺得比如說我一個(gè)月，我雇一個(gè)司機(jī)，1萬塊錢，我是否愿意？2千到3千雇傭一個(gè)司機(jī)。我覺得這個(gè)其實(shí)是一個(gè)，可能是一個(gè)比較重要的一個(gè)判斷，當(dāng)然它也會(huì)帶來其他商業(yè)模式的不同。比如說你花2千到3千塊錢雇傭一個(gè)司機(jī)，那可能你對(duì)車而言，你可能也不需要付保險(xiǎn)費(fèi)了，保險(xiǎn)費(fèi)也包在這里邊了，保險(xiǎn)的費(fèi)用就財(cái)產(chǎn)的保險(xiǎn)，這個(gè)財(cái)產(chǎn)險(xiǎn)的費(fèi)用也包含在里邊了。也可能一定的這種，因?yàn)樗赡軙?huì)自動(dòng)去充電，可能一定的充電的金額，對(duì)應(yīng)一定里程的充電金額也放在里面了。所以可能到最后算下來，還可能是個(gè)更劃算的一個(gè)事情。

● 以下是實(shí)錄內(nèi)容：

1. 距離上次的AI talk過去了130天，你最大的進(jìn)步是什么？你有成為一個(gè)更智能的李想嗎？

我覺得這130天我覺得我更高興看到的是整個(gè)中國的進(jìn)步，對(duì)吧？我覺得包括DeepSeek，包括千問在內(nèi)的，可以讓中國無論是基座模型，還是reasoning推理模型，還是后邊的多模態(tài)，已經(jīng)跟美國的距離基本上拉近了，或者基本上在一個(gè)水平線上了。而且中國的企業(yè)做出來這些模型效率也更高，無論是在預(yù)訓(xùn)練上，在訓(xùn)練的層面，還是在后邊的整個(gè)推理層面，我們做了很多的深層的工程的改造。我覺得也讓整個(gè)的中國的人工智能領(lǐng)域更有信心。也包含后邊我看到一些比較驚喜的，在Agent（智能體）上面的一些突破，無論是Manus還是這個(gè)還是Genspark，我覺得其實(shí)這些方面做的都非常的好。

嗯，所以我說這個(gè)其實(shí)是非常驚喜的，那如果從我們自己個(gè)人而言，這也樹立了我們把 AI 做得更好的這個(gè)信心。今天大家在講語言模型，但我還是認(rèn)為語言模型只是世界的一個(gè)重要的組成部分，但并不是全部，我們要想去理解物理世界，我們要想讓一個(gè)終端或者一個(gè)機(jī)器人能夠在物理世界和數(shù)字世界里運(yùn)行，其實(shí)要做的工作還有非常多。我覺得這個(gè)其實(shí)是讓我們也更加堅(jiān)信，這條路走下去是對(duì)的。

2. 那你有變成一個(gè)更智能的李想嗎？

我覺得沒有那么大的變化。如果從實(shí)際的角度而言，人工智能發(fā)展這么好，但我每天工作時(shí)間并沒有減少，還是在增加。

3. 是啊，這是為什么？

大部分人在使用，或者說我見到的幾乎所有人，其實(shí)還是在把它當(dāng)成一個(gè)信息工具來使用。那如果是信息工具的話，其實(shí)AI作為一個(gè)信息工具不是完美的，因?yàn)樗詈笠欢ㄒo你個(gè)next token（下個(gè)詞元），一定要給你一個(gè)結(jié)果。而且大家今天使用的時(shí)候會(huì)先點(diǎn)上聯(lián)網(wǎng)搜索，先去通過Rag（檢索增強(qiáng)生成）聯(lián)網(wǎng)搜索一些索引信息。但往往其實(shí)索引的信息源，就已經(jīng)失真和不準(zhǔn)確了，所以最后推理的過程，（雖然）很認(rèn)真地在做推理，但是你明顯都看到這個(gè)過程和結(jié)果已經(jīng)開始有問題了。所以某種程度而言，如果我們不對(duì)這套機(jī)制進(jìn)行一個(gè)改造的話，它某種程度仍然是在做熵增，在增加大量的無效信息、無效結(jié)果、無效結(jié)論。

我覺得這是一個(gè)很大的挑戰(zhàn)，我就在思考一個(gè)問題，還是要站在真正用戶價(jià)值的角度，如果大家在拼命地使用AI，大家在為AI做投資，但是我的工作時(shí)長(zhǎng)并沒有減少，我的工作結(jié)果也沒有變好，那這個(gè)問題到底在哪里？所以這也是過去幾個(gè)月我跟很多人在聊，在思考，我們內(nèi)部在討論非常多的一個(gè)問題。我覺得很多時(shí)候不要把東西纏繞到一起，我們可以先做一個(gè)分類，因?yàn)槿祟悮v史上也會(huì)有類似這些的分類。今天，通過一個(gè)對(duì)話的方式，無論文本多么長(zhǎng)，其實(shí)它都是個(gè)信息工具，我覺得信息工具對(duì)大家而言更重要的其實(shí)是參考作用。

再往下，AI變好了以后，它會(huì)變成一些輔助工具。比如我們今天做的輔助駕駛，大家在車上用人工智能的語音方式來進(jìn)行導(dǎo)航，來查找美團(tuán)，來調(diào)取音樂，它會(huì)讓我們的效率更高，但它仍然離不開我們。所以這時(shí)候，這種角色比較像什么呢？它確實(shí)比原來的使用體驗(yàn)會(huì)更好了，但它是個(gè)輔助的一個(gè)工具。

我覺得什么時(shí)候才能真正改變我們的工作的成果以及減少我們的工作時(shí)長(zhǎng)，我覺得它必須變成生產(chǎn)工具。我自己認(rèn)為Agent（智能體）最重要的評(píng)判條件是它是否是個(gè)生產(chǎn)工具、它是否真正能替代我去完成專業(yè)的工作、它是否真的在產(chǎn)生有效的生產(chǎn)力、它是否真的在解決我工作中那最重要的8小時(shí)的時(shí)間。對(duì)，我覺得這個(gè)是我接下來對(duì)Agent（智能體）最重要的衡量，也是我覺得Agent（智能體）的意義所在。

4. 這是你對(duì)于工具的三個(gè)分級(jí)，信息工具、輔助工具和生產(chǎn)工具。

對(duì)，我覺得人工智能變成生產(chǎn)工具，然后才是真正人工智能爆發(fā)的時(shí)刻。

5. 所以最過去130天其實(shí)最大的變化是外部的環(huán)境。

對(duì)，國際環(huán)境在發(fā)生重大的變化。然后技術(shù)也在發(fā)生變化，但技術(shù)最大的變化還是中國在人工智能方面帶來的變化。美國的變化反而沒那么大。

6. 你從DeepSeek身上學(xué)到了什么？

我覺得DeepSeek我能學(xué)到最好的一個(gè)方式是DeepSeek運(yùn)用了人類的最佳實(shí)踐，它極簡(jiǎn)的運(yùn)用了人的最佳實(shí)踐。比如說其實(shí)他在做DeepSeek V3的時(shí)候，其實(shí)V3是一個(gè)MoE（混合專家模型）的，671B的一個(gè)模型。我覺得MoE（混合專家模型）是個(gè)非常好的架構(gòu)。它相當(dāng)于把一堆專家組合在一起，然后每一個(gè)是一個(gè)專家能力。它做這個(gè)專家能力是怎么來構(gòu)建的？其實(shí)挺明顯的，就當(dāng)我們想去構(gòu)建能力的時(shí)候，DeepSeek給你展示了一個(gè)最佳實(shí)踐，第一步一定要先搞研究。我覺得這是非常重要的。就是任何的時(shí)候，當(dāng)我們想去改變能力和提升能力的時(shí)候，第一步一定是搞研究，搞完研究以后其實(shí)才搞研發(fā)。然后搞完研發(fā)以后，我覺得第三步是要把能力表達(dá)出來。然后第四步是能力變成業(yè)務(wù)的價(jià)值。

這四個(gè)步驟是個(gè)極簡(jiǎn)的人類最佳實(shí)踐，但我們經(jīng)常做著就忘掉了，看到什么東西就直接去啟動(dòng)研發(fā)，而沒有去搞研究。我們自己也很受益，其實(shí)無論我們是在端到端和VLM（視覺語言模型）上，還是今天做VLA（視覺語言行動(dòng)模型）的時(shí)候，我們的研究團(tuán)隊(duì)其實(shí)表現(xiàn)得非常好。

包括你可以看國外的像李飛飛，其實(shí)她在引用輔助駕駛的時(shí)候，也經(jīng)常會(huì)引用我們的關(guān)于輔助駕駛方面的這些研究的論文。那我覺得這個(gè)其實(shí)挺重要。那研究跑通了以后，研發(fā)效率會(huì)變得非常的高。但是研發(fā)又非常在意價(jià)值，他能夠把價(jià)值表達(dá)出來，然后變成業(yè)務(wù)，那我覺得這是一個(gè)很重要的過程。

7. 我很好奇在就是DeepSeek全球爆火的時(shí)候，你這個(gè)春節(jié)是怎么過的？

春節(jié)過得挺好的，還帶著孩子去看哪吒2。那其實(shí)我印象應(yīng)該是1月20號(hào)然后DeepSeek R1上線的，然后到后邊開源，我們也在對(duì)DeepSeek做了很多的這個(gè)整個(gè)的研究，就是我們也在研究DeepSeek很多東西為什么做得好。包括整個(gè)的訓(xùn)練和推理的效率，也包括這些一個(gè)MoE（混合專家模型）模型部署上去對(duì)內(nèi)存占用的這些挑戰(zhàn)。

其實(shí)我們自己已經(jīng)開始在芯片上來寫FP8（8 位浮點(diǎn)數(shù)格式）的整個(gè)的工程的優(yōu)化了。因?yàn)槲覀冏约河芯幾g團(tuán)隊(duì)。那比較有意思的一點(diǎn)是，我沒有上來敢跟模型團(tuán)隊(duì)直接聊，我先跟謝炎（理想汽車CTO）聊了一下，我說我們本身要做VLA（視覺語言行動(dòng)模型），然后VLA一個(gè)很重要的計(jì)劃是到今年的這個(gè)9月份的時(shí)候能夠做一個(gè)非常好的語言模型出來，才能再往下去訓(xùn)練VLA（視覺語言行動(dòng)模型）。

但是今天看的話說我們自己預(yù)測(cè)的我們到9月份做的模型，能力是否比DeepSeek V3加R1更強(qiáng)？我說至少我聽到你們說的東西，我說不如那個(gè)強(qiáng)，對(duì)吧？而且它開源開得如此的徹底。然后我們是否應(yīng)該基于它的開源，去做我們的 VLA（視覺語言行動(dòng)模型）的L（language 語言）的部分，并且我們基于這個(gè)L（language 語言）的部分，比如說其實(shí)我在理想同學(xué)用的話可能就是個(gè)VL（視覺和語言），它沒有A（action 行動(dòng)），對(duì)吧？就把vision（視覺）和language（語言）其實(shí)放在一起，包括要做成端到端的，然后語音的這樣的一個(gè)方式。

我覺得我們?cè)瓉肀緛響?yīng)該是9月份以后才能做這些工作，我們是否應(yīng)該站在巨人的肩膀上就去做了？然后謝炎（理想汽車CTO）說肯定應(yīng)該這么做。

那時(shí)候我們比較擔(dān)心陳偉（理想汽車基座模型負(fù)責(zé)人）會(huì)怎么想，對(duì)吧？因?yàn)檫@個(gè)壓力是挺大的。然后我們發(fā)現(xiàn)陳偉比我們還堅(jiān)決。他說這個(gè)會(huì)加速我們往下一步的這個(gè)工作，我們應(yīng)該以這個(gè)為基礎(chǔ)，加速VLA（視覺語言行動(dòng)模型），加速端到端的多模態(tài)這樣的一個(gè)進(jìn)展，然后研究團(tuán)隊(duì)也都在研究我們?nèi)绾卧谛酒弦才艿酵瑯拥挠?xùn)練和推理的效率，大家都在同步地進(jìn)行工作。

我跟謝炎（理想汽車CTO）打的最多的電話，我們還有一個(gè)專門的人工智能的戰(zhàn)略小組，我們就在里邊不停地聊，發(fā)現(xiàn)大家并不糾結(jié)，因?yàn)槲覀冎牢覀兗移髽I(yè)的基因，還是要為用戶推出最好的產(chǎn)品和服務(wù)。

整個(gè)擁抱DeepSeek的這個(gè)過程比我們想象得要快，所以這是今天其實(shí)我們VLA（視覺語言行動(dòng)模型）推出的速度也會(huì)比原來的預(yù)期的要快。

8. 你怎么看梁文鋒（DeepSeek創(chuàng)始人）�。磕阌X得他是怎么找到你說的這個(gè)人類最佳實(shí)踐呢？

我只跟他聊過一次，是去年的9月份，印象特別深，應(yīng)該是ChatGPT的o1發(fā)布前的幾天。我自己個(gè)人感覺，兩個(gè)特點(diǎn)，第一他是個(gè)特別自律的人。明顯你跟他溝通的過程中其實(shí)能夠看到，第二個(gè)是我個(gè)人認(rèn)為其實(shí)他是會(huì)在全世界范圍之內(nèi)去研究和學(xué)習(xí)最佳實(shí)踐和最好的方法論的這樣一個(gè)人。

9. 怎么理解自律？

我覺得自律的最大特點(diǎn)就是能夠堅(jiān)守這些你相信的東西，能夠堅(jiān)守這些最佳實(shí)踐，能跟人性的一些懶惰、走捷徑，這些方面做對(duì)抗。

我覺得讓我們更加敬佩他，包括我們的開源。我覺得DeepSeek的出現(xiàn)對(duì)我們加速做VLA（視覺語言行動(dòng)模型）是巨大的幫助。過去我們打算要到今年年底才能做出一個(gè)像樣的，能夠滿足我們需求的語言模型，但DeepSeek一開源，我們就加速了9個(gè)月的時(shí)間，所以給我們帶來了巨大的收益和幫助，我們受到了那么大的幫助，所以我們?cè)谙胛覀兡軐?duì)社會(huì)做點(diǎn)什么貢獻(xiàn)，所以我們就把自研的整車操作系統(tǒng)理想星環(huán)OS給開源了。沒有大家想的那么復(fù)雜，我自己內(nèi)心，包括謝炎（理想汽車CTO）的內(nèi)心就是DeepSeek給我們帶來那么大的幫助，我們應(yīng)該給對(duì)社會(huì)貢獻(xiàn)點(diǎn)什么。不讓行業(yè)那么卷。說白了純粹是感謝DeepSeek。

10. 自研了四年嗎？

對(duì)，那真的是做得好，明顯得好。如果你做的不好的東西出去開源不就丟人嗎？

11. 所以這是一種情懷，而不是一個(gè)公司戰(zhàn)略，對(duì)嗎？

不是公司戰(zhàn)略。

12. 這很有意思。 DeepSeek感覺帶來了更多的善良和善意。

是的。

13. 你有沒有想過DeepSeek為什么不是你做的？

我覺得我只能做最好的自己。我的人生經(jīng)歷，我進(jìn)入了汽車行業(yè)，我做汽車的網(wǎng)站，我其實(shí)一直在自己的長(zhǎng)板的延長(zhǎng)線上繼續(xù)來做。從最開始做個(gè)人網(wǎng)站，到做產(chǎn)品的IT網(wǎng)站，到做汽車網(wǎng)站，最后希望能夠改變汽車行業(yè)，推出更好的產(chǎn)品，汽車疊加下一代的信息技術(shù)。這個(gè)其實(shí)是我的一個(gè)延長(zhǎng)線。他（梁文鋒 DeepSeek創(chuàng)始人）的延長(zhǎng)線其實(shí)就是從人工智能開始的，他在浙大學(xué)的就是人工智能，那是他的延長(zhǎng)線，本身我也相信，量化交易的公司，對(duì)于整個(gè)模型的能力，對(duì)模型的理解，對(duì)于本身工程的能力，不會(huì)比任何互聯(lián)網(wǎng)公司差，甚至可能還要更強(qiáng)。

14. 在春節(jié)之后很多人都來問我這個(gè)問題，就說理想還做基座模型。既然都有DeepSeek，為什么還要做基座模型？

因?yàn)槲覀兊臉I(yè)務(wù)，意味著其實(shí)我們并不是說只是做好語言模型就夠了，我們車上其實(shí)要有對(duì)話，然后又有多模態(tài)，那這個(gè)仍然其實(shí)需要我們自己去訓(xùn)練一個(gè)根據(jù)我們自己需要的一個(gè)基座模型，包括我要去做VLA（視覺語言行動(dòng)模型），因?yàn)檫@個(gè)VLA里邊，哪怕V（vision 視覺）和L（language 語言）都和正常的是不一樣的，就是這個(gè)我需要3D的vision（視覺），還有高清的2D的vision（視覺）的，然后token（詞元）要用預(yù)訓(xùn)練，必須得涉及到更專業(yè)的車領(lǐng)域的語義語料，交通領(lǐng)域的語義語料，我們面向的家庭用戶的語義語料，然后來做訓(xùn)練，還有也包含其實(shí)還有很多的時(shí)候，一個(gè)重要的是說大家在做VLA（視覺語言行動(dòng)模型）訓(xùn)練的時(shí)候，很多時(shí)候在做基座的時(shí)候說我要把VL（視覺和語言）也要連在一起，然后把VL（視覺和語言）的組合語料放進(jìn)去，那這些無論是OpenAI還是DeepSeek，它都沒有這樣的數(shù)據(jù)，它也沒有這樣的場(chǎng)景和需求，也不去解決這樣的問題，那只能我自己來做了。只是好處是說VLA（視覺語言行動(dòng)模型）里邊的這個(gè)language（語言），我可以站在巨人的肩膀上，但是它只是我其中的一部分。

15. 所以一方面是擁抱了DeepSeek，另一方面你們把基座模型的團(tuán)隊(duì)還拆出去了，并且加大了投入，是嗎？

我覺得首先訓(xùn)練卡比他們今年的預(yù)期我們應(yīng)該多買了3倍。

16. 你要訓(xùn)多大的模型？

并不是一個(gè)固定的，就是我們現(xiàn)在的話，做出來的一個(gè)不同的版本，比如說我們給理想同學(xué)用的，會(huì)是一個(gè)300B的模型，就大概是個(gè)3000億（參數(shù)）的一個(gè)模型，我們給輔助駕駛運(yùn)用的VLA（視覺語言行動(dòng)模型）的，其實(shí)VL（視覺和語言）的部分，是個(gè)32B的模型。那包含其實(shí)我們真正工作中用的也會(huì)去用那個(gè)3000億的這個(gè)模型，就大概現(xiàn)在是這樣的兩個(gè)版本。

17. 你現(xiàn)在覺得給基座模型打多少分？你希望2025年提升到多少？

結(jié)果還沒呈現(xiàn)呢。這才幾月啊？我覺得沒有什么捷徑，我覺得還是我認(rèn)為其實(shí)雖然我們借用了一些能力，但是你沒有辦法直接去吃第十個(gè)包子。如果你規(guī)則算法都做不好，你根本不知道怎么去做端到端，如果你端到端沒有做到一個(gè)非常極致的水平，你連VLA（視覺語言行動(dòng)模型）怎么去訓(xùn)練都不知道。

18. 那今年2月5號(hào)，也就是春節(jié)之后，你們的第一個(gè)AI的例會(huì)，你說DeepSeek更像是Linux推出，而你們要去追逐安卓時(shí)刻，你們準(zhǔn)備怎么去爭(zhēng)奪安卓時(shí)刻？

這個(gè)東西是一個(gè)比喻，比如說安卓其實(shí)是基于Linux開發(fā)出來的一個(gè)手機(jī)操作系統(tǒng)。那我們以語言作為基礎(chǔ)，我們的VLA（視覺語言行動(dòng)模型）就是把vision（視覺）這部分做成最強(qiáng)的，然后把a(bǔ)ction（行動(dòng)）也做好，然后借助了L（language），就是語言的這個(gè)能力。那其實(shí)我覺得VLA（視覺語言行動(dòng)模型）就比較像在汽車或者交通領(lǐng)域的更重要的一個(gè)大模型或者操作系統(tǒng)，我覺得這是我們的機(jī)會(huì)所在。

19. 我們來聊聊你們最近在做的VLA（視覺語言行動(dòng)模型）的架構(gòu)。今天的輔助駕駛其實(shí)走到了一個(gè)新的十字路口上，有的人說甚至覺得輔助駕駛應(yīng)該被叫停。你怎么想？

我覺著我們這么多年，從規(guī)則算法，做到了端到端+VLM，然后今天真正的邁入到了VLA（視覺語言行動(dòng)模型）的階段，我覺得比較像什么？比較像黎明前的黑暗吧。我覺得黎明馬上就要來了。但是會(huì)先經(jīng)歷一個(gè)黑暗的過程，之所以有黑暗是因?yàn)橐瓉砝杳�。我覺得這是今天這么一個(gè)階段。

正因?yàn)檩o助駕駛行業(yè)遇到了問題，我最喜歡、最開心的方式，就是去解決行業(yè)解決不了的問題，我覺得這是我們自己堅(jiān)決相信的。就跟我們推出增程，就是為了解決電池成本高、充電難的問題。我們推出5C也是為了解決充電慢、等待時(shí)間長(zhǎng)這樣的問題。我們?cè)敢馊ソ鉀Q各種行業(yè)遇到的問題，包括我們做操作系統(tǒng)，也是因?yàn)檫^去的時(shí)候，傳統(tǒng)的那種車控和智控的操作系統(tǒng)性能差，開發(fā)緩慢，芯片匹配周期長(zhǎng)的這些問題。我覺得這些問題（存在）恰恰是我們的價(jià)值所在。

20. 為什么人類一定需要輔助駕駛呢？為什么科技不能就此止步呢？

只要人類會(huì)雇傭?qū)I(yè)司機(jī)。我覺得人工智能技術(shù)其實(shí)就是把類似這樣的一些功能和角色，去變成真正的生產(chǎn)力、生產(chǎn)工具，然后去進(jìn)行替代。

21. 什么是VLA（視覺語言行動(dòng)模型）？你能從用戶語言來講，不要用技術(shù)語言。

我覺得VLA（視覺語言行動(dòng)模型）我們定義的一個(gè)方式是叫，因?yàn)閂LA（視覺語言行動(dòng)模型）機(jī)器人領(lǐng)域也在講，對(duì)于我們理想汽車而言，VLA是一個(gè)司機(jī)大模型，像人類的司機(jī)一樣去工作的一個(gè)模型。那我覺得到達(dá)VLA（司機(jī)大模型）它不是一個(gè)突變的過程，其實(shí)它是一個(gè)進(jìn)化的過程。

經(jīng)歷了三個(gè)階段。我覺得第一個(gè)階段是我們從2021年開始，通過機(jī)器學(xué)習(xí)的感知，配合后邊的規(guī)則算法，包括規(guī)劃、控制、執(zhí)行這些規(guī)則算法分段式的。我覺得第一個(gè)階段比較像什么？比較像昆蟲動(dòng)物的智能。它有既定的規(guī)則，還要依賴于高精地圖，就比較像螞蟻的行動(dòng)和完成任務(wù)的一個(gè)方式。

22. 它能理解的世界也很有限。

非常之有限，我覺得這是第一個(gè)階段，而且效率比較低，也是個(gè)很麻煩的事情。它（規(guī)則算法）就這樣一個(gè)規(guī)模的腦子，包括它的整個(gè)模型規(guī)模大概就只有幾百萬的一個(gè)參數(shù)，它就那么小的一個(gè)腦子，你讓它去完成復(fù)雜的事情，幾乎不可能的。所以你就不停地限定、限定，幾乎把它做成了一個(gè)有軌交通的方式。這跟螞蟻非常相似。

第二個(gè)階段就是我們從2023年開始搞研究，2024年推出的端到端。端到端比較像什么呢？端到端比較像哺動(dòng)物的智能，比如像馬戲團(tuán)里的一些動(dòng)物，向人類學(xué)習(xí)怎么騎自行車。它學(xué)了人類的這些行為，人類怎么去做出各種的行為的開車。但是它對(duì)物理世界并不理解，它只是看到了一個(gè)什么樣的三維的圖像，知道自身的速度，并給出了一個(gè)什么樣的軌跡，所以它應(yīng)付大部分的泛化是沒有問題的，去面對(duì)它從來沒有學(xué)到的、特別復(fù)雜的，其實(shí)就會(huì)遇到問題。所以這時(shí)候我們也會(huì)配合，視覺語言模型 VLM，然后放進(jìn)來。但是我們能夠用到的視覺語言模型這些開源的，用在交通上的能力都非常的有限，所以只能起到一些非常有限的輔助的一個(gè)作用。我覺得第二個(gè)階段就是哺乳動(dòng)物智能運(yùn)作的一個(gè)方式。

我覺得到了VLA（司機(jī)大模型），就是完全人類的運(yùn)作方式了。它會(huì)像人類一樣的，用3D的vision（視覺）和2D的組合，去看整個(gè)真實(shí)的物理世界，也包含它能夠去看懂導(dǎo)航軟件，這樣的軟件是怎么在運(yùn)行的，而不是像VLM（視覺語言模型）那樣只能看到一張圖片。另外一方面，它有自己的整個(gè)腦系統(tǒng)，不但要看到物理世界，還能夠理解這個(gè)物理世界。它有它的language（語言），然后它也有它的CoT（思維鏈），有推理的一個(gè)能力。我覺得第三個(gè)，它能夠像人類一樣的，真正地去執(zhí)行這樣的行動(dòng)。我覺得這個(gè)其實(shí)是VLA（視覺語言行動(dòng)模型）產(chǎn)生的一個(gè)，放在我們的汽車，輔助駕駛領(lǐng)域，我們把它稱之為VLA的司機(jī)大模型。

23. 你也可以講講VLA（司機(jī)大模型）這三個(gè)它的關(guān)系是什么，以及怎么訓(xùn)的。

我還是講一下怎么訓(xùn)的，并把這個(gè)關(guān)系表達(dá)清楚了。我覺得第一個(gè)其實(shí)是訓(xùn)練的環(huán)節(jié)。訓(xùn)練環(huán)節(jié)第一個(gè)部分是什么呢？要訓(xùn)出來一個(gè)VL（視覺和語言）的基座，就vision（視覺）和language（語言）的基座。我們目前在訓(xùn)的，當(dāng)前的這個(gè)版本，是一個(gè)32B的，就是320億云端的一個(gè)基座模型，所以先訓(xùn)這個(gè)。這里邊的話，跟過去的時(shí)候這些語言模型的差異在于什么呢？第一在于我要放入更多vision（視覺）的語料，放入vision（視覺）的token（詞元）。vision（視覺）里面包含兩個(gè)部分，一部分是3D上的vision（視覺），物理世界3D的 vision（視覺）要放進(jìn)去，第二個(gè)是高清的、2D的vision（視覺）。因?yàn)榻裉斓脑�，大家看到各種多模態(tài)的開源 VLM（視覺語言模型）里邊，它整個(gè)2D vision（視覺）的清晰度太低，所以看的距離不夠。那我們放進(jìn)去的基本上圖像分辨率提升了10倍。我覺得這是非常之重要的。這是一個(gè)部分，是vision（視覺）的token（詞元）和語料。

第二個(gè)是要放入language（語言），跟交通、駕駛相關(guān)的足夠多的這方面的語料。這是language（語言）的部分。

第三個(gè)還有一個(gè)很重要的，是大家可能容易忽略的，就我們必須放入很多VL（視覺和語言）聯(lián)合的語料，就是三維圖像和對(duì)世界的理解語義要同時(shí)產(chǎn)生的。比如我舉一個(gè)例子，我要把導(dǎo)航的地圖和車輛對(duì)導(dǎo)航地圖的理解一起放進(jìn)去。

24. 這是原始的數(shù)據(jù)嗎？

沒有原始的數(shù)據(jù)。

25. 這是你們自己的？

比如我要放入一個(gè)，看到導(dǎo)航以后人類做了一個(gè)什么判斷，然后這個(gè)判斷我們的車輛是怎么記錄的。把這個(gè)語料放進(jìn)去。其實(shí)整個(gè) VL （視覺和語言）基座模型訓(xùn)練的時(shí)候，包含了三個(gè)部分，數(shù)據(jù)是vision（視覺）的數(shù)據(jù)，language（語言）的數(shù)據(jù)和VL（視覺和語言）聯(lián)合的數(shù)據(jù)。然后它形成一個(gè)VL（視覺和語言）的一個(gè)基座。同時(shí)我要把這個(gè)基座干什么呢？我要蒸餾下來，然后變成一個(gè) 3.2B 端側(cè)的蒸餾模型。因?yàn)槲乙ＷC它運(yùn)行速度足夠得快，然后無論是兩個(gè)Orin-X還是Thor-U上能夠流暢地運(yùn)行。蒸餾下來是一個(gè)3.2B，8個(gè)專家組成的MoE（混合專家模型）模型。如果直接跑3.2B一個(gè)完整模型的話，雙Orin-X和Thor-U的幀率是達(dá)不到的，token（詞元）的整個(gè)輸出率是達(dá)不到的這是第一個(gè)步驟，這是預(yù)訓(xùn)練的環(huán)節(jié)。

第二個(gè)步驟是什么？第二個(gè)步驟是做后訓(xùn)練。后訓(xùn)練是什么呢？后訓(xùn)練其實(shí)是我把它變成VLA（司機(jī)大模型）。我要把a(bǔ)ction（行動(dòng)）放進(jìn)來。action（行動(dòng)）的部分后訓(xùn)練什么呢？其實(shí)仍然是一種模仿學(xué)習(xí)。特別像你去駕校學(xué)開車，就相當(dāng)于我訓(xùn)練VLA（司機(jī)大模型），把它組合成一個(gè)VLA（司機(jī)大模型）的端到端的一個(gè)方式，這是第二個(gè)部分。這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B，大概這么一個(gè)規(guī)模。

同時(shí)，它一方面是個(gè)VLA（司機(jī)大模型），能夠直接從視覺，到理解，到最后的輸出。但是我們的CoT（思維鏈）就會(huì)很短，我不會(huì)做超長(zhǎng)的CoT（思維鏈），我的CoT（思維鏈）鏈條一般兩步到三步，我不會(huì)再做更多的，否則延時(shí)太長(zhǎng)，沒有辦法滿足交通或者機(jī)器人的安全。另外當(dāng)我 action（行動(dòng)）做完以后，我還會(huì)做一個(gè)diffusion（擴(kuò)散模型）的預(yù)測(cè)，就是下邊會(huì)發(fā)生什么樣的時(shí)長(zhǎng)的一個(gè)場(chǎng)景。這個(gè)主要根據(jù)性能會(huì)做出來4到8秒的一個(gè)diffusion（擴(kuò)散模型）的軌跡和環(huán)境的預(yù)測(cè)。我覺得這是第二個(gè)部分，比較像人去駕校學(xué)開車這樣的一個(gè)環(huán)節(jié)。

第三個(gè)部分是什么？是強(qiáng)化，是要做強(qiáng)化的訓(xùn)練，比較像人到社會(huì)上開車了。所以強(qiáng)化我們分成兩個(gè)部分，第一個(gè)部分先做RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí)），帶有人類反饋的，所以我們有很多人類數(shù)據(jù)。就是當(dāng)它這樣的話，人類就會(huì)接管，當(dāng)它那樣的話，人類不會(huì)接管。包括人類的一些習(xí)慣，所以拿這塊來做一個(gè)帶有人類反饋的強(qiáng)化訓(xùn)練。包括我們安全的對(duì)齊都是在這個(gè)強(qiáng)化的環(huán)節(jié)完成的，你除了要遵守交通規(guī)則以外，你要遵守比如中國的，大家的駕駛習(xí)慣。你的開車習(xí)慣能夠融入社會(huì)，首先要開得跟整個(gè)社會(huì)環(huán)境上的大家一樣好，不能給別人帶來麻煩，對(duì)吧？而不是個(gè)新手在路上的時(shí)候，你變成一個(gè)阻礙。第二個(gè)部分是純粹的RL（強(qiáng)化學(xué)習(xí)），是（拿RL模型放到）我們的世界模型來做訓(xùn)練。這塊兒的目的什么呢？就是開得比人類更好。這塊兒的話，我們中間不會(huì)給人類的反饋，只會(huì)給一個(gè)結(jié)果，就是從a點(diǎn)到b點(diǎn)要開過去。但是會(huì)有三類的訓(xùn)練要求，第一個(gè)是我們可以通過G 值（加速度數(shù)值）來判斷它的舒適性，給舒適性的反饋。第二個(gè)是做碰撞的反饋，它碰撞了這個(gè)強(qiáng)化就沒有完成。第三個(gè)是交通規(guī)則的反饋，如果它違反交通規(guī)則就沒有完成。所以是舒適、交通規(guī)則和碰撞事故，讓它自己來做整個(gè)強(qiáng)化的訓(xùn)練。當(dāng)這三個(gè)步驟完成了以后，VLA（司機(jī)大模型）能夠跑在車端的模型其實(shí)就產(chǎn)生了。

大概是這么一個(gè)方式。跟人非常像，先學(xué)習(xí)世界、交通和人類的這些知識(shí)，這是預(yù)訓(xùn)練的環(huán)節(jié)。后訓(xùn)練的環(huán)節(jié)相當(dāng)于去駕校，認(rèn)真地去學(xué)開車。第三個(gè)環(huán)節(jié)相當(dāng)于到社會(huì)上來開車，也是我們訓(xùn)練的一個(gè)過程，要通過人類的RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí)）跟人類做對(duì)齊，然后跟社會(huì)的環(huán)境來對(duì)齊。另外一方面，通過純RL（強(qiáng)化學(xué)習(xí)）的強(qiáng)化，以及我們自己在世界模型里生成的數(shù)據(jù)拿它做強(qiáng)化訓(xùn)練，從而開得比人類更好，能夠解決更復(fù)雜的問題，或者說，比人類的平均值要好得多，大概是這么一個(gè)過程。

這還沒有完，這時(shí)有了VLA（司機(jī)大模型）。但人類是怎么跟VLA（司機(jī)大模型）工作的時(shí)候，其實(shí)我要搭建一個(gè)司機(jī)的Agent（智能體）。司機(jī)的Agent（智能體）是什么呢？是人類以自然語言的方式，就是你跟一個(gè)司機(jī)怎么說話，你跟一個(gè)正常的駕駛員，假設(shè)你有男朋友，你男朋友在開車，你怎么跟他說，你就怎么跟司機(jī)Agent來說�；蛘咭粋€(gè)代駕，你怎么跟他說就說了。這里邊的話，如果是一些短指令，通用的短指令VLA（司機(jī)大模型）直接就處理了，不需要再經(jīng)過云端。如果是一些復(fù)雜的指令，其實(shí)先要到云端的32B那里，VL（視覺和語言）處理完以后，（因?yàn)樗斫饨煌ǖ囊磺校?，整個(gè)交給VLA（司機(jī)大模型）來進(jìn)行處理，大概這么運(yùn)行的一個(gè)過程。

說白了它最后的一個(gè)好處是說它能夠像人類司機(jī)一樣去理解物理世界，能夠像人類司機(jī)一樣去開車，去處理復(fù)雜的問題，也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品。

26. 這其中這些步驟里面哪個(gè)是最難的呀？

沒法預(yù)測(cè)，我覺得沒有辦法預(yù)測(cè)。因?yàn)檫@些東西我們前面沒有任何人走過這條路。DeepSeek也沒走過這條路，然后OpenAI也沒有走過這條路，谷歌、Waymo也沒有走過這條路。我們其實(shí)走的是一個(gè)無人區(qū)。

27. 那你們?yōu)槭裁淳蚥et（下注），為什么就押注了這條路呢？因?yàn)槲易罱隽艘粋€(gè)技術(shù)播客，就是講 VLA（視覺語言行動(dòng)模型），我就感覺這個(gè)技術(shù)路線還沒有收斂。為什么你們覺得你們可以？

我覺得交通領(lǐng)域應(yīng)該是VLA（視覺語言行動(dòng)模型）最早實(shí)現(xiàn)的。因?yàn)橐皇且?guī)則清楚，包括你說做強(qiáng)化是非常容易的。按照每個(gè)來講，交通的世界，一個(gè)車會(huì)跑到哪里？其實(shí)是有的，雖然它很復(fù)雜，但是確定的，對(duì)吧？車又不能開到水里，車也不能開到空中，車只能開到有路的地方，所以它是復(fù)雜但具備確定性，對(duì)吧？我覺得這是一點(diǎn)。

第二其實(shí)車的控制，其實(shí)車是個(gè)3 DoF（自由度），車有三個(gè)自由度，對(duì)吧？左右是一個(gè)自由度，前后是個(gè)自由度，某種程度上還有一點(diǎn)輕微的旋轉(zhuǎn)，是個(gè)自由度，對(duì)吧？甚至輔助駕駛某種程度就控制兩個(gè)多，撐死就三個(gè)自由度。如果這個(gè)都不能實(shí)現(xiàn)，機(jī)器人的上來就是40多個(gè)自由度，那個(gè)挑戰(zhàn)就更大了。

所以這時(shí)候，我們進(jìn)行模仿學(xué)習(xí)是特別容易的。所以車看到的就是人看到的，人操作的其實(shí)就是車操作的，所以我覺得第二個(gè)它能做特別好的模仿學(xué)習(xí)。

第三個(gè)它還能做特別好的強(qiáng)化，對(duì)吧？就是大家在使用的過程中不滿意的時(shí)候就接管了，其實(shí)這個(gè)就是跟人類沒有對(duì)齊，對(duì)吧？它就告訴你不應(yīng)該這么做，以及告訴你該怎么做，這是非常清晰的指標(biāo)，對(duì)吧？包含哪怕其實(shí)不做，包括后邊我不做人類監(jiān)督，我靠生成數(shù)據(jù)來做訓(xùn)練的時(shí)候也非常清晰。因?yàn)槭裁词鞘孢m，G值（加速度數(shù)值）是可以表達(dá)的。什么是符合交通規(guī)則是能夠表達(dá)出來的，交通規(guī)則是個(gè)清晰的規(guī)則。第三個(gè)是否發(fā)生碰撞是可以表達(dá)的。如果它很舒適，又不違反交通規(guī)則，然后第三個(gè)，又沒有發(fā)生碰撞，a點(diǎn)到b點(diǎn)它就會(huì)開得越來越好。我覺得它是一個(gè)最好的 VLA（視覺語言行動(dòng)模型）的，第一個(gè)重要的實(shí)驗(yàn)場(chǎng)。

28. VLA（視覺語言行動(dòng)模型）還有包括VL，它的哪個(gè)數(shù)據(jù)獲取難度是最大的？

vision（視覺）和action（行動(dòng)）的數(shù)據(jù)是因?yàn)檐�，我們裝滿傳感器是可以收集物理世界數(shù)據(jù)的，還有人在車上開車是我們可以收集到action（行動(dòng)）的數(shù)據(jù)的，這兩個(gè)其實(shí)是最難的，而且也沒有任何公司可以替代。

29. 其他的車企不行嗎？其他車企也可以啊。

但是我覺得其他車企你有沒有建立整個(gè)基座模型的、預(yù)訓(xùn)練的能力，后訓(xùn)練的能力，以及后邊強(qiáng)化的能力，因?yàn)閺?qiáng)化還需要世界模型的能力，我覺得這是不一樣的，對(duì)吧？包括我剛才講的說，其實(shí)本身我們?cè)趺慈ソ鉀Q很多的問題，比如說我講一個(gè)問題，第一個(gè)如何提升能力剛才講清楚了，第二個(gè)是說我如何向人類安全對(duì)齊，我如果讓它像一個(gè)職業(yè)司機(jī)一樣足夠的安全，足夠的舒適，所以我們本身能夠要建立強(qiáng)化學(xué)習(xí)的體系，對(duì)吧？我們的RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)學(xué)習(xí)）是很重要的，我們其實(shí)有一個(gè)成規(guī)模的團(tuán)隊(duì)了。

因?yàn)楹芏鄷r(shí)候一家公司如果模型能力不強(qiáng)的時(shí)候，根本不知道怎么去做對(duì)齊，對(duì)吧？因?yàn)槟隳Ｐ湍芰?qiáng)的時(shí)候，你才發(fā)現(xiàn)對(duì)齊的重要性，你才知道Ilya（伊爾亞·蘇茨克維，OpenAI聯(lián)合創(chuàng)始人）原來想得那么遠(yuǎn)。Ilya把很多事情想得那么遠(yuǎn)。

30. 怎么說？

因?yàn)槟Ｐ湍芰υ綇?qiáng)，也就意味著它胡來的可能性越高，就跟一個(gè)人能力越強(qiáng)，其實(shí)我要需要他的職業(yè)性越強(qiáng)。公司規(guī)模越大，越需要職業(yè)性。公司小時(shí)候不需要職業(yè)性，對(duì)吧？然后因?yàn)橐粋€(gè)人能力強(qiáng)的時(shí)候，他干好事也很強(qiáng)，他干壞事能力也很強(qiáng)，所以這時(shí)候就需要職業(yè)性來約束。

比如舉個(gè)例子，我不可能雇用一個(gè)職業(yè)賽車手來每天給我開車，但我要雇一個(gè)職業(yè)司機(jī)，所以他除了開車能力不錯(cuò)以外，他有非常強(qiáng)的職業(yè)性，保證舒適、保證安全，保證像人類開車的，價(jià)值觀能夠?qū)R，所以這個(gè)其實(shí)是很重要的工作，我們就能做得非常好。

我覺得第三個(gè)還有最大的一個(gè)挑戰(zhàn)，就是模型是一個(gè)黑盒子。怎么解決？所以我們做了世界模型，對(duì)吧？然后我們把VLA（司機(jī)大模型）放在世界模型里，一個(gè)交通世界模型，它是一個(gè)如果不跟你說的話，你看的跟一個(gè)真實(shí)世界是一樣的。

31. 模型是一個(gè)黑盒，怎么解決它？

我們很早的時(shí)候在做端到端的時(shí)候就意識(shí)到，然后模型的黑盒子問題必須得一起解決。所以我們當(dāng)時(shí)然后做的世界模型，或者說是叫交通世界模型，就是我們用重建加生成的一個(gè)方式，借助我們的數(shù)據(jù)，然后來構(gòu)建了一個(gè)真的、交通的一個(gè)物理世界，包含有所有的參與者、參與物，所有的固定的這些物體，我覺得這是非常重要的。

所以我們就可以讓無論是最開始的這個(gè)端到端還是今天的VLA（司機(jī)大模型），在模型里邊進(jìn)行考試，它會(huì)模擬真實(shí)的交通的參與，包括真實(shí)的這些城市，來進(jìn)行考試，而且考試有點(diǎn)像我剛才，跟我剛才講的然后強(qiáng)化訓(xùn)練其實(shí)非常類似。它考什么呢？考a點(diǎn)到b點(diǎn)。然后考什么呢？考這個(gè)它的舒適性、它的交通的合規(guī)性和它的安全性。

我覺得這是我們要一直在做的這方面的一個(gè)工作。那這時(shí)候就能夠非常好的還原了，而且基于這樣的一個(gè) 我們的模型或者真實(shí)的物理世界的仿真的能力。我們還把整個(gè)的驗(yàn)證的成本大幅的下降，過去的時(shí)候我們靠人類司機(jī)來做一萬公里的驗(yàn)證，這個(gè)每一萬公里的成本大概在17萬到18萬人民幣，算上車的各種費(fèi)用，今天的話我們大概只需要花4000多塊錢人民幣，就每一萬公里。那這4000多塊錢基本上都是算力為主的成本，而且解決問題的效率還提升的多得多。

為什么呢？比如說其實(shí)今天的時(shí)候，我們要解決一個(gè)問題的時(shí)候，這個(gè)問題產(chǎn)生的時(shí)候，是我們自身的車輛跟多個(gè)交通參與物在不同的位置上，還有不同的道路上，出現(xiàn)了一個(gè)問題，但是如果你靠人類去驗(yàn)證我有沒有解決這個(gè)問題？要把這幾個(gè)交通參與物，相同的位置、相同的速度，其實(shí)湊在一起，幾乎沒有可能，所以只能模糊的驗(yàn)證。但今天，然后我們有了世界模型以后，我們可以非常準(zhǔn)確地驗(yàn)證。我們修正以后的模型有沒有解決這方面的問題，可以100%還原一模一樣的、真實(shí)的場(chǎng)景，在世界模型里，進(jìn)行驗(yàn)證。

32. 我們?cè)谡f司機(jī)Agent（智能體）的時(shí)候，它其實(shí)是涉及到action（行動(dòng)）進(jìn)入了外部世界，進(jìn)入了物理世界。那怎么解決安全問題呢？這個(gè)非常重要。

所以我們其實(shí)從去年年底成立了超級(jí)對(duì)齊的團(tuán)隊(duì)，比如說模型能力很強(qiáng)，但不遵守交通規(guī)則，然后模型能力很強(qiáng)，但模型經(jīng)常去加塞，去在交通擁堵中去加塞，對(duì)吧？它做出來一些讓人類坐在車上感覺到不安全的行為，對(duì)吧？那我覺得這個(gè)其實(shí)，至于是否讓它碰撞，是模型能力的問題，是否產(chǎn)生這些問題，其實(shí)是這個(gè)價(jià)值觀，是這個(gè)模型要去做的對(duì)齊的這方面的。

所以這也是剛才我講的，就是說我們要在做強(qiáng)化，訓(xùn)練的第一個(gè)環(huán)節(jié)，是我們必須把人類的這些規(guī)則、習(xí)俗、駕駛習(xí)慣，對(duì)于很多東西的判斷，其實(shí)變成它整個(gè)的要訓(xùn)練的反饋。我覺得這個(gè)其實(shí)我們必須要做的，所以我們有一個(gè)挺大規(guī)模的，我們有一個(gè)100多人的超級(jí)對(duì)齊團(tuán)隊(duì)。

因?yàn)槟隳芰υ綇?qiáng)、責(zé)任越大，我覺得這是責(zé)任，或者你還可以用另外一種方式，我們把超級(jí)對(duì)齊如果拿一個(gè)人舉例子的話，模型相當(dāng)于是這個(gè)人的專業(yè)能力，然后超級(jí)對(duì)齊，是這個(gè)人的職業(yè)性。

是他的綜合職業(yè)性。然后司機(jī)Agent（智能體），包括司機(jī)背后的這種記憶能力是如何和使用者建立信任的，所以我們比如說我招一個(gè)員工，或者我是否認(rèn)可一個(gè)員工，同樣是看他三個(gè)，第一個(gè)，是看他的專業(yè)能力，然后第二是看他的職業(yè)性，然后我覺得第三個(gè)是看他其實(shí)對(duì)別人理解和構(gòu)建信任的能力，比如這三個(gè)都很好，我覺得就是最卓越的員工。

33. 超級(jí)對(duì)齊，是什么時(shí)候開始做的呀？

是我們做到了1000萬Clips（視頻片段）以后開始來做的，因?yàn)槲野l(fā)現(xiàn)這時(shí)候怎么去有效的運(yùn)用模型的能力就很關(guān)鍵了，比如就舉個(gè)例子，它經(jīng)常一擁堵就去加塞，然后這個(gè)包括它做的很多行為，雖然效率很高，但是人坐在車上是很不舒服的，因?yàn)楦祟惖囊恍┨幚矸绞交蛘吒Ｈ祟愄幚矸绞讲灰粯�，它可能學(xué)到了一些不該學(xué)的司機(jī)的行為。

34. 我聽你說我有一個(gè)感受，就是剛開始大模型火的時(shí)候，大家都說創(chuàng)業(yè)要做AI是造人，你們這個(gè)其實(shí)就是在造司機(jī)。

對(duì)，是的。我一個(gè)很重要的感覺就是，我們只有讓它變成一個(gè)真正的司機(jī)，它才是一個(gè)生產(chǎn)力工具，不只是一個(gè)輔助工具，對(duì)吧？今天L2，L2+其實(shí)是個(gè)輔助工具，輔助工具其實(shí)還需要人大量的參與。但是我覺得如果想變成一個(gè)生產(chǎn)工具，我個(gè)人認(rèn)為并不會(huì)出現(xiàn)通用的 Agent（智能體），而是每個(gè)專業(yè)領(lǐng)域做專業(yè)的Agent（智能體）。就我剛才講的一樣，其實(shí)要想開好車，它所有的vision（視覺）的語料， language（語言）的語料，和action（行動(dòng)）其實(shí)都是不一樣的。你想做好一個(gè)醫(yī)生，你想做好一個(gè)律師，其實(shí)背后的整個(gè)思維鏈，所有的數(shù)據(jù)其實(shí)都是完全不同的。所以我覺得這是判斷。

另外一方面，如果你想變成一個(gè)生產(chǎn)工具，這時(shí)候就會(huì)和專業(yè)的人進(jìn)行比較，比如說你是否比一個(gè)專業(yè)的司機(jī)開得更好？你是否比一個(gè)專業(yè)的醫(yī)生表現(xiàn)得更好？你是否比一個(gè)專業(yè)的律師表現(xiàn)得更好？你是否比一個(gè)專業(yè)的程序員表現(xiàn)得更好？因?yàn)槟銜?huì)影響到它的整個(gè)生產(chǎn)，它的整個(gè)業(yè)績(jī)，它的工作結(jié)果，甚至它的財(cái)產(chǎn)和生命安全。我覺得這是我們看到的這個(gè)終點(diǎn)，所以這也是為什么我們必須很耐心、很深入地去解決，哪怕一個(gè)司機(jī)的問題。它并不可能通過一個(gè)泛化的大基座模型，或者一個(gè)大語言模型，這些東西都能實(shí)現(xiàn)了，我覺得這是不現(xiàn)實(shí)。

35. 什么是一個(gè)好的司機(jī)大模型的北極星指標(biāo)（終極指標(biāo)）？

我覺得還是把司機(jī)大模型和Agent（智能體）放在一起，這才是一個(gè)真正用戶能夠使用的一個(gè)產(chǎn)品，那如果是一個(gè)，我覺得如果是一個(gè)司機(jī)大模型，好的，我覺得跟人的判斷是一樣，就我判斷一個(gè)司機(jī)，就我們家雇用了一個(gè)司機(jī)，第一是他開車水平好不好？其實(shí)是他模型能力強(qiáng)不強(qiáng)？第二個(gè)還是說他是否職業(yè)？然后我覺得那他是否職業(yè)，很重要的一點(diǎn)其實(shí)就是我們的超級(jí)對(duì)齊這方面的工作，包括強(qiáng)化訓(xùn)練，是否做得足夠的好？然后我覺得第三個(gè)，是否安全，對(duì)吧？、我覺得第三個(gè)是他跟我之間的信任的關(guān)系，我是跟他說什么他都聽不明白？還是我說上半句他就知道下半句，甚至我很多東西不說，他已經(jīng)對(duì)我的記憶里邊都可以獨(dú)自去完成了。

其實(shí)就我們?nèi)绾稳ネㄟ^Agent（智能體）和記憶來構(gòu)建一個(gè)更好的信任的一個(gè)關(guān)系和理解的一個(gè)關(guān)系。如果我什么都不說，他都知道我要干什么了，這個(gè)司機(jī)要同時(shí)又滿足了他開車不錯(cuò)，又很職業(yè)，他又對(duì)我特別了解，特別理解，我就會(huì)一直雇傭他。對(duì)，我覺得最后我們對(duì)司機(jī)的Agent（智能體），對(duì)整個(gè)的這一個(gè)司機(jī)大模型，司機(jī)Agent（智能體）的判斷也是一樣的。我覺得以后所有的AI的或者Agent（智能體）的判斷都應(yīng)該是這樣的，它的專業(yè)能力，它的職業(yè)能力，然后以及它給你構(gòu)建信任的這個(gè)能力。

36. 你覺得這個(gè)Agent（智能體）應(yīng)該怎么定價(jià)呢？

我們雇用人類費(fèi)用的幾分之一，至于幾分之一最后還是看把成本都算出來以后，我覺得比如說我一個(gè)月，我雇一個(gè)司機(jī)，1萬塊錢，我是否愿意？2千到3千雇傭一個(gè)司機(jī)。然后我覺得這個(gè)其實(shí)是一個(gè)，可能是一個(gè)比較重要的一個(gè)判斷，當(dāng)然它也會(huì)帶來其他商業(yè)模式的不同。比如說你花2千到3千塊錢雇傭一個(gè)司機(jī)，那可能你對(duì)車而言，你可能也不需要付保險(xiǎn)費(fèi)了，保險(xiǎn)費(fèi)也包在這里邊了，保險(xiǎn)的費(fèi)用就財(cái)產(chǎn)的保險(xiǎn)，這個(gè)財(cái)產(chǎn)險(xiǎn)的費(fèi)用也包含在里邊了。也可能一定的這種，因?yàn)樗赡軙?huì)自動(dòng)去充電，可能一定的充電的金額，對(duì)應(yīng)一定里程的充電金額也放在里面了。所以可能到最后算下來，還可能是個(gè)更劃算的一個(gè)事情。

37. 我們剛剛在聊 VLA（視覺語言行動(dòng)模型）嘛，那是不是意味著端到端才出來一年，你們就要換架構(gòu)了？這個(gè)是不是太快了？去年端到端就被放棄了嗎？

我覺得也沒有放棄，還是我剛才講的，其實(shí)端到端是VLA（視覺語言行動(dòng)模型）的一部分基礎(chǔ)。如果你把端到端想象成一個(gè)一個(gè)具身智能執(zhí)行的環(huán)節(jié)，那它其實(shí)就是我們VLA（視覺語言行動(dòng)模型）的A（action 行動(dòng)）的部分，就我A（action 行動(dòng)）的部分其實(shí)仍然是在拿這個(gè)數(shù)據(jù)在做訓(xùn)練的。其實(shí)它就組成了我的A（action 行動(dòng)）的部分了。只是我要多語言的部分，還要多更強(qiáng)的3D vision（視覺）和高清2D vision（視覺）的部分。

38. 有可能一步直達(dá) VLA（視覺語言行動(dòng)模型）嗎？就比如說去年不推出端到端加VLM（視覺語言模型）那個(gè)版本，然后直接推 VLA，直接研發(fā)VLA。

沒有可能，至少從我們自己的體驗(yàn)上其實(shí)沒有可能。我說不太好聽的話，就是沒有辦法直接吃第十個(gè)包子。雖然可能大家覺得第十個(gè)包子吃飽了,但前面每個(gè)包子其實(shí)都跳不過去。我覺得往往很多時(shí)候，如果大家不想做前面任何包子的積累，只想吃第十個(gè)包子，很多時(shí)候非常像練葵花寶典。我覺得今天包括DeepSeek的出現(xiàn)并不是練葵花寶典練出來的，過去的時(shí)候它很早就構(gòu)建這種集群的能力去做這些鏈路、基建的優(yōu)化，我覺得都是非常之重要的。所以才有了它的低成本和效率啊。所以我說其實(shí)我們特別喜歡講這種，有一個(gè)人很聰明直接吃到了第十個(gè)包子，但現(xiàn)實(shí)中其實(shí)，至少今天這個(gè)社會(huì)整個(gè)的知識(shí)文明發(fā)展得越來越好了，不是膽大大于一切，我看不到什么捷徑。包括今天很多企業(yè)做端到端都很吃力，因?yàn)樵谝?guī)則算法時(shí)候都沒做好。

39. 但是大家就覺得李想才是摘第十個(gè)包子的人，因?yàn)槟銈冏鲚o助駕駛的時(shí)間比別人晚。

但我們自研的時(shí)間并不短啊。我們從2021年，上地平線征程Journey3芯片的時(shí)候就開始做自研。然后我們研究做得也很扎實(shí)。我覺得中國的所有企業(yè)里邊，關(guān)于輔助駕駛的論文我們應(yīng)該是發(fā)表，以及被大的會(huì)議，大的社區(qū)錄取和引用的其實(shí)應(yīng)該也是最多的。我覺得這個(gè)階段我們還是做的挺扎實(shí)。

因?yàn)槲覀兪莻€(gè)用戶導(dǎo)向的公司，我們認(rèn)為技術(shù)是一種能力，所以我們更多的時(shí)候講的是用戶的價(jià)值，今天大家講我們是冰箱、彩電、大沙發(fā)，對(duì)吧？但是背后的話，我們的這個(gè)冰箱、彩電、大沙發(fā)的智能化背后的基礎(chǔ)，今天大家看仍然是非常強(qiáng)的，體驗(yàn)起來是完全不一樣。

40. 背后的基礎(chǔ)是什么？

就是大型軟件的能力。我們后邊很多能力其實(shí)還是很扎實(shí)的。比如舉一個(gè)例子，就為什么今天大家做端到端和VLM（視覺語言模型）很難？是因?yàn)檫@個(gè)Orin芯片并不支持直接跑語言模型。我們是自己的編譯團(tuán)隊(duì)，所以我們特別理解DeepSeek，一看就看明白了，比如它做FP8（8位浮點(diǎn)數(shù)格式）的優(yōu)化，能夠跑它的整個(gè)訓(xùn)練的一個(gè)架構(gòu)。我們做相同的事情，我們直接然后是寫了 Orin-X底層，因?yàn)橛ミ_(dá)沒時(shí)間，我們自己寫的底層（推理引擎），讓它用 INT4量化的方式來跑 VLM（視覺語言模型）。那這跟誰（DeepSeek）做 FP8（8位浮點(diǎn)數(shù)格式）的訓(xùn)練其實(shí)一個(gè)道理。包括今天的話，我們?yōu)槭裁茨茏龅诫pOrin-X跟Thor-U 都能跑VLA（司機(jī)大模型），可能對(duì)很多團(tuán)隊(duì)是個(gè)非常大的挑戰(zhàn)，為什么呢？因?yàn)槲覀冏约河蟹浅?qiáng)的能力，我們有編譯團(tuán)隊(duì)，然后我們有芯片的能力，然后我們有板子設(shè)計(jì)能力，有操作系統(tǒng)能力，所以我們是能夠把兩個(gè) Orin-X帶寬足夠的大，它同樣可以跑同等規(guī)模的VLA的模型。我覺得我們這方面的技術(shù)都是非常之扎實(shí)的。因?yàn)槲易约哼€是認(rèn)為，其實(shí)就是你規(guī)模小的時(shí)候無所謂，你規(guī)模大的時(shí)候基本功和能力永遠(yuǎn)是無法逾越的。

41. 所以什么樣的corner case（長(zhǎng)尾案例）是可能端到端加VLM（視覺語言模型）架構(gòu)無法解決，而VLA（視覺語言行動(dòng)模型）是可以解決的。能不能給大家舉個(gè)例子。

我覺得有兩個(gè)。過去的時(shí)候端到端有兩個(gè)麻煩的問題。第一個(gè)問題是它對(duì)復(fù)雜東西的理解，比如這有一個(gè)復(fù)雜的修路，如果是規(guī)則算法可能就會(huì)撞上了，如果是端到端可能停下來，但它不知道該怎么干了。如果是VLA（司機(jī)大模型）就能輕松解決了，而且這些我不需要有真實(shí)的場(chǎng)景，甚至我可以直接生成，然后來數(shù)據(jù)來進(jìn)行訓(xùn)練，對(duì)吧？因?yàn)樗軌蛴欣斫饽芰α�，它并不是只是看到一個(gè)景象，就做出一個(gè)結(jié)果。規(guī)則算法其實(shí)往往可能就會(huì)出現(xiàn)，遇到一個(gè)復(fù)雜路況，復(fù)雜的、沒見過的，或者規(guī)則之外的它就會(huì)出現(xiàn)事故。如果是端到端的，它可能停下來，但它不知道該怎么辦了，我們經(jīng)常遇到修路狀況，它在那不知道猶猶豫豫，不知道該怎么辦，對(duì)吧？但是如果VLA（司機(jī)大模型），它其實(shí)就能夠有效地去處理了，而且不需要通過海量的數(shù)據(jù)訓(xùn)練。哪怕最開始這個(gè)場(chǎng)景沒有辦法處理，但我保證三天之內(nèi)相關(guān)的這種場(chǎng)景都能處理，因?yàn)槲铱梢阅眠@東西來生成數(shù)據(jù)，生成讓數(shù)據(jù)來進(jìn)行訓(xùn)練。我覺得這是一方面。

另外一方面其實(shí)還有很難的一點(diǎn)是跟人溝通。今天端到端怎么做？就跟猴子一樣，你影響不了它，對(duì)吧？比如說我們會(huì)經(jīng)常遇到一個(gè)什么樣的狀況，就是在一條路上三條道，最右側(cè)的車道是公交車道，然后又是限行，但是公交車道長(zhǎng)久沒有維護(hù)了，那個(gè)印刷已經(jīng)不清楚了，所以它就會(huì)在那跑，雖然你可以通過一個(gè)調(diào)整說，回到中間車道，但它過一陣又跑到那條車道上去了。如果是人類有了Agent（智能體）以后，因?yàn)橛辛薞LA（司機(jī)大模型）才有Agent（智能體）能跟VLA溝通，對(duì)吧？所以我可以跟一個(gè)Agent（智能體）講說，接下來這條道路一直在中間行駛，直到它在導(dǎo)航的時(shí)候走了下一個(gè)。包含如果跟導(dǎo)航錯(cuò)失了以后，端到端就不知該怎么辦了，但是VLA（司機(jī)大模型）在小區(qū)里可以漫游。在一個(gè)開放空間里，它可以先處理完以后，最后再跟導(dǎo)航調(diào)整以后的進(jìn)行匯合，它跟人類完全一樣的了。只是今天可能它作為一個(gè)人類，能力還沒那么強(qiáng)，作為一個(gè)人類能力還有一個(gè)成長(zhǎng)的過程，比如它今天像一個(gè)剛從駕校學(xué)完的新手司機(jī)，有可能是這么一個(gè)狀況。

42. 今年都會(huì)是這個(gè)狀態(tài)嗎？

我覺得還是看整個(gè)訓(xùn)練的一個(gè)進(jìn)度了。但它泛化能力是完全不在一個(gè)量級(jí)上了。

43. 你覺得VLA（視覺語言行動(dòng)模型）是終極的架構(gòu)嗎，解決自動(dòng)駕駛的？還會(huì)有下一代嗎？會(huì)不會(huì)明年這個(gè)時(shí)候又是新的架構(gòu)了呢？

我自己認(rèn)為VLA（司機(jī)大模型）能夠解決到全自動(dòng)駕駛，但是VLA（司機(jī)大模型）是否是一個(gè)效率最高的方式？是否有效率更高的架構(gòu)出現(xiàn)？我打個(gè)問號(hào)，我認(rèn)為大概率還是會(huì)有的啊。因?yàn)閂LA（司機(jī)大模型）還是基于Transformer這樣子的，那Transformer是不是一個(gè)效率最高的一個(gè)架構(gòu)，對(duì)吧？那我覺得這個(gè)其實(shí)后邊不知道。

44. 它是現(xiàn)階段效率最高的架構(gòu)，在你看來？

我覺得它是能力最強(qiáng)的架構(gòu)。對(duì)，因?yàn)楝F(xiàn)在能力差距太大了，就跟人類合格開車。今天這個(gè)輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了。對(duì)，然后那我覺得它是最接近人類的，甚至有機(jī)會(huì)超過人類能力的一種，就關(guān)于開車超越人類的一種方式。那它是不是效率最高的方式？其實(shí)是打個(gè)問號(hào)，因?yàn)樗裉鞂?duì)算力的要求還是很高的。

45. VLA（司機(jī)大模型）跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀？它是那個(gè)大統(tǒng)一嗎？

我覺得還是會(huì)有一個(gè)效率的問題，對(duì)吧？我講的意思是，其實(shí)我們雖然有模型，但我們從來不放棄工具，然后因?yàn)楣ぞ呤窃黾哟_定性和提高效率的。我還是舉一個(gè)挺清晰的一個(gè)例子，因?yàn)閳F(tuán)隊(duì)很多時(shí)候太想用模型解決一切問題，對(duì)吧？然后那這時(shí)候就會(huì)出現(xiàn)類似一個(gè)現(xiàn)象，比如我舉一個(gè)例子，那今天當(dāng)然VLA（司機(jī)大模型）會(huì)解決很好了，其實(shí)我們?cè)谑褂?VLM在解決ETC時(shí)候并不好。

因?yàn)閂LM（視覺語言模型）對(duì)于位置的判斷是很糟糕的，所以它如果其實(shí)是兩到三個(gè)ETC，然后我怎么進(jìn)入其實(shí)非常容易判斷，其實(shí)就是這個(gè)左中右。但如果像京承高速這樣的機(jī)場(chǎng)高速那樣的十幾個(gè)ETC，它很多時(shí)候就不知道怎么處理了，就開始非�；靵y了，因?yàn)樗鼪]有位置的判斷的這個(gè)能力，我們團(tuán)隊(duì)太希望用模型去解決問題，就是說不停地去給VLM（視覺語言模型）喂更多的語料，更多的東西，其實(shí)都沒有解決這個(gè)問題，因?yàn)檫@是VLM（視覺語言模型）的那個(gè)架構(gòu)問題。

然后我跟團(tuán)隊(duì)說，那解決ETC為什么不能用規(guī)則算法？因?yàn)樽疃嗟囊灿?5個(gè)口，對(duì)吧？15個(gè)口對(duì)于你們而言，寫一個(gè)程序基本上一周之內(nèi)就能完成，甚至三天就能完成。但是我說很多時(shí)候我們心里有個(gè)心結(jié)，對(duì)吧？因?yàn)槿祟惡芏噙\(yùn)行的時(shí)候其實(shí)是大模型運(yùn)行，但是我說我們作為一個(gè)這個(gè)正常的人，我們其實(shí)也會(huì)背乘法口則，乘法口則就是個(gè)規(guī)則算法，對(duì)吧？但是乘法口則的結(jié)果是我們消耗的腦力更少，對(duì)，我們消耗的token（詞元）更少。

然后以及我們的準(zhǔn)確性更高，所以它就是個(gè)好東西，它就是個(gè)工具，對(duì)吧？然后如果是一個(gè)確定性的，能夠拿規(guī)則去解決的，其實(shí)它意味著更低的能量消耗、更低的算力消耗和更高的準(zhǔn)確性，對(duì)吧？那我覺得為什么不用？所以團(tuán)隊(duì)很快就把問題解決了，所以我們?cè)贓TC就非常的穩(wěn)了。其實(shí)一周都不到就解決了，過去的時(shí)候解決了三四個(gè)月都解決不了的，成本很高的方式解決不了的。所以我說就是我覺得真正往下去落的時(shí)候，很多時(shí)候還是要考慮效率，就是今天DeepSeek之所以受到全世界的矚目，很重要的一個(gè)原因還是因?yàn)樗男首兊酶吡恕?/span>

45. VLA（司機(jī)大模型）跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀？它是那個(gè)大統(tǒng)一嗎？

然后我跟團(tuán)隊(duì)說，那解決ETC為什么不能用規(guī)則算法？因?yàn)樽疃嗟囊灿?5個(gè)口，對(duì)吧？ 15個(gè)口對(duì)于你們而言，寫一個(gè)程序基本上一周之內(nèi)就能完成，甚至三天就能完成。但是我說很多時(shí)候我們心里有個(gè)心結(jié)，對(duì)吧？因?yàn)槿祟惡芏噙\(yùn)行的時(shí)候其實(shí)是大模型運(yùn)行，但是我說我們作為一個(gè)這個(gè)正常的人，我們其實(shí)也會(huì)背乘法口則，乘法口則就是個(gè)規(guī)則算法，對(duì)吧？但是乘法口則的結(jié)果是我們消耗的腦力更少，對(duì)，我們消耗的token（詞元）更少。

46. 特斯拉FSD真實(shí)的進(jìn)入了中國，對(duì)你有沒有什么影響？

我們認(rèn)為，我們自己一個(gè)判斷的話，從實(shí)測(cè)過來的話，他們大概在用12.5之前的模型。對(duì)，在用12.5之前的模型，然后并不是特斯拉真實(shí)能力，距離特斯拉真實(shí)能力還有巨大的差距。特斯拉13.0以后的能力還是非常強(qiáng)的。而且 12.5之前的話應(yīng)該其實(shí)是這個(gè)半規(guī)則算法的能力。所以我說不是特斯拉真實(shí)能力的體現(xiàn)，但是我們能看到特斯拉基本功是非常扎實(shí)的。它的整個(gè)的感知的距離，它整個(gè)運(yùn)行的幀率，它整個(gè)的車輛的整個(gè)的控制的穩(wěn)定性。

47. 為什么沒有釋放真實(shí)的能力？

我覺得因?yàn)槿绻苯由隙说蕉说脑�，有中國的這些路況什么的，其實(shí)剛才我就像我講的，它在美國沒有學(xué)習(xí)到這些東西，然后再遇到這些復(fù)雜的，是還是會(huì)遇到挑戰(zhàn)的。

48. 你們現(xiàn)在還學(xué)特斯拉學(xué)的多嗎？最近從他身上學(xué)到了什么呀？

我覺得美國的很多的頂級(jí)的公司，像蘋果，像特斯拉這種企業(yè)，就是他們基本功特別扎實(shí)。然后我覺得這個(gè)是我們真正要去學(xué)的，尤其是在今天這種內(nèi)卷的環(huán)境下，然后包括外部的不確定的環(huán)境下，我覺得這時(shí)候更是每個(gè)企業(yè)扎扎實(shí)實(shí)練基本功的最好的時(shí)候，而且到了人工智能時(shí)代的話，基本功就更是不可能、不可跳躍的。所以我覺得如果很多企業(yè)做了很多的創(chuàng)新，但是沒有基本功，不扎實(shí)，所以很多創(chuàng)新就會(huì)曇花一現(xiàn)就過去了，所以這會(huì)是很大的問題。因?yàn)榫退m然擁有很多錢，能發(fā)明了很多東西，就創(chuàng)造、創(chuàng)新了一些很多的功能的組合。但是你會(huì)發(fā)現(xiàn)能力強(qiáng)的公司復(fù)制的東西基本上在人工智能時(shí)代都是按周計(jì)算的就能復(fù)制過來，所以那個(gè)能力的基本功還是非常重要的。

49. 為什么是學(xué)蘋果呢？它也不是一家AI公司啊。

我覺得最重要的是學(xué)能力。我們?cè)谛〉臅r(shí)候沒有看明白，沒有看懂蘋果，那這個(gè)階段的時(shí)候我們可能又去認(rèn)真研究蘋果，發(fā)現(xiàn)蘋果還有很多能力其實(shí)值得我們?nèi)W(xué)習(xí)的。

所以到今天為止，你去看一個(gè)蘋果作為一個(gè)全世界市值第一的公司，當(dāng)你做到千億收入，你再去看這種萬億收入公司的能力的時(shí)候，你開始模模糊糊能看懂一些了。但是我們小的時(shí)候，我們很小規(guī)模的時(shí)候，我們看不懂蘋果為什么這么做。我覺得最后其實(shí)是規(guī)模，因?yàn)橐?guī)模是一個(gè)可以確定衡量的變化，也會(huì)帶來用戶規(guī)模和用戶需求的變化，技術(shù)和產(chǎn)品的變化，也會(huì)帶來組織和能力的變化。

50. 你有試駕過上了VLA（司機(jī)大模型）的車嗎？體驗(yàn)怎么樣？有經(jīng)歷過什么aha moment（驚喜時(shí)刻）嗎？

我覺得挺難有什么aha moment（驚喜時(shí)刻），因?yàn)槟阋呀?jīng)理解它的原理了，其實(shí)就是它就變得跟人很像了。

51. 就更像人了。

就真的像人了。它變成更像人其實(shí)沒什么驚奇的。對(duì)吧？相反一個(gè)動(dòng)物忽然會(huì)的一些東西，你覺得挺驚訝，但一個(gè)人做好東西，你認(rèn)為其實(shí)是正常的。

52. 你之前對(duì)內(nèi)說過一句話，說理想的智駕原創(chuàng)性超過了增程，這句話是不是太自信了？

我自己覺著就我們?cè)谶@方面的研究工作真的做得很深。所以你看到我們的各種的論文，而且我們?yōu)榱�，然后我們�(yōu)榱俗龊茫覀優(yōu)榱俗龊眠@個(gè)輔助駕駛，我們還做了操作系統(tǒng)。然后我們?yōu)榱俗鲚o助駕駛，我們構(gòu)建了完整的訓(xùn)練體系，我們?yōu)榱俗鲚o助駕駛，甚至我們自己去直接去改芯片的，然后這個(gè)底層的軟件，對(duì)吧？然后我覺得我們做了很多這方面的這些工作。然后那這方面工作肯定，然后肯定做的比這個(gè)增程更多，比增程做的工作量更多。然后我覺得還有一個(gè)比較好的一個(gè)評(píng)價(jià)方式。就是我們歷史上從來沒有遇到過，然后任何一個(gè)周期，比如2024年和2025今年年初，我們每一個(gè)輔助駕駛團(tuán)隊(duì)的核心人員可能基本上都會(huì)接到20個(gè)以上的獵頭電話。

53. 7月份是理想的十周年，站在今天回顧理想這十年走過的路，你腦海里浮現(xiàn)的最深刻的場(chǎng)景畫面是什么？

我的第一個(gè)最重要的畫面，是2018年理想ONE第一次發(fā)布，一直延續(xù)到2019年的4月份，上海車展第一次正式的展示，帶有價(jià)格的。我覺得那是一個(gè)非常重要的時(shí)刻，我們真的能做出來一輛車，而且這個(gè)車特別受用戶喜歡。在上海車展的展館里面，我們是人流量最大的一個(gè)展臺(tái)。因?yàn)槲覀兪菑氖裁炊紱]有開始來做的。另一個(gè)是2022年發(fā)布理想L9的時(shí)候，我覺得那真的是一個(gè)全世界最卓越的產(chǎn)品。到了今天2025年，能看到至少有5個(gè)以上的企業(yè)是因?yàn)楫?dāng)時(shí)理想L9的成功，在打造跟理想L9相同的產(chǎn)品。

54. 你腦海里浮現(xiàn)的都是幸福的時(shí)候，而不是痛苦的時(shí)候。你會(huì)回憶到痛苦的時(shí)候嗎？

太多了，剛經(jīng)歷了L9的幸福就出現(xiàn)了。全網(wǎng)的黑公關(guān)都說理想汽車倒閉，那一個(gè)季度我們虧了十幾億，將近二十億，原來從沒虧過那么多。忽然從巔峰掉到谷底，好處還是我說的，我們認(rèn)識(shí)到很多能力不足，我們就去補(bǔ)了很多能力。但正是因?yàn)檫@件事情，我們的調(diào)整又帶來了2023年獲得接近三倍的增長(zhǎng)，我們直接做到了1200億的收入。反正我創(chuàng)業(yè)那么多年了，當(dāng)問題來的很多時(shí)候，又是一個(gè)更大的機(jī)會(huì)的到來。所以我對(duì)這方面其實(shí)也沒那么糾結(jié)。我對(duì)于不正常的事情耐受力很差，但我對(duì)于一些不好的東西解決完以后，整個(gè)記憶能力也很差，會(huì)把它忘掉，但你讓我回顧還是能回顧過來的。

55. 刻意刪掉的記憶片段會(huì)是什么呢？

為了讓自己有更好的正能量，我還是盡可能的只保留那些有價(jià)值、美好的片段。哪怕是一個(gè)不好的東西，比如剛才講的我們被黑、被打擊，我會(huì)轉(zhuǎn)變成“看，正是因?yàn)檫@件事情我們?cè)鲩L(zhǎng)了三倍，我們獲取了其他新勢(shì)力所沒有的能力，我們面臨其他新勢(shì)力所沒有的挑戰(zhàn)�！边@樣的方式來表達(dá)，這是一種心態(tài)。創(chuàng)業(yè)確實(shí)不容易，但是沒必要苦哈哈的�？嗪吞�。是一個(gè)硬幣的正反面，取決于你選擇看哪一面。如果按時(shí)間軸而言，肯定是苦更多，但是吃苦多了也就習(xí)慣了。

56. 余凱博士（地平線創(chuàng)始人兼CEO）回憶跟你第一次見面是在杭州一起去爬山，他記得你那天穿了一個(gè)軍大衣。我很好奇余凱博士見到的那個(gè)軍大衣里包裹的是一個(gè)怎樣的靈魂？它跟今天發(fā)生了什么樣的變化？

我覺得沒什么變化。我甚至認(rèn)為我今天90%的狀態(tài)、思維方式跟我上高中的時(shí)候差不多。遇到問題去解決問題、解決別人不愿意解決的問題、解決消費(fèi)者遇到的最大的問題、去找更多的人學(xué)習(xí)。那時(shí)候我是個(gè)人網(wǎng)站站長(zhǎng)，但是我又有合伙人，是少數(shù)的有小團(tuán)隊(duì)的站長(zhǎng)�？孔约耗芰Σ恍械臅r(shí)候還要靠別人，然后繼續(xù)完善能力。我覺得到今天為止我沒變化，只是解決的問題在變大、服務(wù)的用戶群體在變大、公司的規(guī)模在變大、組織在變大。

57. 過去十年中所有的記憶里如果能改變一個(gè)記憶，改變一個(gè)程序，你想改變什么？

我覺得沒什么要改變的。能趕上這么一個(gè)時(shí)代，幾次創(chuàng)業(yè)還能一路走下來，在最難的時(shí)候都有人來幫你，當(dāng)遇到問題的時(shí)候，總是能從坑里快速爬出來，一幫人齊心竭力變得更好，我覺得挺幸運(yùn)的了。無論是從運(yùn)氣層面，還是從能夠創(chuàng)造出來的價(jià)值層面，我覺得沒什么可后悔的。挺好的。

58. 你剛才說一個(gè)詞是能量，怎么讓自己成為一個(gè)更有能量的人，更強(qiáng)大的人，或者是能吸引到更多能量的人？

我覺得就是關(guān)注人，尤其是關(guān)注那些離你最近的人，關(guān)注親密關(guān)系的人。關(guān)注人的時(shí)候首先你得先關(guān)注自己，作為我自己，我會(huì)怎么來看待自己？第一，我會(huì)接受自己所有的優(yōu)點(diǎn)。我很多身上的特質(zhì)，這么多年的積累，從DNA里帶來的，其實(shí)它就是我的優(yōu)勢(shì)，我應(yīng)該怎么去發(fā)揚(yáng)自己的優(yōu)勢(shì)。第二個(gè)是要能接受自己的不足。往往不足就是優(yōu)勢(shì)的另外一面。比如這個(gè)人很擅長(zhǎng)決策，他可能就沒有辦法其實(shí)去做很細(xì)致的運(yùn)營(yíng)，因?yàn)檫@兩件事是沖突的。有的人非常擅長(zhǎng)運(yùn)營(yíng)，他可能就很難跳出來，或者跳好幾個(gè)維度來去做決策。一個(gè)人很懶，但可能是個(gè)極品的產(chǎn)品經(jīng)理，但如果他很勤奮，應(yīng)該是個(gè)非常好的業(yè)務(wù)運(yùn)營(yíng)。我覺得每個(gè)人是不一樣的，往往我們?nèi)绻牡脑�，�?huì)變成一個(gè)更差的別人，以及一個(gè)更糟糕的自己。所以我說要接受自己的不足。第三個(gè)是用成長(zhǎng)替代改變。更重要的是我有沒有成長(zhǎng)，我們?cè)谧銎囍业臅r(shí)候，我說做好業(yè)務(wù)就行了，資本根本不重要，最后我們其實(shí)折在了資本上。

在做理想汽車的時(shí)候就非常注重資本，請(qǐng)最好的FA（財(cái)務(wù)顧問），請(qǐng)最好的律所，股權(quán)架構(gòu)的設(shè)計(jì)、投票權(quán)，今天大家可以看到所有的新勢(shì)力企業(yè)里面，理想汽車的股權(quán)架構(gòu)、治理結(jié)構(gòu)、資本現(xiàn)金管理都是做得最好的。我并沒有改變我的業(yè)務(wù)，其實(shí)是增強(qiáng)了一個(gè)能力，所以它是個(gè)成長(zhǎng)。我們會(huì)面臨方方面面的能力成長(zhǎng)，就能給自己帶來能量。你的成長(zhǎng)有自己的能量，然后你又不跟自己糾結(jié)，當(dāng)有這個(gè)能力的時(shí)候，我們?cè)倏创齽e人其實(shí)也是一樣，我會(huì)先看別人的優(yōu)點(diǎn)，這非常重要。這個(gè)優(yōu)點(diǎn)怎么讓他發(fā)揮出來？這優(yōu)點(diǎn)能帶來什么？這優(yōu)點(diǎn)怎么讓他發(fā)揮？我覺得第二個(gè)，其實(shí)當(dāng)看到別人不足的時(shí)候，其實(shí)根本不是問題。我從創(chuàng)業(yè)開始就有合伙人。樊錚就是我的互補(bǔ)，是我所不具備的，秦致是我所不具備的，李鐵、馬東輝、謝炎、鄒良軍就是我所不具備的。當(dāng)看到大家這些不足的時(shí)候，反而其實(shí)是我的價(jià)值，我有價(jià)值能幫助到他，他有價(jià)值能幫助到我，我覺得第三個(gè)一樣，去看別人的成長(zhǎng)，你能看到孩子的成長(zhǎng)，你能看到愛人的成長(zhǎng)，你能看到身邊每個(gè)同事的成長(zhǎng)，其實(shí)這就有能量了。

因?yàn)樽兒镁陀心芰柯�。而且你關(guān)注的是人的成長(zhǎng)，不是那些事兒。所以，第一你能自己產(chǎn)生能量，第二你能夠帶給別人能量，第三你能從別人那獲取能量，因?yàn)閯e人給你能量，別人也不會(huì)丟掉能量，它是個(gè)輻射作用。所以這是我一些隨著自己的成長(zhǎng)，開始有效的一些理解。然后另外一方面其實(shí)很重要的是親密關(guān)系，我覺得親密關(guān)系里邊特別重要的一點(diǎn)，是要關(guān)注人，我需要我的愛人，我需要我的孩子，我需要李鐵、馬東輝，我需要?jiǎng)⒔�、解衛(wèi)國、范皓宇，甚至超過了他們需要我。首先是我需要他們，才是他們需要我，這時(shí)候這些人之間的連接就不一樣了，我們?cè)谝黄鹁湍苄纬梢粋€(gè)非常強(qiáng)的腦力、非常強(qiáng)的心力，形成特別好的能量，我覺得這個(gè)是特別重要的，而不是說我對(duì)他們沒有需求。

我覺得在我的家里非常有意思的一點(diǎn)，過去我和我老婆之間的相互支撐還是有限的，從去年年底春節(jié)過后一個(gè)最大的變化是我們家大女兒她形成了我們的第三個(gè)支撐。她14歲了，她對(duì)事情的理解在發(fā)生巨大的變化。她自己的三觀開始有效、特別完善地形成，而且超出了我們的預(yù)期。而且她有能力跟我們做特別好的溝通了，關(guān)于她自己的人生規(guī)劃，她自己的喜好，她自己對(duì)人和事物的理解，這個(gè)特別有意思，我們家里實(shí)現(xiàn)了一個(gè)三人的支撐，這是個(gè)讓家里的能量大幅地提升。因?yàn)檫@些能量會(huì)影響到其他的孩子，雖然他們還沒有辦法做成支撐。我每次跟我老婆聊，在聊到大女兒的時(shí)候都是非常的高興，就沒想到她14歲就能和我們兩個(gè)人形成一個(gè)三人的支撐了。

我們能跟她一起去討論很多問題了。我們可以討論事情，可以討論人，可以討論不同的見解，也可以討論她的規(guī)劃，可以討論怎么出去玩，可以討論家里要解決一些什么問題，都可以的，我覺得這個(gè)特別好。

59. 我之前跟一個(gè)教授聊天啊，他說他幾年前跟你聊過，然后感覺你的心靈觀就是家庭觀，這個(gè)也反映到你的公司上，要?jiǎng)?chuàng)造幸福的家。那他想問的是你有沒有更大的宇宙觀、世界觀？

我們從人出生開始，我們上學(xué)到大學(xué)畢業(yè)到開始工作，我們有多少自己想去做的事情沒有去做？我們有多少想接觸的萬物沒有去接觸？我每天都在忙著去工作，去在做事兒。嗯，對(duì)，但什么是智慧呢？智慧就是我們跟萬物的接觸。

如果你沒有去過森林，沒有在森林里，認(rèn)真的玩兒、住過幾天，那你可能覺得木頭就是做筷子的，就是做紙的，就是做桌子的，而并不是意味著它是一個(gè)生命，它是跟我們不同的生命，對(duì)吧？你不能沒有跟孩子在一起、長(zhǎng)時(shí)間的生活體驗(yàn)跟他們一起去玩，你可能就不知道什么是親密的關(guān)系，你就沒法真正的去理解孩子，去了解孩子，對(duì)吧？那我覺得什么是智慧？我覺得智慧就是我們和萬物的關(guān)系。但是怎么去提升我跟萬物的關(guān)系？首先要有足夠的時(shí)間跟萬物去接觸。所以我在講的一個(gè)很重要的一個(gè)問題，就是今天我們很卷，但是我覺得這是恰恰是真正的人工智能的意義。

60. 在AI面前，什么是值得被保留的人性？

我覺得所有的人性都應(yīng)該得以保留。對(duì)，然后無論是好的和壞的。

61. 為什么呀��？為什么要好把我的壞的（保留下來）。

就沒有壞的，其實(shí)就沒有好的。那就跟剛才我講的一樣，就是說一個(gè)人的優(yōu)點(diǎn)的另外一面，其實(shí)就是它的缺點(diǎn)，對(duì)吧？然后一個(gè)好的另外一面其實(shí)就是它的不好。對(duì)，以后我們?nèi)绻幌胍玫臇|西，而這個(gè)說我只想要好的東西，但放棄所有不好的東西。對(duì)，我覺得這件事情并不成立。對(duì)，所以你可以把好的東西和不好的東西都當(dāng)成一種特質(zhì)。對(duì)，然后它是文化的特質(zhì)，然后它是生命的特質(zhì)，它是性格的特質(zhì)，它是能力的特質(zhì)。對(duì)，我覺得這個(gè)其實(shí)這樣的，這樣我覺得才是活生生的，才是一個(gè)有生命力的世界，才是活生生的人。（編譯/汽車之家秦超）

向編輯秦超提問

文章標(biāo)簽：智能網(wǎng)聯(lián) 電動(dòng)車車聞

+1 贊

+1 踩

發(fā)表我的評(píng)論

亚洲中文无码卡通动漫_亚洲精品偷拍自综合网_国产在线精品观看_污污网站在线免费观看

李想：智能輔助駕駛目前是黎明前的黑暗我們?cè)敢馊ソ鉀Q問題

登錄后體驗(yàn)更完整

亚洲中文无码卡通动漫_亚洲精品偷拍自综合网_国产在线精品观看_污污网站在线免费观看

李想：智能輔助駕駛目前是黎明前的黑暗 我們?cè)敢馊ソ鉀Q問題

登錄后體驗(yàn)更完整

智能買車

猜你喜歡

李想：智能輔助駕駛目前是黎明前的黑暗我們?cè)敢馊ソ鉀Q問題