具身智能進入GPT-3倒計時，我們距離賈維斯時刻還有多遠？｜對話自變量機器人CEO王潛

原創(chuàng)

2024-12-15 15:26 星期日

財聯(lián)社記者余詩琪

①Foundation model（通用模型）是一條能夠明確跨越機器人操作（manipulation）領(lǐng)域數(shù)據(jù)障礙的路徑。
②明年年底或者后年年初，預(yù)計能實現(xiàn)一個類似GPT-3級別的具身智能大模型。
③中國在具身智能供應(yīng)鏈上的優(yōu)勢可能領(lǐng)先了美國一個數(shù)量級。

編者按：AGI（通用人工智能）起于大語言模型（LLM），將終于具身智能。

以大語言模型的突破為契機，通過賦予 AI具體的物理實體（如機器人和自動化設(shè)備等），使其能夠和現(xiàn)實世界交互，具身智能成了AI通往物理世界的鑰匙。

不同于快速收斂的大語言模型，具身智能的戰(zhàn)線長的多，涉及的模態(tài)空前復(fù)雜，需要同時具備多模態(tài)感知、具身決策與規(guī)劃和操作執(zhí)行能力。

在這片AI的新大陸上，來自UC Berkley、斯坦福、北大、清華等頂尖院校的創(chuàng)業(yè)者們扎堆涌入。在他們的設(shè)想中，具身智能的終極形態(tài)是機器人能夠靈活處理各種各樣的復(fù)雜任務(wù)，適應(yīng)工業(yè)、居家生活、醫(yī)療、養(yǎng)老等不同場景，像鋼鐵俠的AI智能管家賈維斯一樣為人類服務(wù)。

資本亦蜂擁而至。尤其是在今年，具身智能成為當(dāng)之無愧的風(fēng)口賽道。紅杉中國、高瓴資本、藍馳創(chuàng)投……各類型的投資機構(gòu)都希望能在早期階段就押中這一新興領(lǐng)域的未來頭部。

在這個智能體與物理世界深度融合、邊界不斷拓展的領(lǐng)域，機遇與挑戰(zhàn)相互交織，技術(shù)迭代如閃電般迅速。籍此年關(guān)之際，《科創(chuàng)板日報》對過去一年具身智能賽道的發(fā)展情況、熱點項目進行了梳理，以期留下關(guān)于過去的記錄，也提供未來的參照。同時，我們將始終保持敏銳的洞察力，持續(xù)追蹤并深入報道浪潮中的先行者，記錄下他們或曲折、或驚艷的探索與蛻變歷程。

本期，《科創(chuàng)板日報》記者對話自變量機器人（X Square）的創(chuàng)始人兼CEO王潛，邀請他分享在具身智能浪潮下的思考和洞察。

近期剛完成新一輪融資的自變量機器人（X Square）是賽道內(nèi)值得關(guān)注的玩家。這家成立僅一年的中國初創(chuàng)企業(yè)直接對標海外明星項目Physical Intelligence（估值達到20億美元），從創(chuàng)立之初就選擇了端到端統(tǒng)一大模型技術(shù)路線。公司正在訓(xùn)練的 Great Wall 操作大模型系列的 WALL-A模型，據(jù)稱是目前世界上參數(shù)規(guī)模最大的端到端統(tǒng)一具身智能大模型。

王潛本碩畢業(yè)于清華大學(xué)，是全球最早在神經(jīng)網(wǎng)絡(luò)中引入注意力機制的學(xué)者之一。博士期間，他在美國頂級機器人實驗室參與了多項 Robotics Learning 的研究，方向覆蓋了機器人多個前沿領(lǐng)域。

PART1|具身智能的GPT-3還有多遠

科創(chuàng)板日報：今天具身的技術(shù)路線還遠沒有收斂，圍繞 RL(強化學(xué)習(xí))和模仿學(xué)習(xí)，小模型VS大模型的討論一直在持續(xù)，自變量為什么從創(chuàng)立之初就選擇了端到端的統(tǒng)一大模型路線？

王潛：在機器人這條路上，主流的技術(shù)路線我都嘗試過，對各種技術(shù)路徑的瓶頸都很清楚。我自己從 2016 年開始做端到端的機器人模型，在2019年到2021年逐漸看清楚了統(tǒng)一大模型這個大方向的必然性。

首先，機器人的manipulation（操作）所面臨的物理交互非常復(fù)雜，雖然很多團隊本能會覺得這是一個CV（計算機視覺）問題，將物體的形態(tài)和環(huán)境的三維空間結(jié)構(gòu)進行重建來解決。但做到這里只是解決了manipulation問題的一半而已。

也有很多團隊下意識地選擇了非端到端的路線，通過模型分層分步的方法來做，表面上，這種方法似乎進展更快。但后續(xù)就會發(fā)現(xiàn)難度遠超預(yù)期。manipulation 和語言、圖像任務(wù)有著本質(zhì)區(qū)別，其核心在于物理交互過程的復(fù)雜性：真正的難點在于處理機器人和物理世界的接觸過程。

這決定了任何分層分步的方法都很難徹底解決manipulation問題，每分出一個步驟，都可能在中間引入一些不可控的噪聲，或是丟失一些信息。這樣，隨著多個子模型或分層步驟的疊加，問題逐步累積，最終導(dǎo)致manipulation任務(wù)的失敗。

在大模型出來前，強化學(xué)習(xí)被業(yè)界認為是最有機會的路線。當(dāng)時主流想法是進行大規(guī)模的 simulation（仿真），然后通過模擬到現(xiàn)實的路徑實現(xiàn)應(yīng)用。但在機器人manipulation這個領(lǐng)域，這條路線存在明確局限，其所能達到的效果上限較低，而且很難再有進一步突破。核心問題還是回到手部的操作，物理世界交互的復(fù)雜性導(dǎo)致模擬器和現(xiàn)實世界存在巨大差距。

另一方面，如果完全依賴現(xiàn)實世界的數(shù)據(jù)來訓(xùn)練模型，為每個任務(wù)單獨構(gòu)建一個模型，隨著任務(wù)復(fù)雜性的增加，所需的數(shù)據(jù)量也會指數(shù)級增長。那么，面對無限種類的任務(wù)，實際上需要無限的數(shù)據(jù)量，總體成本和難度不可控。

到2020年左右，GPT-2在向GPT-3進化的過程中，隨著模型學(xué)習(xí)任務(wù)數(shù)量不斷增長，其能力持續(xù)提升，已經(jīng)能夠看到一些少樣本學(xué)習(xí)現(xiàn)象的出現(xiàn)。

ChatGPT 是NLP（Natural Language Processing 自然語言處理）領(lǐng)域的Foundation model（通用模型），可以通過零樣本的方式，由一個模型完成所有任務(wù)。第一次有了用有限的數(shù)據(jù)量做無限種類的任務(wù)的可能性，這對機器人操作（manipulation）這個領(lǐng)域來說具有決定性意義，解決了長期以來最大的難題——數(shù)據(jù)不夠的問題。

Foundation model實際上是一條能夠明確跨越數(shù)據(jù)障礙的路徑。

科創(chuàng)板日報：在那個節(jié)點，你做了什么？

王潛：當(dāng)時我就意識到，未來具身智能的技術(shù)棧和之前完全不同，團隊一定是大模型背景的人為主。過去小模型背景的同學(xué)會更多關(guān)注如何為每個任務(wù)設(shè)計特定的模型結(jié)構(gòu)，但無法實現(xiàn)泛化。與之相反，大模型的人則重視的是如何通過工程化方式實現(xiàn)模型的scaling-up，直至達到完全通用

我自己已經(jīng)有了機器人的技術(shù)儲備，需要和大模型背景的頂尖專家搭配。所以就積極和他們接觸，在這樣的背景下認識了聯(lián)合創(chuàng)始人王昊。雙方算得上是一拍即合，王昊長期深耕在大模型領(lǐng)域，他一直在思考，大模型如何在真實世界落地。

相比于純虛擬的大模型，通過機器人讓AI在真實世界落地是更實際的一條路線。不止是王昊，我還與很多研究大模型的同行進行交流，能明顯感覺到大家的熱情和對這一領(lǐng)域發(fā)展的期待。

（背景補充：聯(lián)合創(chuàng)始人兼 CTO 王昊博士畢業(yè)于北京大學(xué)，在粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院（IDEA 研究院）期間擔(dān)任封神榜大模型團隊負責(zé)人，發(fā)布了國內(nèi)首個多模態(tài)大模型「太乙」，首批百億級大語言模型「燃燈 / 二郎神」及千億級大語言模型「姜子牙」，模型累計下載量數(shù)百萬。）

科創(chuàng)板日報：基于端到端的統(tǒng)一大模型路線，公司的進展如何？

王潛：我們的“端到端”包括兩個維度，一是從機器人獲取原始的感知數(shù)據(jù)（如視覺傳感器數(shù)據(jù)、觸覺傳感器數(shù)據(jù)等）開始，直接將這些數(shù)據(jù)輸入到模型中，由模型學(xué)習(xí)并輸出機器人的決策和操作動作，中間沒有任何分層分步的處理步驟。

第二個維度，是實現(xiàn)了不同任務(wù)的統(tǒng)一，所有的任務(wù)放在同一個模型中訓(xùn)練，推理也用同一模型進行操作。對于一切操作任務(wù)，在單一模型即可解決所有問題，因此稱之為「統(tǒng)一」模型。

海外的明星創(chuàng)業(yè)公司Skild AI、Physical Intelligence（PI）等目前都在走這條路線。從目前公開的信息（比如學(xué)術(shù)界的論文、公司公布的進展）來看，在全世界范圍內(nèi)，我們應(yīng)該都是屬于第一梯隊的，領(lǐng)先國內(nèi)的競爭對手大概半年左右時間。

現(xiàn)在我們正在訓(xùn)練的Great Wall系列（GW）的WALL-A模型，是目前世界上參數(shù)規(guī)模最大的端到端統(tǒng)一具身大模型，在處理長序列復(fù)雜任務(wù)，以及泛化性、通用性等方面的能力都超越了現(xiàn)有已知模型。

科創(chuàng)板日報：在規(guī)劃的路徑上，公司接下來會突破哪些瓶頸？

王潛：我個人認為，當(dāng)下的具身智能幾乎可以類比到GPT-2所處的時間點。不管是我們自己的模型，還是PI最近發(fā)布的π0模型，它們現(xiàn)在的能力和配置，大致相當(dāng)于GPT-2在大語言模型發(fā)展階段所達到的水平。

按照現(xiàn)在的進度，明年年底或者后年年初，預(yù)計就能實現(xiàn)一個類似GPT-3級別的具身智能大模型。

用泛化性來理解，我把泛化性分為四個層次。最基礎(chǔ)的泛化性，是對諸如光照變化、攝像頭位置變化、物體位置改變等基礎(chǔ)條件的泛化；

第二層是改變整個環(huán)境背景，例如之前是在桌面上操作，現(xiàn)在拿到廚房的玻璃臺上，是不是也能完成操作；

到了第三個層次，就需要具備推理、歸納的能力。舉例來說，以前只操作過一個杯子，能不能推廣至各種各樣完全不同的杯子上面去。任務(wù)是一樣的，但被操作的物體是機器人此前沒見過的，它還能不能完成？這明顯要比前兩層難很多；

在第四個層次，給機器人一個從未做過的任務(wù)，它能否想辦法去完成。舉一個相對極端的例子，比如給機器人一個九連環(huán)，它之前從來沒有解過九連環(huán)，是否能嘗試解開。

現(xiàn)在我們和PI的模型，在前三個層次上都體現(xiàn)出了很好的通用性、泛化性的能力，當(dāng)然遠沒有達到完美的程度。在第四層上，PI目前還沒有發(fā)布相關(guān)信息，但我們的模型已經(jīng)有一點點能夠自己發(fā)現(xiàn)新辦法的跡象了。

只有達到足夠的泛化性、通用性，才能在真實場景中解決問題，這是具身智能真正區(qū)別于以往機器人的核心。

科創(chuàng)板日報:隨著技術(shù)的成熟，在商業(yè)側(cè)做了哪些準備？

王潛：目前我們觀察下來，實現(xiàn)前三個層次的泛化性基本意味著可以在一個半封閉的或者是一個半開放的場景里去替代掉很多繁瑣的體力勞動。在商業(yè)化層面，也就具備了落地的可能。

我們早期還是要以to B為主，尤其是服務(wù)業(yè)的場景，會從里面優(yōu)先挑選一些，在技術(shù)上可以達到的、其他各方面維度都比較好的場景優(yōu)先去落地。

目前已經(jīng)在和潛在的客戶群接觸，大家的預(yù)期還是比較樂觀。我們的最終目標是要讓它進入千家萬戶，從B端走向C端。

科創(chuàng)板日報：按照這個節(jié)奏，現(xiàn)在產(chǎn)品從demo到量產(chǎn)驗證還有多久？

王潛：硬件具有特定的迭代周期，同時產(chǎn)品打磨也遵循其客觀規(guī)律。這意味著，做出一個產(chǎn)品的demo并不是特別難，花費時間也不會很長。但一款非常成熟的產(chǎn)品，仍需要很長時間去打磨，去驗證，包括需要在客戶場景里實際去落地測試，再基于對方的反饋重新調(diào)整。我們的節(jié)奏是硬件和模型同步迭代。

PART2|具身智能的未來在中國

科創(chuàng)板日報：現(xiàn)在全球范圍內(nèi)的具身智能公司都處于相對早期，你曾經(jīng)很明確地表示具身智能的未來在中國，是什么支持你做成這樣的判斷？

王潛：今天的大模型創(chuàng)業(yè)，和上一代AI階段已經(jīng)完全不一樣了。那個時候是算法驅(qū)動的，每家公司都需要大量的算法人員，去解決模型海量的corner case。以前自動駕駛動輒大幾千人的團隊，但當(dāng)大家開始做端到端模型之后，用人哲學(xué)就不是這樣了。

現(xiàn)在是數(shù)據(jù)驅(qū)動的時代，相較于過去對算法研發(fā)的廣泛投入，現(xiàn)在更需要通過大量工程化手段來實現(xiàn)大模型的優(yōu)化和落地，只要把盡可能多的算力集中在最高效的幾個人身上。目前海內(nèi)外頭部的大模型公司里，核心的算法團隊一般是小幾十個人，個別可以達到大幾十個人規(guī)模，都很精簡。

這樣的趨勢下，中國相對于美國而言，在工程師的人才密度上也具備優(yōu)勢。國內(nèi)高質(zhì)量的人才供應(yīng)完全可以滿足行業(yè)需求。

比起昂貴的算力成本，用相對有競爭力的價格招募高質(zhì)量的人才，是非常值得的事情。具身智能大模型的技術(shù)棧和以往非常不一樣，無論是純做機器人，還是純做大模型，投身具身大模型領(lǐng)域都存在技術(shù)躍遷的問題。我們希望吸引創(chuàng)新型人才，逐步培養(yǎng)他們的交叉技術(shù)能力，讓人才隨著公司一起發(fā)展。

另外，國內(nèi)的產(chǎn)業(yè)生態(tài)也更完善。中國在供應(yīng)鏈上的優(yōu)勢可能領(lǐng)先了美國一個數(shù)量級。例如數(shù)據(jù)收集工作，中國的成本基本上是美國的1/10。大語言模型公司可以通過把數(shù)據(jù)的工作外包到東南亞、肯尼亞等地區(qū)去控制成本。但機器人領(lǐng)域的數(shù)據(jù)采集需要一定的專業(yè)性，無法輕易外包出去，這又是和語言模型很不一樣的地方。

之前學(xué)術(shù)界已經(jīng)嘗試過多次，以異地外包、眾包的方式降低成本。但最終的結(jié)論是，這樣得來的數(shù)據(jù)在質(zhì)量上很難達到要求。如果要滿足質(zhì)量要求，最好還是在本地完成。

那么，中國的綜合成本一定是全世界最好的，成本疊加效率，美國很多時候可能比中國就不只差一個數(shù)量級了，要慢更多的時間。像我們在深圳，定制一個零件幾天就搞定了，在美國就需要幾個月甚至更久。具身智能是個軟硬件結(jié)合的領(lǐng)域，硬件上的效率差距，也會造成極大影響。

科創(chuàng)板日報：提到生態(tài)，現(xiàn)在國內(nèi)的具身智能創(chuàng)業(yè)公司扎堆涌現(xiàn)，你們也參與了華為(深圳)全球具身智能產(chǎn)業(yè)創(chuàng)新中心，對于現(xiàn)在的產(chǎn)業(yè)生態(tài)怎么理解？

王潛：我覺得這是一件好事情，能看到大家有各自擅長的地方，想法也不同。我們最擅長的就是模型，包括手部的操作，目前全部精力集中在這一方向。對于一些其他的零部件，如移動底盤等，我們還是非常希望能和合作伙伴一起去完善。

機器人的市場空間足夠大，產(chǎn)業(yè)鏈還在逐步成熟的過程中，我們希望和生態(tài)伙伴一起推動行業(yè)的良性發(fā)展。

這一波熱潮中，有認真做事的公司，同時也存在泡沫。部分玩家確實存在過度包裝以獲取資本流量的現(xiàn)象，而對于技術(shù)發(fā)展及落地與否并不真正關(guān)心，這確實會影響行業(yè)良序發(fā)展。

科創(chuàng)板日報：基于生態(tài)的理解，你們是不是未來有機會去賦能其他公司的產(chǎn)品？

王潛：是的，我們一直在和合作伙伴嘗試生態(tài)共建。機器人包含的子領(lǐng)域眾多，每個子領(lǐng)域都有極強的專業(yè)性。例如對于硬件設(shè)計，可能需要專門針對某個環(huán)境的特殊要求進行定制化設(shè)計，甚至為了調(diào)整一個零件，就需要耗費兩年之久進行反復(fù)調(diào)試。這種情況明顯不適合我們?nèi)プ觥?

國內(nèi)的生態(tài)更適合共生模式，不同公司基于自身的稟賦，擅長做哪些事情、哪些場景，以及哪些技術(shù)，然后共同發(fā)揮優(yōu)勢，形成一個產(chǎn)業(yè)的生態(tài)，一起走下去。

閱107.91W

我要評論

反饋意見

歡迎您發(fā)表有價值的評論，發(fā)布廣告和不和諧的評論都將會被刪除，您的賬號將禁止評論。

發(fā)表評論

要聞

股市

關(guān)聯(lián)話題

科創(chuàng)板最新動態(tài)

0 人關(guān)注

+ 關(guān)注

首頁

電報

話題

盯盤

VIP

FM

投研

下載

頭條

A股

港股

環(huán)球

公司

券商

基金·ETF

地產(chǎn)

金融

汽車

科創(chuàng)

品見

PART1|具身智能的GPT-3還有多遠

PART2|具身智能的未來在中國