智源研究院發(fā)布世界模型Emu3 多模態(tài)AGI漸行漸近?
原創(chuàng)
2024-10-22 10:49 星期二
科創(chuàng)板日報記者 李明明
①據(jù)介紹,Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn);
②目前,多模態(tài)生成模型的發(fā)展相對滯后,該領(lǐng)域未來的發(fā)展?jié)摿^大。

《科創(chuàng)板日報》10月22日訊(記者 李明明)日前,人工智能領(lǐng)域的新型研發(fā)機構(gòu)智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)介紹,該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

當(dāng)前,行業(yè)現(xiàn)有的多模態(tài)大模型多為對于不同任務(wù)而訓(xùn)練的專用模型,比如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。但是現(xiàn)有模型的能力多為單一分散的能力組合,而不是原生的統(tǒng)一能力,比如目前Sora還做不到圖像和視頻的理解。

而下一token預(yù)測被認為是通往AGI的可能路徑,但這種范式在語言以外的多模態(tài)任務(wù)中沒有被證明。

智源研究院院長王仲遠告訴《科創(chuàng)板日報》記者,“Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模的多模態(tài)訓(xùn)練和推理提供基礎(chǔ),這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。同時,該訓(xùn)練技術(shù)能夠以較大程度復(fù)用現(xiàn)有的大模型訓(xùn)練基礎(chǔ)設(shè)施,降低了對新基礎(chǔ)設(shè)施的需求,從而加速多模態(tài)大模型的迭代和最終落地。未來,多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應(yīng)用。而多模態(tài)大模型通過統(tǒng)一表示空間實現(xiàn)了跨模態(tài)的統(tǒng)一訓(xùn)練和生成,展現(xiàn)巨大潛力?!?/p>

一位大模型領(lǐng)域?qū)<乙矊Α犊苿?chuàng)板日報》記者分析,當(dāng)前,視覺的理解模型和生成模型各自分開獨立發(fā)展,這也是多模態(tài)領(lǐng)域面臨的問題,也會造成生成模型的生成能力強而理解能力弱,或者理解模型的理解能力強而生成能力弱。因此,多模態(tài)大模型亟需將理解和生成統(tǒng)一在一個模型里。目前,多模態(tài)生成模型的發(fā)展相對滯后,該領(lǐng)域未來的發(fā)展?jié)摿^大。

image

(圖注:Emu3圖片理解案例)

具體就Emu3如何實現(xiàn)圖像、視頻和文字的統(tǒng)一輸入和輸出,王仲遠總結(jié)道,團隊構(gòu)建了一個統(tǒng)一的Tokenizer系統(tǒng),將文本、圖像、視頻等各種模態(tài)信息映射到一個離散空間,并通過auto Regressive的方式進行統(tǒng)一訓(xùn)練和生成。這相當(dāng)于為文字、圖像、視頻發(fā)明了一種統(tǒng)一的“新語言”,可以在同一空間中表達。

王仲遠表示,“Emu3 會為未來多模態(tài)基座模型的發(fā)展指明一個方向,是下一代的多模態(tài)大模型的訓(xùn)練范式。對于這樣的技術(shù)路線,需要各界共同努力,才能加速多模態(tài)基座模型的發(fā)展。期待在產(chǎn)業(yè)轉(zhuǎn)化過程中,Emu3能夠像悟道系列,與各大模型公司、互聯(lián)網(wǎng)企業(yè)等合作,共同推進技術(shù)的應(yīng)用?!?/p>

收藏
70.96W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
4.22W 人關(guān)注
8525 人關(guān)注