亚洲欧美日韩成人一区在线,亚洲97

智源研究院發(fā)布世界模型Emu3 多模態(tài)AGI漸行漸近？

原創(chuàng)

2024-10-22 10:49 星期二

科創(chuàng)板日報記者李明明

①據(jù)介紹，Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn)；
②目前，多模態(tài)生成模型的發(fā)展相對滯后，該領(lǐng)域未來的發(fā)展?jié)摿^大。

《科創(chuàng)板日報》10月22日訊（記者李明明）日前，人工智能領(lǐng)域的新型研發(fā)機構(gòu)智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)介紹，該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。

當(dāng)前，行業(yè)現(xiàn)有的多模態(tài)大模型多為對于不同任務(wù)而訓(xùn)練的專用模型，比如Stable Diffusion之于文生圖，Sora之于文生視頻，GPT-4V之于圖生文。但是現(xiàn)有模型的能力多為單一分散的能力組合，而不是原生的統(tǒng)一能力，比如目前Sora還做不到圖像和視頻的理解。

而下一token預(yù)測被認為是通往AGI的可能路徑，但這種范式在語言以外的多模態(tài)任務(wù)中沒有被證明。

智源研究院院長王仲遠告訴《科創(chuàng)板日報》記者，“Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn)，這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上，為大規(guī)模的多模態(tài)訓(xùn)練和推理提供基礎(chǔ)，這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。同時，該訓(xùn)練技術(shù)能夠以較大程度復(fù)用現(xiàn)有的大模型訓(xùn)練基礎(chǔ)設(shè)施，降低了對新基礎(chǔ)設(shè)施的需求，從而加速多模態(tài)大模型的迭代和最終落地。未來，多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應(yīng)用。而多模態(tài)大模型通過統(tǒng)一表示空間實現(xiàn)了跨模態(tài)的統(tǒng)一訓(xùn)練和生成，展現(xiàn)巨大潛力?！?/p>

一位大模型領(lǐng)域?qū)＜乙矊Α犊苿?chuàng)板日報》記者分析，當(dāng)前，視覺的理解模型和生成模型各自分開獨立發(fā)展，這也是多模態(tài)領(lǐng)域面臨的問題，也會造成生成模型的生成能力強而理解能力弱，或者理解模型的理解能力強而生成能力弱。因此，多模態(tài)大模型亟需將理解和生成統(tǒng)一在一個模型里。目前，多模態(tài)生成模型的發(fā)展相對滯后，該領(lǐng)域未來的發(fā)展?jié)摿^大。

（圖注：Emu3圖片理解案例）

具體就Emu3如何實現(xiàn)圖像、視頻和文字的統(tǒng)一輸入和輸出，王仲遠總結(jié)道，團隊構(gòu)建了一個統(tǒng)一的Tokenizer系統(tǒng)，將文本、圖像、視頻等各種模態(tài)信息映射到一個離散空間，并通過auto Regressive的方式進行統(tǒng)一訓(xùn)練和生成。這相當(dāng)于為文字、圖像、視頻發(fā)明了一種統(tǒng)一的“新語言”，可以在同一空間中表達。

王仲遠表示，“Emu3 會為未來多模態(tài)基座模型的發(fā)展指明一個方向，是下一代的多模態(tài)大模型的訓(xùn)練范式。對于這樣的技術(shù)路線，需要各界共同努力，才能加速多模態(tài)基座模型的發(fā)展。期待在產(chǎn)業(yè)轉(zhuǎn)化過程中，Emu3能夠像悟道系列，與各大模型公司、互聯(lián)網(wǎng)企業(yè)等合作，共同推進技術(shù)的應(yīng)用?！?/p>

閱70.96W

我要評論

反饋意見