對話智源研究院副院長林詠華:當下已進入語言模型深水區(qū) 預計2025年會出現(xiàn)更多新的多模態(tài)模型
原創(chuàng)
2024-12-20 15:35 星期五
科創(chuàng)板日報記者 李明明
①智源評測發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實際應用,語言模型發(fā)展相對放緩;②林詠華告訴《科創(chuàng)板日報》記者,2025年,基于語言模型會產(chǎn)生更多的Agent,然后圍繞Agent來做更復雜的AI應用和系統(tǒng)。

《科創(chuàng)板日報》20日訊(記者 李明明)近日,智源研究院發(fā)布并解讀國內(nèi)外100余個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結(jié)果。

智源評測發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實際應用。多模態(tài)模型發(fā)展迅速,涌現(xiàn)了不少新的廠商與新模型,語言模型發(fā)展相對放緩。模型開源生態(tài)中,除了持續(xù)堅定開源的海內(nèi)外機構(gòu),還出現(xiàn)了新的開源貢獻者。

就評測結(jié)果顯示當前語言模型發(fā)展放緩的具體原因,智源研究院副院長兼總工程師林詠華在接受《科創(chuàng)板日報》記者采訪時表示,首先,現(xiàn)在最優(yōu)秀的語言模型已經(jīng)發(fā)展了一定的基礎(chǔ)能力,再明顯的增長不是特別容易,不能只是拼更大的參數(shù)或更多的數(shù)據(jù)這條路,而是需要更多的深入創(chuàng)新才能提升,因此,會看到更新更大的語言模型出現(xiàn)的頻率有所減緩,因此現(xiàn)在進入了語言模型的深水區(qū)。

從全球模型的發(fā)展情況來看,模型尺寸出現(xiàn)兩極分化。11月Hugging Face下載量最高的模型顯示,高下載量出現(xiàn)在兩極分化的模型上,一類是更大更強的稠密模型,像Llama3.1的405B全球一個月的下載量是七八百萬,也是下載量最高之一。但是剩下的高下載量則很多是7B或以下的小模型。

“其次,可以看到多模態(tài)模型的潛力。目前多模態(tài)模型的需求蓬勃發(fā)展,但是,相較語言模型來說,其在基礎(chǔ)能力上有明顯的提升空間。2025年,預計多模態(tài)模型會層出不窮,包括開源模型,會有更多新的多模態(tài)模型?!?林詠華說。

“百?!痹u測結(jié)果:文生視頻模型畫質(zhì)進一步提升 但普遍存在大幅度動作變形等問題

智源研究院評測結(jié)果顯示,語言模型,針對一般中文場景的開放式問答或者生成任務,模型能力已趨于飽和穩(wěn)定,但是復雜場景任務的表現(xiàn),國內(nèi)頭部語言模型仍然與國際一流水平存在顯著差距。

在語言模型主觀評測重點考察模型中文能力方面,結(jié)果顯示字節(jié)跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

在視覺語言多模態(tài)模型方面,雖然開源模型架構(gòu)趨同(語言塔+視覺塔),但表現(xiàn)不一,其中較好的開源模型在圖文理解任務上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別以及復雜圖文數(shù)據(jù)分析能力仍有提升空間。評測結(jié)果顯示,OpenAI GPT-4o-2024-11-20與字節(jié)跳動Doubao-Pro-Vision-32k-241028先后領(lǐng)先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其后。

在文生圖多模態(tài)模型方面,今年上半年參評的模型普遍無法生成正確的中文文字,但此次參評的頭部模型已經(jīng)具備中文文字生成能力,但整體普遍存在復雜場景人物變形的情況,針對常識或知識性推理任務,小于3的數(shù)量關(guān)系任務表現(xiàn)有所提升,大于3的數(shù)量關(guān)系依然無法處理,涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰(zhàn)。評測結(jié)果顯示,騰訊Hunyuan Image位列第一,字節(jié)跳動Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。

在文生視頻多模態(tài)模型方面,畫質(zhì)進一步提升,動態(tài)性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規(guī)律,物體消失、閃現(xiàn)、穿模的情況。評測結(jié)果顯示,快手可靈1.5(高品質(zhì))、字節(jié)跳動即夢 P2.0 pro、愛詩科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于語言模型會產(chǎn)生更多Agent

隨著技術(shù)的不斷成熟和應用場景的不斷拓展,多模態(tài)大模型也在各個領(lǐng)域發(fā)揮越來越重要的作用。相應的各家大模型廠商去年目標多是追逐AGI,今年則開始發(fā)力應用。

對于AGI和應用這兩者的優(yōu)先級,林詠華告訴《科創(chuàng)板日報》記者,通過整理今年5月和12月的兩組對比數(shù)據(jù),可以看到,以語言模型為例,追逐更大更強的語言模型,尤其是開源模型的這些廠商數(shù)量在減少;同時,本次評測的開源模型中,國內(nèi)新出現(xiàn)的廠商較少。

因此,對于國內(nèi)大模型廠商來說,很多廠商經(jīng)過一年多的訓練,其模型能力已經(jīng)到達了一定應用的可能性,需要盡快做應用落地。

林詠華進一步表示,如今依然還有少部分的廠商和機構(gòu)會在AGI的路上不斷往前走,例如META今年推出了405B的超大模型,其全球下載量也很大,智源發(fā)布的Emu3也是完全原生的多模態(tài)世界模型等。因此目前的趨勢是,全球開始有分層有分工地追求AGI,一部分不斷地追求更強更大的AGI模型,另一部分則希望有好的模型做應用嘗試。

但是,今年沒有特別明顯的killer APP出來,智源從評測的眾多模型來看,明年AI應用的趨勢會體現(xiàn)在哪些方面?

對此,林詠華告訴《科創(chuàng)板日報》記者,AI應用的具體情況和模型發(fā)展到什么階段相關(guān)。例如,今年很多AI應用是以語言模型為基礎(chǔ),經(jīng)過2023年語言模型的蓬勃發(fā)展,2024年語言模型基礎(chǔ)能力水平較高,并開始發(fā)展復雜的應用能力,所以出現(xiàn)以各種的語言模型為支撐的AI應用。

2025年,語言模型會繼續(xù)往前發(fā)展,基于語言模型會產(chǎn)生更多的Agent,然后圍繞Agent來做更復雜的AI應用和系統(tǒng),這也是明年的熱點之一。

同時,經(jīng)過今年的發(fā)展,無論是開源模型,還是閉源模型,2025年都會出現(xiàn)基于文生圖、尤其是文生視頻的應用。

另外,如果從模型的能力上看,以VLM多模態(tài)為代表的跨模態(tài)視覺語言模型,在企業(yè)的落地場景會有很多,現(xiàn)在有一些已經(jīng)落地,有一些還在探索當中。明年把基礎(chǔ)能力做得更好,也會形成新的AI應用。

如今,互聯(lián)網(wǎng)科技巨頭大力推多模態(tài)大模型,而且算力和算法等也是這些巨頭的優(yōu)勢。那么,相對于巨頭以及先崛起的AI六小龍,目前正待崛起的小的模型企業(yè),他們的機會在哪?

林詠華認為,多模態(tài)模型有不同的訓練方法,如果用VLM的做法,通過語言塔加視覺塔為基礎(chǔ)進行訓練,不需要完全從頭開始。 此外,多模態(tài)模型上可以有不同的創(chuàng)新,比如,不同模態(tài)的連接方式、預處理、后處理、微調(diào)學習、強化學習等,是那些資金不強但是創(chuàng)新能力足夠強的團隊可以做的事情。

此外,林詠華還表示,互聯(lián)網(wǎng)大廠在模型的技術(shù)能力上有兩方面的優(yōu)勢。

“首先,語言模型需要更多的用戶使用,才能起到數(shù)據(jù)飛輪的作用,互聯(lián)網(wǎng)大廠有很強的流量優(yōu)勢,對比流量小的模型廠商有天然的優(yōu)勢;其次,在文生圖、文生視頻方面,像字節(jié)、快手的優(yōu)勢在于數(shù)據(jù),其本身有短視頻平臺,積累了相關(guān)的高質(zhì)量數(shù)據(jù),會比其他的非互聯(lián)網(wǎng)廠商有明顯的優(yōu)勢?!?/p>

收藏
131.36W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
0 人關(guān)注
0 人關(guān)注