推理算力需求或達訓練10倍 英特爾旗艦CPU加碼AI推理 帶動多廠服務器新品排隊面市|行業(yè)觀察
原創(chuàng)
2024-09-28 21:55 星期六
財聯(lián)社記者 付靜
①多家芯片、云廠商盯上推理的蛋糕,英特爾CPU亦瞄準推理需求,已可以面向10B模型做推理。
②基于至強新品,多款服務器新品將密集面市,國內數據中心預期步入新發(fā)展階段。
③眾多從業(yè)者認為算力需求將持續(xù)增長,未來推理需求規(guī)模或將達到訓練需求的5-10倍。

財聯(lián)社9月28日訊(記者 付靜)“可能在短期或中短期內,市場焦點會集中在一些大型通用模型上,然而對于AI來說,更廣闊的應用空間實際上是在推理場景中?!苯照匍_的英特爾?至強?6性能核處理器發(fā)布會后,英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案和數據中心銷售部總經理梁雅莉在接受財聯(lián)社記者采訪時表示。

據財聯(lián)社記者多方采訪梳理獲悉,當前國內大模型廠商算力成本至少七成仍用于訓練端,而未來推理將成“大模型下半場”。海內外眾多廠商均已盯上推理算力的蛋糕,芯片巨頭英特爾服務器CPU至強(Xeon)系列重量級新品亦瞄準推理市場需求,直接帶動多家服務器廠商新品于今年9月起至明年一季度密集面市,國內數據中心預期步入新發(fā)展階段。

推理算力需求或達訓練10倍 供給端緊盯蛋糕

“實際上,在AI技術的實際應用落地過程中,用戶感受最直觀、最強烈的往往是推理環(huán)節(jié)的性能表現。雖然過去我們一直在強調大模型訓練的重要性,但真正到了企業(yè)應用層面,推理的需求規(guī)模往往是訓練需求的5-10倍?!闭驹谕评硭懔π枨笠暯牵瞎夤煞荩?00938.SZ)旗下新華三集團計算存儲產品線副總裁劉宏程向財聯(lián)社記者表示。

他進一步告訴財聯(lián)社記者,通用模型應用于具體行業(yè)時,往往需要結合企業(yè)數據進行私有化微調與推理?!巴ㄓ么竽P偷耐度氤杀具^高,很多企業(yè)難以承擔,而且投入與產出的時間比也較長。因此,企業(yè)更傾向于在通用模型的基礎上進行微調,以滿足自身特定需求,并通過推理來實現應用落地?!?/p>

財聯(lián)社記者采訪了解到,眾多從業(yè)者認為算力需求將持續(xù)增長,對行業(yè)發(fā)展前景持樂觀態(tài)度。

“我們認為能夠在‘百模大戰(zhàn)’競爭中生存下來的通用大模型數量將非常有限,可能不會超過一只手能數得過來的數量。某些參與者可能會面臨巨大挑戰(zhàn),甚至被市場淘汰。但從整個市場的角度來看,訓練規(guī)模的需求仍然非常龐大。此外,當所有的通用模型和私域模型都達到可用并準備變現的階段時,我們預測將會有一個規(guī)模達到訓練市場5到10倍的推理市場等待著我們。算力投入預計將在未來5-10年內保持高速增長?!眲⒑瓿谭Q。

站在供給視角,據財聯(lián)社記者觀察,國內炙手可熱的華為、近期因啟動IPO頗受關注的GPU獨角獸燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等眾多芯片廠商紛紛加碼AI推理競賽。與此同時,Meta、微軟、OpenAI等廠商亦透露親自下場做推理芯片的計劃,其中Meta上半年已正式發(fā)布MTIA v2芯片。

財聯(lián)社記者問及英特爾如何看待推理算力供給側的蓬勃趨勢,梁雅莉稱,前述廠商親自開發(fā)推理芯片,“一方面是因為需求旺盛,另一方面也是為了尋找價值和性能之間的平衡?!?/p>

她認為,推理算力需求下,硬件架構和性能固然重要,更重要的是軟件的優(yōu)化和整體系統(tǒng)的設計。軟件層面,比如深度學習框架需要不斷優(yōu)化;整體系統(tǒng)設計層面,無論CPU、GPU甚至FPGA,最重要的是如何與產業(yè)的每一個具體場景深度融合。

CPU可用于10B模型推理 推動服務器革新

英特爾最新至強6性能核處理器(代號Granite Rapids)的發(fā)布,使得AI推理算力賽道迎來更強勁的CPU選手。

據悉,至強6性能核采用分離式模塊化設計,包括Intel 3工藝的計算模塊、Intel 7工藝的I/O模塊;最高配備128個X86內核,支持高達每秒6400MT的DDR5內存、每秒8800MT的MRDIMM內存、6條UPI 2.0鏈路(速率達每秒24 GT),96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存。

英特爾至強6能效核處理器(代號Sierra Forest)曾于今年6月推出,針對高核心密度和規(guī)模擴展任務所需的高效能優(yōu)化,而性能核處理器則面向計算密集型和AI工作負載所需的高性能進行優(yōu)化。

公開資料顯示,至強是英特爾為與普通個人電腦市場作區(qū)分研制推出的服務器CPU品牌,該產品線面向中高端企業(yè)級服務器、工作站市場。英特爾數據中心與人工智能集團副總裁兼中國區(qū)總經理陳葆立透露,現有AI服務器中大部分機頭CPU仍是英特爾CPU?;谟⑻貭枴八哪晡鍌€制程節(jié)點”戰(zhàn)略,2024年至強6系列采用了Intel 3制程工藝。

據悉,自第四代至強起,英特爾針對AI加速推出專屬指令集“英特爾?高級矩陣擴展(下稱AMX)”,使得CPU能夠支持市面常見大模型的推理計算,第四代、第五代至強可以用于處理6B、7B甚至13B的模型,正被業(yè)內大量使用中。而在第六代至強中,AMX亦做出升級。

財聯(lián)社記者于發(fā)布會現場獲悉,從實際推理表現看,針對70億參數的Llama2大模型推理,至強6性能核相比第五代至強單顆CPU性能和每瓦特性能分別有3.08倍、2.16倍提升;針對80億參數的Llama3,則分別有2.40倍、1.68倍提升。

image

(受訪者供圖)

“2年前,一個主流服務器搭配的至強處理器應該是24-48核。相比上一代,至強6性能核性能裝備從64核到128核,單核性能提升1.2倍。”陳葆立在發(fā)布會上稱。

據財聯(lián)社記者觀察,除了CPU內核數及整體性能提升,在GPU用于AI推理被視作主流的當下,這款CPU加碼推理的意義更在于帶動國內數據中心步入新發(fā)展階段。

劉宏程認為,融合架構相比單一GPU服務器更符合企業(yè)私有化微調、推理的需求?!耙驗閷τ谒接蛐∫?guī)模的訓練和推理任務來說,融合架構的投資回報率更高,能更有效地利用資源?!?/p>

梁雅莉亦告訴財聯(lián)社記者,“未來的市場環(huán)境下,性能和成本必須做平衡考慮。尤其是對于推理場景,只追求性能是欠妥的,企業(yè)最終要平衡的是在這樣一個場景下耗費的算力成本是多少,以及它如何轉化為企業(yè)的商業(yè)價值,最終大家都需要進行成本效益分析?!?/p>

財聯(lián)社記者注意到,由于生成式AI算力需求持續(xù)增長,在本月受業(yè)內關注的兩大互聯(lián)網巨頭的“主場”2024騰訊全球數字生態(tài)大會、2024云棲大會上,圍繞英特爾至強6性能核的討論聲就已逐漸增多。

而OEM廠商方面,超聚變服務器產品總經理朱勇對財聯(lián)社在內的媒體表示,基于通用場景的CPU推理可實現“一芯多用”:“現在CPU已經發(fā)展到可以去做一些10Billion左右的大模型推理場景,這為客戶帶來的優(yōu)勢是能夠降低TCO?!?/p>

“過去我們常常區(qū)分通用服務器和GPU服務器,但在這一代至強6服務器上,我們實現了一個融合基礎設施,即能夠同時兼顧通用計算和GPU加速的需求。這種融合將加速各行業(yè)對新技術應用的推動,因為用戶不再需要在不同類型的服務器之間做出選擇,而是可以更加靈活地應對多樣化的計算需求。”劉宏程稱。

此外財聯(lián)社記者獲悉,浪潮信息(000977.SZ)、超聚變、新華三、中興通訊(000063.SZ)、聯(lián)想等廠商基于英特爾至強6性能核處理器的服務器新品將陸續(xù)面市。

收藏
85.17W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關聯(lián)話題
6244 人關注