截至目前,思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù),已授權(quán)知識(shí)產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項(xiàng),軟件著作權(quán)近400項(xiàng),牽頭/參與了近50項(xiàng)國家/團(tuán)體標(biāo)準(zhǔn)。
《安安訪談錄》是界面財(cái)聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談?lì)悪谀?。從投資角度對(duì)話1000位行業(yè)領(lǐng)軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務(wù)、金融科技、交易體系、戰(zhàn)略新興等方向。
《財(cái)專訪》是由《安安訪談錄》出品的系列專訪,財(cái)聯(lián)社上市公司報(bào)道部聚焦行業(yè)熱點(diǎn),通過專訪各類專家、領(lǐng)軍人物,致力尋找投資價(jià)值標(biāo)的,還原行業(yè)發(fā)展邏輯。
本期訪談人物:
思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家 俞凱
“GPT是人工智能發(fā)展的一個(gè)集中式突破,包括對(duì)話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破?!?/p>
▍個(gè)人介紹
思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授。
清華大學(xué)本科、碩士,劍橋大學(xué)博士。
入選國家級(jí)重大人才工程,上海市“東方學(xué)者”特聘教授。
IEEE Speech and Language Processing Technical Committee 委員(2017-2019),中國計(jì)算機(jī)學(xué)會(huì)語音對(duì)話及聽覺專委會(huì)副主任,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長。世界頂尖科學(xué)家論壇(World Laureates Forum)青年科學(xué)家委員會(huì)委員,全國信標(biāo)委用戶界面分委會(huì)委員。
發(fā)表200余篇國際論文,獲得多個(gè)國際研究挑戰(zhàn)賽冠軍,擔(dān)任Inter Speech、ICMI等國際會(huì)議程序委員會(huì)主席和ACL、NAACL、EMNLP等國際會(huì)議對(duì)話交互領(lǐng)域主席。
曾獲中國人工智能學(xué)會(huì)吳文俊人工智能科學(xué)進(jìn)步獎(jiǎng)、中國計(jì)算機(jī)學(xué)會(huì)青竹獎(jiǎng)、2016年《科學(xué)中國人》年度人物。
▍第一標(biāo)簽
引領(lǐng)人工智能領(lǐng)域發(fā)展的長期主義者
▍公司簡介
思必馳基于自主研發(fā)的全鏈路智能對(duì)話系統(tǒng)定制開發(fā)平臺(tái)和人工智能語音芯片,圍繞“云+芯”進(jìn)行布局,提供軟硬件結(jié)合的人工智能技術(shù)與產(chǎn)品服務(wù),在智能家電、智能汽車、消費(fèi)電子等物聯(lián)網(wǎng)領(lǐng)域以及數(shù)字政企領(lǐng)域,提供智能人機(jī)交互軟件產(chǎn)品、軟硬一體化人工智能產(chǎn)品以及對(duì)話式人工智能技術(shù)服務(wù)。截至目前,思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù),已授權(quán)知識(shí)產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項(xiàng),軟件著作權(quán)近400項(xiàng),牽頭/參與了近50項(xiàng)國家/團(tuán)體標(biāo)準(zhǔn)。
2022年11月30日上線的人工智能聊天機(jī)器人模型ChatGPT近期火爆全球,僅僅2個(gè)月即實(shí)現(xiàn)月活破億。伴隨著ChatGPT的出圈,不僅海外科技巨頭微軟、谷歌打響AI搜索大戰(zhàn),國內(nèi)包括百度、阿里、騰訊、華為、京東、網(wǎng)易有道等大廠在內(nèi)的諸多科技公司均已披露相關(guān)方向的研發(fā)進(jìn)展。
國內(nèi)專業(yè)對(duì)話式人工智能平臺(tái)型企業(yè)思必馳已掌握全鏈路語音及語言交互技術(shù),涵蓋語音信號(hào)處理、識(shí)別、合成、語言理解、問答聊天、知識(shí)圖譜等人機(jī)信息交互閉環(huán)涉及的各個(gè)模塊級(jí)技術(shù),能夠感知用戶意圖和情感,并基于用戶畫像實(shí)現(xiàn)擬人化的語言風(fēng)格互動(dòng)。
日前思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱接受了記者專訪,就思必馳在類ChatGPT對(duì)話機(jī)器人方面的研發(fā)進(jìn)展、ChatGPT問世對(duì)于行業(yè)的意義、海內(nèi)外玩家差距、生成式AI面臨的挑戰(zhàn)等話題進(jìn)行分享。
01
——————————
思必馳的語音和語義通用基礎(chǔ)模型已達(dá)到億級(jí)參數(shù)
Q:在類ChatGPT的對(duì)話機(jī)器人研發(fā)方面,公司目前有何進(jìn)展?
俞凱:在技術(shù)的迭代發(fā)展上,ChatGPT本質(zhì)就是一個(gè)統(tǒng)計(jì)類的深度學(xué)習(xí)對(duì)話通用大模型。
思必馳應(yīng)該算是國內(nèi)最早一批去進(jìn)行統(tǒng)計(jì)類對(duì)話模型的產(chǎn)業(yè)化研究的公司之一,并且在任務(wù)型對(duì)話上也取得了很多很好的研究成績和應(yīng)用成績。思必馳已有的語音和語義的通用基礎(chǔ)模型,已經(jīng)達(dá)到億級(jí)參數(shù)。
在通用基礎(chǔ)模型技術(shù)方面,目前思必馳使用千塊GPU卡量級(jí)的超算資源,正在整合擴(kuò)展資源,在已有算法研究和數(shù)據(jù)積累的基礎(chǔ)上,將億級(jí)參數(shù)模型擴(kuò)展到百億以上量級(jí)。
Q:在類ChatGPT的對(duì)話機(jī)器人研發(fā)方面,公司未來有何計(jì)劃?
俞凱:現(xiàn)在的ChatGPT還是以文本機(jī)器人的形式來出現(xiàn),我相信這只是一個(gè)開始,未來一定會(huì)往語音對(duì)話機(jī)器人去進(jìn)階,會(huì)逐漸強(qiáng)化對(duì)語音和文本的深度融合。在聽覺感知技術(shù)方面,思必馳能夠?qū)崿F(xiàn)高精度的語音轉(zhuǎn)文字和高質(zhì)量的聲音播報(bào)效果;能夠解決在人機(jī)交互過程中面臨的遠(yuǎn)距離、復(fù)雜聲場的多噪音干擾、多說話人判斷;滿足用戶對(duì)方言、外語的識(shí)別及合成的需求。
在聊天機(jī)器人方向,融合語音、文本、圖像信號(hào)的多模態(tài)交互技術(shù)也有很大機(jī)會(huì)。以當(dāng)前新起的虛擬數(shù)字人為例,多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對(duì)不同場景的復(fù)雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。在多模態(tài)及交互技術(shù)方向,思必馳公司在業(yè)界率先發(fā)布了全雙工對(duì)話架構(gòu),形成了獨(dú)特的閉環(huán)人機(jī)對(duì)話系統(tǒng)構(gòu)建的底層綜合技術(shù)優(yōu)勢,與國際主流先進(jìn)技術(shù)相比,取得聲紋驗(yàn)證、語音分離等指標(biāo)的顯著提升。
02
——————————
ChatGPT是繼Alpha Go之后最大的里程碑進(jìn)步
Q:您怎么看此次ChatGPT火出圈?可能存在哪些原因?
俞凱:ChatGPT可以算是繼Alpha Go之后最大的一個(gè)里程碑進(jìn)步。Alpha Go解決的是確定規(guī)則情況下的搜索和處理,而GPT在無確定語法規(guī)則前提下,部分解決了自然語言交互的問題。我們并不能把GPT簡單理解為某一個(gè)特定單點(diǎn)技術(shù)的突破,而是人工智能發(fā)展的一個(gè)集中式突破,包括其中的對(duì)話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破。
ChatGPT爆火還有個(gè)原因,即產(chǎn)業(yè)應(yīng)用的需求對(duì)技術(shù)的召喚得到了回應(yīng)。各種智能硬件發(fā)展到現(xiàn)在,功能上逐漸愈發(fā)同質(zhì)化,體驗(yàn)上也很難做出自己的特色。ChatGPT的創(chuàng)作能力則滿足了產(chǎn)業(yè)應(yīng)用級(jí)的需求,打開了新的空間。
Q:據(jù)路透社記者統(tǒng)計(jì),AI、生成式 AI、機(jī)器學(xué)習(xí)等詞出現(xiàn)在美國科技巨頭最新季財(cái)報(bào)會(huì)議中的頻率是上一季度的2-6倍。巨頭紛紛發(fā)力生成式 AI,您認(rèn)為有哪些原因?
俞凱:本質(zhì)上,是因?yàn)樯墒紸I在落地應(yīng)用后,更能達(dá)成用戶對(duì)“智能人機(jī)交互體驗(yàn)”需求的滿足程度。生成式AI更強(qiáng)調(diào)學(xué)習(xí)、歸納后的創(chuàng)造、推理,生成式AI的創(chuàng)作能力則是以內(nèi)容創(chuàng)作為主,用來輔助人類決策。用戶對(duì)“輔助”的標(biāo)準(zhǔn)會(huì)低一些、寬容度會(huì)高一些、安全性和準(zhǔn)確性的期望值也會(huì)低一些,更容易引起大家的關(guān)注和期待。
其次,生成式AI有“創(chuàng)作性”的天然屬性:即沒有絕對(duì)的正確錯(cuò)誤之分,甚至有些仁者見仁、智者見智的意味。決策性AI的結(jié)果一旦錯(cuò)誤,很容易被詬病;而內(nèi)容創(chuàng)作的多樣性結(jié)果,則會(huì)被欣然接受。比如,現(xiàn)在的ChatGPT,在對(duì)一些事實(shí)性內(nèi)容的結(jié)果是不太準(zhǔn)確的,但大家仍然能夠?qū)捜萁邮?,因?yàn)樗膶?duì)話是流暢的、回復(fù)是有效的。
Q:您預(yù)判未來隨著生成式AI能力的提升,將在哪些行業(yè)快速滲透?
俞凱:短期來看,關(guān)于需要基于一定背景知識(shí)的創(chuàng)作型產(chǎn)業(yè),以及一切剛需AIGC的場景、重視SOP(標(biāo)準(zhǔn)作業(yè)程序)的行業(yè),能夠快速突破。比如智能寫作、文檔管理、代碼生成、流程管理、甚至游戲NPC等。
長遠(yuǎn)來看,搜索引擎和基于搜索的相關(guān)產(chǎn)業(yè),有可能被顛覆。
03
——————————
海內(nèi)外玩家技術(shù)上并沒有明顯差距
Q:近期多家中國企業(yè)已經(jīng)宣布了相關(guān)進(jìn)展,在您看來中國科技公司與海外企業(yè)之間的差距如何?需要哪些方面的努力?
俞凱:中美的差距,其實(shí)是在工程化能力、基礎(chǔ)架構(gòu)設(shè)置方面,另外還有人員經(jīng)驗(yàn)的問題、長期信念決心的問題。
ChatGPT的核心是大模型技術(shù)和對(duì)話智能技術(shù),大模型是指通用基礎(chǔ)模型,當(dāng)參數(shù)足夠大的時(shí)候,比如當(dāng)有千億級(jí)以上的大模型的時(shí)候,不再需要額外的采取數(shù)據(jù)對(duì)各個(gè)領(lǐng)域進(jìn)一步訓(xùn)練。大模型的算法是通用的,而數(shù)據(jù)量在超過千億級(jí)之后,對(duì)比也就不再那么明顯。
底層基礎(chǔ)的算法是公開的,并且國內(nèi)外一流的研究機(jī)構(gòu)都有非常不錯(cuò)的研究成果,在算法的迭代創(chuàng)新方面并不存在明顯差距。當(dāng)數(shù)據(jù)量足夠大,微不足道的數(shù)據(jù)差距影響也沒那么明顯。
簡而言之,技術(shù)上并沒有明顯差距,但存在技術(shù)實(shí)現(xiàn)的時(shí)間差問題。
Q:您預(yù)判,中國何時(shí)能有產(chǎn)品對(duì)標(biāo)ChatGPT?
俞凱:由于一些客觀因素,ChatGPT在國內(nèi)可能會(huì)水土不服,短時(shí)間測試沒問題,但沒辦法長期穩(wěn)定調(diào)用。我看到國內(nèi)有巨頭有在準(zhǔn)備發(fā)布相關(guān)產(chǎn)品。這是很好的方向。類GPT的產(chǎn)品,確實(shí)是需要依賴巨頭企業(yè)的投入和決心,但更令人期待的是,中國創(chuàng)業(yè)企業(yè)在基于該方向上的應(yīng)用級(jí)創(chuàng)新。
由于各方面綜合因素,從研發(fā)環(huán)境來看,國外更關(guān)注從0到1的基礎(chǔ)創(chuàng)新,而國內(nèi)更擅長從1到N的應(yīng)用級(jí)創(chuàng)新。
新技術(shù)出現(xiàn)的本質(zhì),是為了投入應(yīng)用,而不是停留在技術(shù)指標(biāo)層面的對(duì)比。我很期待中國的創(chuàng)業(yè)公司能夠基于用戶需求、產(chǎn)品情況,去探索出更多的類GPT應(yīng)用,不管是在AI輔助、智慧辦公、智能客服,還是在更大層面的產(chǎn)業(yè)應(yīng)用上。
04
——————————
生成式AI仍面臨挑戰(zhàn)
Q:近期圍繞著ChatGPT 成本、法律與倫理問題有諸多討論,您認(rèn)為生成式 AI 面臨哪些主要挑戰(zhàn)?
俞凱:大模型的訓(xùn)練的確是很昂貴,所以從成本來說,目前只有巨頭能負(fù)擔(dān)起高昂的投入,但當(dāng)大規(guī)模應(yīng)用起來,從長遠(yuǎn)看,大模型技術(shù)反而能夠降低機(jī)器學(xué)習(xí)的成本、提高應(yīng)用效率。
伴隨人工智能技術(shù)發(fā)展的,便一直是“AI有所為、有所不為”的討論。技術(shù)本身是中性的,關(guān)鍵是運(yùn)用技術(shù)的人,應(yīng)該向善、不作惡。
生成式AI面臨的兩大挑戰(zhàn),一是數(shù)據(jù)合規(guī),包括數(shù)據(jù)來源合規(guī)、數(shù)據(jù)處理合規(guī)、數(shù)據(jù)生成合規(guī);二是應(yīng)用邊際,包括需要從人員管理上、工程化實(shí)現(xiàn)、場景領(lǐng)域上去規(guī)范應(yīng)用邊界,如何更好地“協(xié)助人類”而不是“替代人類”,甚至是淪為deep fake的幫兇。
人工智能,說到底還是人的智能。ChatGPT可以基于上下文理解的基礎(chǔ)上,根據(jù)對(duì)話聊天來不斷完善自我學(xué)習(xí)和進(jìn)化, 但是這種學(xué)習(xí)進(jìn)化的機(jī)制,本質(zhì)上也是由人類設(shè)計(jì)的。當(dāng)然,為了保證AI的良序發(fā)展,我們的確需要去嵌入一些相應(yīng)的限制手段和規(guī)則約束。
Q:近期Google對(duì)外指出了AI技術(shù)發(fā)展迅速而大公司行動(dòng)緩慢的原因:需要將AI融入現(xiàn)有的產(chǎn)品與服務(wù)中,符合公司的業(yè)務(wù)戰(zhàn)略才能展開,并不能如OpenAI這樣只需要研發(fā)一款最佳模型就可以。對(duì)此您怎么看?
俞凱:基礎(chǔ)AI技術(shù)創(chuàng)新,必須最終走入產(chǎn)業(yè),結(jié)合場景應(yīng)用才會(huì)變得有價(jià)值。
作為新基建一環(huán)的AI技術(shù),不能單靠底層原始創(chuàng)新來推動(dòng)發(fā)展,其落地應(yīng)用需要結(jié)合行業(yè)認(rèn)知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實(shí)用解決方案。當(dāng)然, OpenAI這樣的基礎(chǔ)模型工具也具有巨大價(jià)值。基礎(chǔ)研究和應(yīng)用研究本身就屬于不同范疇,商業(yè)公司更多的還是要為市場負(fù)責(zé),要計(jì)算投產(chǎn)比,更傾向于投入應(yīng)用型研究;但基礎(chǔ)性研究卻可以更純粹地去看更底層的算法工具和更前瞻性的技術(shù)未來。
近幾年,行業(yè)也在加強(qiáng)產(chǎn)學(xué)研一體化合作,技術(shù)型企業(yè)和高校之間展開緊密合作,以推動(dòng)基礎(chǔ)研究和應(yīng)用研究的融合,例如訊飛和中科大,思必馳和上交大。畢竟人工智能發(fā)展是一個(gè)長期主義,為了將來更穩(wěn)定、更強(qiáng)的突破,必須重視基礎(chǔ)創(chuàng)新和原始創(chuàng)新能力,短期內(nèi)看研發(fā)投入會(huì)很高,但長遠(yuǎn)看卻能降低成本、提高整體效率,也有利于建立中國人自己的“AI礦場”,更好地賦能傳統(tǒng)百業(yè)。
(記者:付靜;編輯:曹婧晨)
對(duì)話1000位行業(yè)領(lǐng)軍人物:安安訪談錄