思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱：ChatGPT是繼Alpha Go之后最大的里程碑進(jìn)步|財(cái)專訪

原創(chuàng)

2023-02-11 11:27 星期六

財(cái)聯(lián)社記者付靜

截至目前，思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù)，已授權(quán)知識(shí)產(chǎn)權(quán)近1400件，其中已授權(quán)專利近700項(xiàng)，軟件著作權(quán)近400項(xiàng)，牽頭/參與了近50項(xiàng)國家/團(tuán)體標(biāo)準(zhǔn)。

《安安訪談錄》是界面財(cái)聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談?lì)悪谀?。從投資角度對(duì)話1000位行業(yè)領(lǐng)軍人物，覆蓋傳媒創(chuàng)新、VC/PE、信息服務(wù)、金融科技、交易體系、戰(zhàn)略新興等方向。

《財(cái)專訪》是由《安安訪談錄》出品的系列專訪，財(cái)聯(lián)社上市公司報(bào)道部聚焦行業(yè)熱點(diǎn)，通過專訪各類專家、領(lǐng)軍人物，致力尋找投資價(jià)值標(biāo)的，還原行業(yè)發(fā)展邏輯。

本期訪談人物：

思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱

“GPT是人工智能發(fā)展的一個(gè)集中式突破，包括對(duì)話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破?！?/p>

▍個(gè)人介紹

思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授。

清華大學(xué)本科、碩士，劍橋大學(xué)博士。

入選國家級(jí)重大人才工程，上海市“東方學(xué)者”特聘教授。

IEEE Speech and Language Processing Technical Committee 委員（2017-2019），中國計(jì)算機(jī)學(xué)會(huì)語音對(duì)話及聽覺專委會(huì)副主任，中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長。世界頂尖科學(xué)家論壇（World Laureates Forum）青年科學(xué)家委員會(huì)委員，全國信標(biāo)委用戶界面分委會(huì)委員。

發(fā)表200余篇國際論文，獲得多個(gè)國際研究挑戰(zhàn)賽冠軍，擔(dān)任Inter Speech、ICMI等國際會(huì)議程序委員會(huì)主席和ACL、NAACL、EMNLP等國際會(huì)議對(duì)話交互領(lǐng)域主席。

曾獲中國人工智能學(xué)會(huì)吳文俊人工智能科學(xué)進(jìn)步獎(jiǎng)、中國計(jì)算機(jī)學(xué)會(huì)青竹獎(jiǎng)、2016年《科學(xué)中國人》年度人物。

▍第一標(biāo)簽

引領(lǐng)人工智能領(lǐng)域發(fā)展的長期主義者

▍公司簡介

思必馳基于自主研發(fā)的全鏈路智能對(duì)話系統(tǒng)定制開發(fā)平臺(tái)和人工智能語音芯片，圍繞“云+芯”進(jìn)行布局，提供軟硬件結(jié)合的人工智能技術(shù)與產(chǎn)品服務(wù)，在智能家電、智能汽車、消費(fèi)電子等物聯(lián)網(wǎng)領(lǐng)域以及數(shù)字政企領(lǐng)域，提供智能人機(jī)交互軟件產(chǎn)品、軟硬一體化人工智能產(chǎn)品以及對(duì)話式人工智能技術(shù)服務(wù)。截至目前，思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù)，已授權(quán)知識(shí)產(chǎn)權(quán)近1400件，其中已授權(quán)專利近700項(xiàng)，軟件著作權(quán)近400項(xiàng)，牽頭/參與了近50項(xiàng)國家/團(tuán)體標(biāo)準(zhǔn)。

2022年11月30日上線的人工智能聊天機(jī)器人模型ChatGPT近期火爆全球，僅僅2個(gè)月即實(shí)現(xiàn)月活破億。伴隨著ChatGPT的出圈，不僅海外科技巨頭微軟、谷歌打響AI搜索大戰(zhàn)，國內(nèi)包括百度、阿里、騰訊、華為、京東、網(wǎng)易有道等大廠在內(nèi)的諸多科技公司均已披露相關(guān)方向的研發(fā)進(jìn)展。

國內(nèi)專業(yè)對(duì)話式人工智能平臺(tái)型企業(yè)思必馳已掌握全鏈路語音及語言交互技術(shù)，涵蓋語音信號(hào)處理、識(shí)別、合成、語言理解、問答聊天、知識(shí)圖譜等人機(jī)信息交互閉環(huán)涉及的各個(gè)模塊級(jí)技術(shù)，能夠感知用戶意圖和情感，并基于用戶畫像實(shí)現(xiàn)擬人化的語言風(fēng)格互動(dòng)。

日前思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱接受了記者專訪，就思必馳在類ChatGPT對(duì)話機(jī)器人方面的研發(fā)進(jìn)展、ChatGPT問世對(duì)于行業(yè)的意義、海內(nèi)外玩家差距、生成式AI面臨的挑戰(zhàn)等話題進(jìn)行分享。

01

——————————

思必馳的語音和語義通用基礎(chǔ)模型已達(dá)到億級(jí)參數(shù)

Q：在類ChatGPT的對(duì)話機(jī)器人研發(fā)方面，公司目前有何進(jìn)展？

俞凱：在技術(shù)的迭代發(fā)展上，ChatGPT本質(zhì)就是一個(gè)統(tǒng)計(jì)類的深度學(xué)習(xí)對(duì)話通用大模型。

思必馳應(yīng)該算是國內(nèi)最早一批去進(jìn)行統(tǒng)計(jì)類對(duì)話模型的產(chǎn)業(yè)化研究的公司之一，并且在任務(wù)型對(duì)話上也取得了很多很好的研究成績和應(yīng)用成績。思必馳已有的語音和語義的通用基礎(chǔ)模型，已經(jīng)達(dá)到億級(jí)參數(shù)。

在通用基礎(chǔ)模型技術(shù)方面，目前思必馳使用千塊GPU卡量級(jí)的超算資源，正在整合擴(kuò)展資源，在已有算法研究和數(shù)據(jù)積累的基礎(chǔ)上，將億級(jí)參數(shù)模型擴(kuò)展到百億以上量級(jí)。

Q：在類ChatGPT的對(duì)話機(jī)器人研發(fā)方面，公司未來有何計(jì)劃？

俞凱：現(xiàn)在的ChatGPT還是以文本機(jī)器人的形式來出現(xiàn)，我相信這只是一個(gè)開始，未來一定會(huì)往語音對(duì)話機(jī)器人去進(jìn)階，會(huì)逐漸強(qiáng)化對(duì)語音和文本的深度融合。在聽覺感知技術(shù)方面，思必馳能夠?qū)崿F(xiàn)高精度的語音轉(zhuǎn)文字和高質(zhì)量的聲音播報(bào)效果；能夠解決在人機(jī)交互過程中面臨的遠(yuǎn)距離、復(fù)雜聲場的多噪音干擾、多說話人判斷；滿足用戶對(duì)方言、外語的識(shí)別及合成的需求。

在聊天機(jī)器人方向，融合語音、文本、圖像信號(hào)的多模態(tài)交互技術(shù)也有很大機(jī)會(huì)。以當(dāng)前新起的虛擬數(shù)字人為例，多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對(duì)不同場景的復(fù)雜變化，多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。在多模態(tài)及交互技術(shù)方向，思必馳公司在業(yè)界率先發(fā)布了全雙工對(duì)話架構(gòu)，形成了獨(dú)特的閉環(huán)人機(jī)對(duì)話系統(tǒng)構(gòu)建的底層綜合技術(shù)優(yōu)勢，與國際主流先進(jìn)技術(shù)相比，取得聲紋驗(yàn)證、語音分離等指標(biāo)的顯著提升。

02

——————————

ChatGPT是繼Alpha Go之后最大的里程碑進(jìn)步

Q：您怎么看此次ChatGPT火出圈？可能存在哪些原因？

俞凱：ChatGPT可以算是繼Alpha Go之后最大的一個(gè)里程碑進(jìn)步。Alpha Go解決的是確定規(guī)則情況下的搜索和處理，而GPT在無確定語法規(guī)則前提下，部分解決了自然語言交互的問題。我們并不能把GPT簡單理解為某一個(gè)特定單點(diǎn)技術(shù)的突破，而是人工智能發(fā)展的一個(gè)集中式突破，包括其中的對(duì)話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力以及大數(shù)據(jù)的整體突破。

ChatGPT爆火還有個(gè)原因，即產(chǎn)業(yè)應(yīng)用的需求對(duì)技術(shù)的召喚得到了回應(yīng)。各種智能硬件發(fā)展到現(xiàn)在，功能上逐漸愈發(fā)同質(zhì)化，體驗(yàn)上也很難做出自己的特色。ChatGPT的創(chuàng)作能力則滿足了產(chǎn)業(yè)應(yīng)用級(jí)的需求，打開了新的空間。

Q：據(jù)路透社記者統(tǒng)計(jì)，AI、生成式 AI、機(jī)器學(xué)習(xí)等詞出現(xiàn)在美國科技巨頭最新季財(cái)報(bào)會(huì)議中的頻率是上一季度的2-6倍。巨頭紛紛發(fā)力生成式 AI，您認(rèn)為有哪些原因?

俞凱：本質(zhì)上，是因?yàn)樯墒紸I在落地應(yīng)用后，更能達(dá)成用戶對(duì)“智能人機(jī)交互體驗(yàn)”需求的滿足程度。生成式AI更強(qiáng)調(diào)學(xué)習(xí)、歸納后的創(chuàng)造、推理，生成式AI的創(chuàng)作能力則是以內(nèi)容創(chuàng)作為主，用來輔助人類決策。用戶對(duì)“輔助”的標(biāo)準(zhǔn)會(huì)低一些、寬容度會(huì)高一些、安全性和準(zhǔn)確性的期望值也會(huì)低一些，更容易引起大家的關(guān)注和期待。

其次，生成式AI有“創(chuàng)作性”的天然屬性：即沒有絕對(duì)的正確錯(cuò)誤之分，甚至有些仁者見仁、智者見智的意味。決策性AI的結(jié)果一旦錯(cuò)誤，很容易被詬病；而內(nèi)容創(chuàng)作的多樣性結(jié)果，則會(huì)被欣然接受。比如，現(xiàn)在的ChatGPT，在對(duì)一些事實(shí)性內(nèi)容的結(jié)果是不太準(zhǔn)確的，但大家仍然能夠?qū)捜萁邮?，因?yàn)樗膶?duì)話是流暢的、回復(fù)是有效的。

Q：您預(yù)判未來隨著生成式AI能力的提升，將在哪些行業(yè)快速滲透?

俞凱：短期來看，關(guān)于需要基于一定背景知識(shí)的創(chuàng)作型產(chǎn)業(yè)，以及一切剛需AIGC的場景、重視SOP（標(biāo)準(zhǔn)作業(yè)程序）的行業(yè)，能夠快速突破。比如智能寫作、文檔管理、代碼生成、流程管理、甚至游戲NPC等。

長遠(yuǎn)來看，搜索引擎和基于搜索的相關(guān)產(chǎn)業(yè)，有可能被顛覆。

03

——————————

海內(nèi)外玩家技術(shù)上并沒有明顯差距

Q：近期多家中國企業(yè)已經(jīng)宣布了相關(guān)進(jìn)展，在您看來中國科技公司與海外企業(yè)之間的差距如何？需要哪些方面的努力？

俞凱：中美的差距，其實(shí)是在工程化能力、基礎(chǔ)架構(gòu)設(shè)置方面，另外還有人員經(jīng)驗(yàn)的問題、長期信念決心的問題。

ChatGPT的核心是大模型技術(shù)和對(duì)話智能技術(shù)，大模型是指通用基礎(chǔ)模型，當(dāng)參數(shù)足夠大的時(shí)候，比如當(dāng)有千億級(jí)以上的大模型的時(shí)候，不再需要額外的采取數(shù)據(jù)對(duì)各個(gè)領(lǐng)域進(jìn)一步訓(xùn)練。大模型的算法是通用的，而數(shù)據(jù)量在超過千億級(jí)之后，對(duì)比也就不再那么明顯。

底層基礎(chǔ)的算法是公開的，并且國內(nèi)外一流的研究機(jī)構(gòu)都有非常不錯(cuò)的研究成果，在算法的迭代創(chuàng)新方面并不存在明顯差距。當(dāng)數(shù)據(jù)量足夠大，微不足道的數(shù)據(jù)差距影響也沒那么明顯。

簡而言之，技術(shù)上并沒有明顯差距，但存在技術(shù)實(shí)現(xiàn)的時(shí)間差問題。

Q：您預(yù)判，中國何時(shí)能有產(chǎn)品對(duì)標(biāo)ChatGPT?

俞凱：由于一些客觀因素，ChatGPT在國內(nèi)可能會(huì)水土不服，短時(shí)間測試沒問題，但沒辦法長期穩(wěn)定調(diào)用。我看到國內(nèi)有巨頭有在準(zhǔn)備發(fā)布相關(guān)產(chǎn)品。這是很好的方向。類GPT的產(chǎn)品，確實(shí)是需要依賴巨頭企業(yè)的投入和決心，但更令人期待的是，中國創(chuàng)業(yè)企業(yè)在基于該方向上的應(yīng)用級(jí)創(chuàng)新。

由于各方面綜合因素，從研發(fā)環(huán)境來看，國外更關(guān)注從0到1的基礎(chǔ)創(chuàng)新，而國內(nèi)更擅長從1到N的應(yīng)用級(jí)創(chuàng)新。

新技術(shù)出現(xiàn)的本質(zhì)，是為了投入應(yīng)用，而不是停留在技術(shù)指標(biāo)層面的對(duì)比。我很期待中國的創(chuàng)業(yè)公司能夠基于用戶需求、產(chǎn)品情況，去探索出更多的類GPT應(yīng)用，不管是在AI輔助、智慧辦公、智能客服，還是在更大層面的產(chǎn)業(yè)應(yīng)用上。

04

——————————

生成式AI仍面臨挑戰(zhàn)

Q：近期圍繞著ChatGPT 成本、法律與倫理問題有諸多討論，您認(rèn)為生成式 AI 面臨哪些主要挑戰(zhàn)?

俞凱：大模型的訓(xùn)練的確是很昂貴，所以從成本來說，目前只有巨頭能負(fù)擔(dān)起高昂的投入，但當(dāng)大規(guī)模應(yīng)用起來，從長遠(yuǎn)看，大模型技術(shù)反而能夠降低機(jī)器學(xué)習(xí)的成本、提高應(yīng)用效率。

伴隨人工智能技術(shù)發(fā)展的，便一直是“AI有所為、有所不為”的討論。技術(shù)本身是中性的，關(guān)鍵是運(yùn)用技術(shù)的人，應(yīng)該向善、不作惡。

生成式AI面臨的兩大挑戰(zhàn)，一是數(shù)據(jù)合規(guī)，包括數(shù)據(jù)來源合規(guī)、數(shù)據(jù)處理合規(guī)、數(shù)據(jù)生成合規(guī)；二是應(yīng)用邊際，包括需要從人員管理上、工程化實(shí)現(xiàn)、場景領(lǐng)域上去規(guī)范應(yīng)用邊界，如何更好地“協(xié)助人類”而不是“替代人類”，甚至是淪為deep fake的幫兇。

人工智能，說到底還是人的智能。ChatGPT可以基于上下文理解的基礎(chǔ)上，根據(jù)對(duì)話聊天來不斷完善自我學(xué)習(xí)和進(jìn)化，但是這種學(xué)習(xí)進(jìn)化的機(jī)制，本質(zhì)上也是由人類設(shè)計(jì)的。當(dāng)然，為了保證AI的良序發(fā)展，我們的確需要去嵌入一些相應(yīng)的限制手段和規(guī)則約束。

Q：近期Google對(duì)外指出了AI技術(shù)發(fā)展迅速而大公司行動(dòng)緩慢的原因：需要將AI融入現(xiàn)有的產(chǎn)品與服務(wù)中，符合公司的業(yè)務(wù)戰(zhàn)略才能展開，并不能如OpenAI這樣只需要研發(fā)一款最佳模型就可以。對(duì)此您怎么看?

俞凱：基礎(chǔ)AI技術(shù)創(chuàng)新，必須最終走入產(chǎn)業(yè)，結(jié)合場景應(yīng)用才會(huì)變得有價(jià)值。

作為新基建一環(huán)的AI技術(shù)，不能單靠底層原始創(chuàng)新來推動(dòng)發(fā)展，其落地應(yīng)用需要結(jié)合行業(yè)認(rèn)知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實(shí)用解決方案。當(dāng)然， OpenAI這樣的基礎(chǔ)模型工具也具有巨大價(jià)值。基礎(chǔ)研究和應(yīng)用研究本身就屬于不同范疇，商業(yè)公司更多的還是要為市場負(fù)責(zé)，要計(jì)算投產(chǎn)比，更傾向于投入應(yīng)用型研究；但基礎(chǔ)性研究卻可以更純粹地去看更底層的算法工具和更前瞻性的技術(shù)未來。

近幾年，行業(yè)也在加強(qiáng)產(chǎn)學(xué)研一體化合作，技術(shù)型企業(yè)和高校之間展開緊密合作，以推動(dòng)基礎(chǔ)研究和應(yīng)用研究的融合，例如訊飛和中科大，思必馳和上交大。畢竟人工智能發(fā)展是一個(gè)長期主義，為了將來更穩(wěn)定、更強(qiáng)的突破，必須重視基礎(chǔ)創(chuàng)新和原始創(chuàng)新能力，短期內(nèi)看研發(fā)投入會(huì)很高，但長遠(yuǎn)看卻能降低成本、提高整體效率，也有利于建立中國人自己的“AI礦場”，更好地賦能傳統(tǒng)百業(yè)。

（記者：付靜；編輯：曹婧晨）