OpenAI技術(shù)直播第六彈:ChatGPT“睜眼看世界” AI陪伴/AI教育新標(biāo)桿?
原創(chuàng)
2024-12-13 09:00 星期五
科創(chuàng)板日報 宋子喬
①ChatGPT開啟高級語音模式:實時視頻通話、屏幕共享和圖像上傳;
②高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨(dú)特的語氣和特征。
③不僅讓ChatGPT作為AI陪伴工具的體驗感大幅提升,也為更高效強(qiáng)大的AI教育工具作出了示范。

《科創(chuàng)板日報》12月13日訊(編輯 宋子喬) 技術(shù)分享日第六天,OpenAI給出了更貼近“本心”的東西——ChatGPT開啟高級語音模式:實時視頻通話、屏幕共享和圖像上傳。

為什么說更貼近“本心”?

OpenAI CEO Altman此前在接受Salesforce專訪時透露,自己最喜歡的AI電影是《她》(《Her》,一個男人愛上他的AI虛擬助手的故事),“對話語言界面的想法具有令人難以置信的預(yù)見性?!盩he Information在報道中稱,Altman希望最終開發(fā)出一種類似該電影中的AI助理那樣,能夠快速響應(yīng)的虛擬助手。

《Her》里的機(jī)器人女友代表著具身智能的終極形態(tài),可以與人無障礙交互。

此前,ChatGPT的DAN模式(Do anything now的簡稱)允許AI以更加隨意的方式與用戶對話,其“人味兒”之重已經(jīng)讓人驚艷,不僅可以低延遲交流,還能模仿人類語氣,提供情緒價值。這次,ChatGPT不僅能聽會說,還解鎖了視覺能力,通過攝像頭“睜眼看世界”。

此次分享直播中,CEO Sam Altman并沒有出現(xiàn),而是由包括OpenAI的首席產(chǎn)品官Kevin Weil、OpenAI產(chǎn)品經(jīng)理Jackie Shannon、負(fù)責(zé)多模態(tài)的OpenAI技術(shù)團(tuán)隊成員Michelle Qin和Rowan Zellers在內(nèi)的四位員工來介紹了更新的功能。

高級語音模式的實時視頻通話功能最為出彩。在OpenAI的團(tuán)隊成員依次與ChatGPT視頻打過招呼并有了一定的認(rèn)識后,有人發(fā)問:帶著馴鹿角的同事叫什么?ChatGPT用圣誕老人限定語音給出了準(zhǔn)確答案,展現(xiàn)“記憶”能力。

image

接下來,團(tuán)隊演示了ChatGPT如何教人操作手沖咖啡設(shè)備,只需給ChatGPT打一通“視頻通話”,它能根據(jù)你面前的器具,手把手教你完成每一個步驟。在整個演示過程中,ChatGPT的聲音自然而親切,還調(diào)整了語氣,甚至像人類一樣大笑。

image

屏幕共享功能則是通過屏幕共享的方式,讓ChatGPT來“看”你的屏幕,也是一種實時視頻理解能力。用戶只需點擊右下角的高級語音模式圖標(biāo),在下拉菜單中選擇分享屏幕,就能獲得針對性的幫助。

OpenAI團(tuán)隊成員與其共享成功后,讓ChatGPT瀏覽了自己的短信并要求指導(dǎo)回復(fù),ChatGPT展現(xiàn)了“高情商”的一面,建議夸贊對方的圣誕裝飾。

image

image

據(jù)介紹,高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨(dú)特的語氣和特征。而其背后的GPT-4o不僅可以將語音轉(zhuǎn)換為文本,還可以理解和標(biāo)記音頻的其他功能,例如呼吸和情感。

支持50多種語言的ChatGPT能夠?qū)崟r理解現(xiàn)實世界的場景,不僅讓ChatGPT作為AI陪伴工具的體驗感大幅提升,也為更高效強(qiáng)大的AI教育工具作出了示范。

上述功能即日起在ChatGPT移動應(yīng)用中推出,在接下來的一周內(nèi),這些功能將向所有團(tuán)隊用戶以及大多數(shù)Plus和Pro用戶開放。

收藏
104.88W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
0 人關(guān)注
0 人關(guān)注
0 人關(guān)注
0 人關(guān)注
0 人關(guān)注