你用大模型制作的視頻,今后也許可以“唱歌”了。
你用大模型制作的視頻,今后也許可以“唱歌”了。
今日,智譜AI視頻生成大模型產(chǎn)品清影迎來(lái)全新升級(jí),升級(jí)后的清影有著高達(dá) 4K 分辨率和 60 幀率,同時(shí)具有可變尺寸,以及多通道生成,能夠更好適應(yīng)專業(yè)視頻制作者和短視頻創(chuàng)作者的復(fù)雜剛性需求。
最重要的一點(diǎn)是,用新清影制作的視頻,自帶音效,這也是目前市面上現(xiàn)有的視頻生成產(chǎn)品,尚不具備的功能。新清影此舉也意味著,“默片Sora”,從此進(jìn)入“有聲電影時(shí)代”。
即日起,新清影在智譜清言網(wǎng)頁(yè)和App上線, 音效功能將很快在本月上線公測(cè)。為了支持廣大開(kāi)發(fā)者,智譜也同時(shí)將最新的CogVideoX v1.5模型進(jìn)行了開(kāi)源。
“默片Sora”進(jìn)入“有聲電影時(shí)代”
自年初OpenAI發(fā)布Sora之后,今年大模型領(lǐng)域最熱鬧的細(xì)分賽道要數(shù)視頻生成,國(guó)內(nèi)AI廠商們也在加速研發(fā)迭代,一眾產(chǎn)品在6-7月迎來(lái)發(fā)布更新潮。
就在今年的7月,智譜的生成視頻模型CogVideoX上線清言App,名為清影,這是國(guó)內(nèi)最早全量上線C 端、人人可用的生成視頻功能。只需一段指令或圖片,30秒就能生成AI視頻。為影視創(chuàng)作帶來(lái)了更多創(chuàng)新玩法,如廣告制作、短視頻、表情包梗圖等。
在大模型產(chǎn)品能力建設(shè)上,智譜AI持續(xù)快速迭代。相較于3個(gè)月前,本次更新的清影,功能更完善,生成的視頻效果,也更符合人類多元的審美和情感表達(dá)。
具體功能來(lái)看,基于CogVideoX模型的最新技術(shù)進(jìn)展和智譜最新推出的音效模型 CogSound,新清影從5個(gè)方面實(shí)現(xiàn)了提升。
一是模型能力全面提升。在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力明顯增強(qiáng);更強(qiáng)的人物面部表演細(xì)節(jié)、動(dòng)作連貫性和物理特性模擬,提高了視頻的自然度和逼真度。
二是有4K超高清分辨率。支持生成 10s、4K、60 幀超高清視頻,視覺(jué)體驗(yàn)拉到極致,動(dòng)態(tài)畫(huà)面更加流暢。
三是可變比例。支持任意比例的圖像生成視頻,超寬畫(huà)幅也能輕松Hold住,從而適應(yīng)不同的播放需求。
四是多通道生成能力。同一指令/圖片可以一次性生成4個(gè)視頻。
最重要也是最意外的,就是AI視頻可以帶上聲效了。新清影可以生成與畫(huà)面匹配的音效,這也使得當(dāng)前的“默片Sora”,從此進(jìn)入“有聲電影時(shí)代”。據(jù)了解,音效功能將很快在本月上線公測(cè)。
最強(qiáng)助攻:音效模型CogSound
自Sora之后,全球?qū)ι梢曨l的關(guān)注達(dá)到了前所未有的高度。
從技術(shù)角度,生成視頻意味著大模型對(duì)物理世界規(guī)律有較好的理解,這為具身智能、元宇宙和虛擬現(xiàn)實(shí)混合系統(tǒng)的發(fā)展開(kāi)辟了新通路。
從商業(yè)化角度,生成視頻將為專業(yè)影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能,變革生產(chǎn)流程發(fā)揮重要作用。
在技術(shù)方面,新清影的功能實(shí)現(xiàn),主要采用了基于CogVideoX模型的最新技術(shù)和最新推出的音效模型CogSound,并在數(shù)據(jù)篩選、模型結(jié)構(gòu)、視頻理解、transformer架構(gòu)和訓(xùn)練框架等多個(gè)方面進(jìn)行了多項(xiàng)創(chuàng)新。
比如,針對(duì)內(nèi)容連貫性問(wèn)題,智譜自研了一個(gè)高效的三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至2%大小,大大減少了視頻擴(kuò)散生成模型的訓(xùn)練成本和難度。
再比如,為解決大多現(xiàn)有視頻數(shù)據(jù)缺乏對(duì)應(yīng)描述性文本或描述質(zhì)量低下的問(wèn)題,智譜還自研了一個(gè)端到端的專門(mén)用于標(biāo)注視頻數(shù)據(jù)的視頻理解模型CogVLM2-caption,為海量視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述,進(jìn)而增強(qiáng)模型的文本理解和指令遵循能力,更好地理解超長(zhǎng)、復(fù)雜的prompt(提示詞),生成的視頻也更符合用戶的輸入。
作為這次功能更新的核心——給視頻配上聲效——音效模型CogSound和音樂(lè)模型CogMusic的加入,功不可沒(méi)。
即將上線的音效模型CogSound,能根據(jù)視頻自動(dòng)生成音效、節(jié)奏等音樂(lè)元素,它是基于GLM-4V的視頻理解能力,可以準(zhǔn)確識(shí)別并理解視頻背后的語(yǔ)義和情感,在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容,甚至生成復(fù)雜音效,如爆炸、水流、樂(lè)器、動(dòng)物叫聲、交通工具聲等。
據(jù)了解,在自然環(huán)境聲音(如水流、下雨、常見(jiàn)動(dòng)物叫聲)、燃燒/爆炸聲音(煙花、木頭燃燒)、交通工具聲音:(汽車引擎、火車、直升機(jī))、敲擊/碰撞聲(樂(lè)器、鍵盤(pán)、風(fēng)鈴)、人類聲音:(人群呼喊、嬰兒啼哭)等方面,音效模型CogSound都有著不錯(cuò)的生成效果。
音效模型CogSound將于本月上線清言App,與新清影一起生成有聲AI影片。在未來(lái),用戶只需要提供一個(gè)好的創(chuàng)意,利用AI的輔助,一個(gè)idea、一張圖,就能輕松變成一段自帶BGM的AI視頻。
多模態(tài),通往AGI的必由之路
過(guò)去的一年,生成視頻技術(shù)在視頻時(shí)長(zhǎng)、生成速度、分辨率及一致性等方面,取得了長(zhǎng)足的進(jìn)展。隨著大型模型技術(shù)的不斷被攻堅(jiān),人工智能為人類的價(jià)值也開(kāi)始釋放。
從使用路徑來(lái)看,CogVideoX生成視頻模型即將同步上線清言App開(kāi)放平臺(tái)bigmodel.cn,據(jù)了解,即使沒(méi)有編程背景的個(gè)人,也能輕松調(diào)用此工具來(lái)創(chuàng)作視頻,這無(wú)疑進(jìn)一步降低了視頻創(chuàng)作的技術(shù)門(mén)檻。
在C端市場(chǎng),生成視頻工具的出現(xiàn),可以極大地鼓勵(lì)并推動(dòng)廣大C端用戶積極參與到視頻內(nèi)容的生產(chǎn)中來(lái)。在當(dāng)下以短視頻 App 作為流量入口的互聯(lián)網(wǎng)環(huán)境下,這一趨勢(shì)將繼續(xù)有力地推動(dòng)UGC(用戶生產(chǎn)內(nèi)容)生態(tài)朝著更加繁榮的方向發(fā)展。
新出現(xiàn)的音效模型能夠?qū)崿F(xiàn)視頻與音頻的同時(shí)創(chuàng)作,不僅在普通用戶中廣受歡迎,在電影產(chǎn)業(yè)中也有著廣闊的應(yīng)用前景。例如,它可以高效生成電影中復(fù)雜的戰(zhàn)斗場(chǎng)面或?yàn)?zāi)難場(chǎng)景的音效,有效縮短制作周期并減少成本。
隨著生成視頻功能不斷朝著專業(yè)化方向進(jìn)行迭代升級(jí),其對(duì)B端客戶群也將產(chǎn)生越來(lái)越大的影響———專業(yè)視頻制作、視頻內(nèi)容營(yíng)銷、游戲、廣告營(yíng)銷以及傳媒等領(lǐng)域,基于這些生成視頻工具,內(nèi)容創(chuàng)作成本正在持續(xù)下降。
從長(zhǎng)遠(yuǎn)來(lái)看,大模型多模態(tài)AI的發(fā)展預(yù)示著一個(gè)理想化的未來(lái),理論上,從腳本創(chuàng)作、視頻畫(huà)面生成到聲音和音效的制作,傳統(tǒng)視頻制作的各個(gè)步驟都可以通過(guò)大型AI模型來(lái)完成,實(shí)現(xiàn)全流程的自動(dòng)化。這不僅是大模型多模態(tài)AI的典型應(yīng)用場(chǎng)景,也是其工具價(jià)值的完美展現(xiàn)。
視頻作為圖像模態(tài)的再擴(kuò)展,將AIGC的技術(shù)推向高潮,也讓人類實(shí)現(xiàn)AGI的夢(mèng)想,更進(jìn)一步。
在智譜看來(lái),真正的智能一定是多模態(tài)的,聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)等共同參與了人腦認(rèn)知能力的形成。因此,包括文字、圖像、語(yǔ)音和視覺(jué)等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣,能夠進(jìn)一步提高大模型的應(yīng)用和工具能力。
智譜于2021年開(kāi)始在多模態(tài)文生圖、文生視頻領(lǐng)域研發(fā),作為最早布局多模態(tài)大模型技術(shù)的公司,當(dāng)前,其已構(gòu)建了獨(dú)家、完善、原創(chuàng)的多模態(tài)模型矩陣。包括語(yǔ)言模型、圖像生成和理解模型、視頻生成和理解模型以及10月底剛剛發(fā)布的端到端情感語(yǔ)音模型GLM-4-Voice。
隨著音效模型CogSound的加入,多模態(tài)大模型家族在聲音模態(tài)方面實(shí)現(xiàn)了人聲、音效的多鏈路布局,健全了智譜基于圖像、視頻和聲音的多模態(tài)模型矩陣。
打通大模型應(yīng)用的“最后一公里”,在產(chǎn)品能力建設(shè)上,智譜還在持續(xù)快速迭代。據(jù)了解,未來(lái)智譜將攜手視覺(jué)中國(guó)等合作伙伴,基于更豐富的視覺(jué)內(nèi)容,產(chǎn)出更好的AI生成視頻工具。