唯独对你野,亚洲日韩在线中文字幕综合,91香蕉视频下载好色先生软件下载

智譜AI清影大升級(jí)：4K超高清、自帶BGM，“默片Sora”進(jìn)入“有聲電影時(shí)代”

資訊

2024-11-08 18:14 星期五

你用大模型制作的視頻，今后也許可以“唱歌”了。

你用大模型制作的視頻，今后也許可以“唱歌”了。

今日，智譜AI視頻生成大模型產(chǎn)品清影迎來(lái)全新升級(jí)，升級(jí)后的清影有著高達(dá) 4K 分辨率和 60 幀率，同時(shí)具有可變尺寸，以及多通道生成，能夠更好適應(yīng)專業(yè)視頻制作者和短視頻創(chuàng)作者的復(fù)雜剛性需求。

最重要的一點(diǎn)是，用新清影制作的視頻，自帶音效，這也是目前市面上現(xiàn)有的視頻生成產(chǎn)品，尚不具備的功能。新清影此舉也意味著，“默片Sora”，從此進(jìn)入“有聲電影時(shí)代”。

即日起，新清影在智譜清言網(wǎng)頁(yè)和App上線，音效功能將很快在本月上線公測(cè)。為了支持廣大開(kāi)發(fā)者，智譜也同時(shí)將最新的CogVideoX v1.5模型進(jìn)行了開(kāi)源。

“默片Sora”進(jìn)入“有聲電影時(shí)代”

自年初OpenAI發(fā)布Sora之后，今年大模型領(lǐng)域最熱鬧的細(xì)分賽道要數(shù)視頻生成，國(guó)內(nèi)AI廠商們也在加速研發(fā)迭代，一眾產(chǎn)品在6-7月迎來(lái)發(fā)布更新潮。

就在今年的7月，智譜的生成視頻模型CogVideoX上線清言App，名為清影，這是國(guó)內(nèi)最早全量上線C 端、人人可用的生成視頻功能。只需一段指令或圖片，30秒就能生成AI視頻。為影視創(chuàng)作帶來(lái)了更多創(chuàng)新玩法，如廣告制作、短視頻、表情包梗圖等。

在大模型產(chǎn)品能力建設(shè)上，智譜AI持續(xù)快速迭代。相較于3個(gè)月前，本次更新的清影，功能更完善，生成的視頻效果，也更符合人類多元的審美和情感表達(dá)。

具體功能來(lái)看，基于CogVideoX模型的最新技術(shù)進(jìn)展和智譜最新推出的音效模型 CogSound，新清影從5個(gè)方面實(shí)現(xiàn)了提升。

一是模型能力全面提升。在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力明顯增強(qiáng)；更強(qiáng)的人物面部表演細(xì)節(jié)、動(dòng)作連貫性和物理特性模擬，提高了視頻的自然度和逼真度。

二是有4K超高清分辨率。支持生成 10s、4K、60 幀超高清視頻，視覺(jué)體驗(yàn)拉到極致，動(dòng)態(tài)畫(huà)面更加流暢。

三是可變比例。支持任意比例的圖像生成視頻，超寬畫(huà)幅也能輕松Hold住，從而適應(yīng)不同的播放需求。

四是多通道生成能力。同一指令/圖片可以一次性生成4個(gè)視頻。

最重要也是最意外的，就是AI視頻可以帶上聲效了。新清影可以生成與畫(huà)面匹配的音效，這也使得當(dāng)前的“默片Sora”，從此進(jìn)入“有聲電影時(shí)代”。據(jù)了解，音效功能將很快在本月上線公測(cè)。

最強(qiáng)助攻：音效模型CogSound

自Sora之后，全球?qū)ι梢曨l的關(guān)注達(dá)到了前所未有的高度。

從技術(shù)角度，生成視頻意味著大模型對(duì)物理世界規(guī)律有較好的理解，這為具身智能、元宇宙和虛擬現(xiàn)實(shí)混合系統(tǒng)的發(fā)展開(kāi)辟了新通路。

從商業(yè)化角度，生成視頻將為專業(yè)影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能，變革生產(chǎn)流程發(fā)揮重要作用。

在技術(shù)方面，新清影的功能實(shí)現(xiàn)，主要采用了基于CogVideoX模型的最新技術(shù)和最新推出的音效模型CogSound，并在數(shù)據(jù)篩選、模型結(jié)構(gòu)、視頻理解、transformer架構(gòu)和訓(xùn)練框架等多個(gè)方面進(jìn)行了多項(xiàng)創(chuàng)新。

比如，針對(duì)內(nèi)容連貫性問(wèn)題，智譜自研了一個(gè)高效的三維變分自編碼器結(jié)構(gòu)（3D VAE），將原視頻空間壓縮至2%大小，大大減少了視頻擴(kuò)散生成模型的訓(xùn)練成本和難度。

再比如，為解決大多現(xiàn)有視頻數(shù)據(jù)缺乏對(duì)應(yīng)描述性文本或描述質(zhì)量低下的問(wèn)題，智譜還自研了一個(gè)端到端的專門(mén)用于標(biāo)注視頻數(shù)據(jù)的視頻理解模型CogVLM2-caption，為海量視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述，進(jìn)而增強(qiáng)模型的文本理解和指令遵循能力，更好地理解超長(zhǎng)、復(fù)雜的prompt（提示詞），生成的視頻也更符合用戶的輸入。

作為這次功能更新的核心——給視頻配上聲效——音效模型CogSound和音樂(lè)模型CogMusic的加入，功不可沒(méi)。

即將上線的音效模型CogSound，能根據(jù)視頻自動(dòng)生成音效、節(jié)奏等音樂(lè)元素，它是基于GLM-4V的視頻理解能力，可以準(zhǔn)確識(shí)別并理解視頻背后的語(yǔ)義和情感，在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容，甚至生成復(fù)雜音效，如爆炸、水流、樂(lè)器、動(dòng)物叫聲、交通工具聲等。

據(jù)了解，在自然環(huán)境聲音（如水流、下雨、常見(jiàn)動(dòng)物叫聲）、燃燒/爆炸聲音（煙花、木頭燃燒）、交通工具聲音:（汽車引擎、火車、直升機(jī)）、敲擊/碰撞聲（樂(lè)器、鍵盤(pán)、風(fēng)鈴）、人類聲音:（人群呼喊、嬰兒啼哭）等方面，音效模型CogSound都有著不錯(cuò)的生成效果。

音效模型CogSound將于本月上線清言App，與新清影一起生成有聲AI影片。在未來(lái)，用戶只需要提供一個(gè)好的創(chuàng)意，利用AI的輔助，一個(gè)idea、一張圖，就能輕松變成一段自帶BGM的AI視頻。

多模態(tài)，通往AGI的必由之路

過(guò)去的一年，生成視頻技術(shù)在視頻時(shí)長(zhǎng)、生成速度、分辨率及一致性等方面，取得了長(zhǎng)足的進(jìn)展。隨著大型模型技術(shù)的不斷被攻堅(jiān)，人工智能為人類的價(jià)值也開(kāi)始釋放。

從使用路徑來(lái)看，CogVideoX生成視頻模型即將同步上線清言App開(kāi)放平臺(tái)bigmodel.cn，據(jù)了解，即使沒(méi)有編程背景的個(gè)人，也能輕松調(diào)用此工具來(lái)創(chuàng)作視頻，這無(wú)疑進(jìn)一步降低了視頻創(chuàng)作的技術(shù)門(mén)檻。

在C端市場(chǎng)，生成視頻工具的出現(xiàn)，可以極大地鼓勵(lì)并推動(dòng)廣大C端用戶積極參與到視頻內(nèi)容的生產(chǎn)中來(lái)。在當(dāng)下以短視頻 App 作為流量入口的互聯(lián)網(wǎng)環(huán)境下，這一趨勢(shì)將繼續(xù)有力地推動(dòng)UGC（用戶生產(chǎn)內(nèi)容）生態(tài)朝著更加繁榮的方向發(fā)展。

新出現(xiàn)的音效模型能夠?qū)崿F(xiàn)視頻與音頻的同時(shí)創(chuàng)作，不僅在普通用戶中廣受歡迎，在電影產(chǎn)業(yè)中也有著廣闊的應(yīng)用前景。例如，它可以高效生成電影中復(fù)雜的戰(zhàn)斗場(chǎng)面或?yàn)?zāi)難場(chǎng)景的音效，有效縮短制作周期并減少成本。

隨著生成視頻功能不斷朝著專業(yè)化方向進(jìn)行迭代升級(jí)，其對(duì)B端客戶群也將產(chǎn)生越來(lái)越大的影響———專業(yè)視頻制作、視頻內(nèi)容營(yíng)銷、游戲、廣告營(yíng)銷以及傳媒等領(lǐng)域，基于這些生成視頻工具，內(nèi)容創(chuàng)作成本正在持續(xù)下降。

從長(zhǎng)遠(yuǎn)來(lái)看，大模型多模態(tài)AI的發(fā)展預(yù)示著一個(gè)理想化的未來(lái)，理論上，從腳本創(chuàng)作、視頻畫(huà)面生成到聲音和音效的制作，傳統(tǒng)視頻制作的各個(gè)步驟都可以通過(guò)大型AI模型來(lái)完成，實(shí)現(xiàn)全流程的自動(dòng)化。這不僅是大模型多模態(tài)AI的典型應(yīng)用場(chǎng)景，也是其工具價(jià)值的完美展現(xiàn)。

視頻作為圖像模態(tài)的再擴(kuò)展，將AIGC的技術(shù)推向高潮，也讓人類實(shí)現(xiàn)AGI的夢(mèng)想，更進(jìn)一步。

在智譜看來(lái)，真正的智能一定是多模態(tài)的，聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)等共同參與了人腦認(rèn)知能力的形成。因此，包括文字、圖像、語(yǔ)音和視覺(jué)等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣，能夠進(jìn)一步提高大模型的應(yīng)用和工具能力。

智譜于2021年開(kāi)始在多模態(tài)文生圖、文生視頻領(lǐng)域研發(fā)，作為最早布局多模態(tài)大模型技術(shù)的公司，當(dāng)前，其已構(gòu)建了獨(dú)家、完善、原創(chuàng)的多模態(tài)模型矩陣。包括語(yǔ)言模型、圖像生成和理解模型、視頻生成和理解模型以及10月底剛剛發(fā)布的端到端情感語(yǔ)音模型GLM-4-Voice。

隨著音效模型CogSound的加入，多模態(tài)大模型家族在聲音模態(tài)方面實(shí)現(xiàn)了人聲、音效的多鏈路布局，健全了智譜基于圖像、視頻和聲音的多模態(tài)模型矩陣。

打通大模型應(yīng)用的“最后一公里”，在產(chǎn)品能力建設(shè)上，智譜還在持續(xù)快速迭代。據(jù)了解，未來(lái)智譜將攜手視覺(jué)中國(guó)等合作伙伴，基于更豐富的視覺(jué)內(nèi)容，產(chǎn)出更好的AI生成視頻工具。

閱100.52W

我要評(píng)論

反饋意見(jiàn)

歡迎您發(fā)表有價(jià)值的評(píng)論，發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除，您的賬號(hào)將禁止評(píng)論。

發(fā)表評(píng)論

要聞

股市

關(guān)聯(lián)話題

智譜AI

0 人關(guān)注

+ 關(guān)注

首頁(yè)

電報(bào)

話題

盯盤(pán)

VIP

FM

投研

下載

頭條

A股

港股

環(huán)球

公司

券商

基金·ETF

地產(chǎn)

金融

汽車

科創(chuàng)

品見(jiàn)