Meta版Sora無(wú)預(yù)警來(lái)襲!拋棄擴(kuò)散模型,音視頻生成/畫(huà)面編輯全包,92頁(yè)論文無(wú)保留公開(kāi)

2024-10-05 04:26:0107:31 124
聲音簡(jiǎn)介

剛剛,Meta搶在OpenAI之前推出自己的Sora——Meta Movie Gen

Sora有的它都有,可創(chuàng)建不同寬高比的高清長(zhǎng)視頻,支持1080p、16秒、每秒16幀。

Sora沒(méi)有的它還有,能生成配套的背景音樂(lè)和音效、根據(jù)文本指令編輯視頻,以及根據(jù)用戶上傳的圖像生成個(gè)性化視頻。

Meta表示,這是“迄今為止最先進(jìn)的媒體基礎(chǔ)模型”。

只需一句“把燈籠變成飛向空中的泡泡”,就能替換視頻中的物體,同時(shí)透明的泡泡正確反射了背景環(huán)境。

上傳一張自己的照片,就能成為AI電影的主角。

生成的視頻不再無(wú)聲,也不只是能安一個(gè)背景音樂(lè)。

比如看這里!視頻會(huì)配合滑板輪子轉(zhuǎn)動(dòng)和落地配上逼真音效。

有人表示,隨著大量創(chuàng)作者學(xué)會(huì)使用AI視頻編輯工具,很難想象幾年后長(zhǎng)視頻和短視頻會(huì)變成什么樣。

這一次,與Sora只有演示和官網(wǎng)博客不同,Meta在92頁(yè)的論文中把架構(gòu)、訓(xùn)練細(xì)節(jié)都公開(kāi)了。

不過(guò)模型本身還沒(méi)開(kāi)源,遭到抱抱臉工程師貼臉開(kāi)大,直接在評(píng)論區(qū)扔下Meta的開(kāi)源主頁(yè)鏈接:

在這等著您嗷。

Meta在論文中特別強(qiáng)調(diào),數(shù)據(jù)規(guī)模、模型大小、訓(xùn)練算力的擴(kuò)展對(duì)于訓(xùn)練大規(guī)模媒體生成模型至關(guān)重要。通過(guò)系統(tǒng)地提升這幾個(gè)維度,才使得如此強(qiáng)大的媒體生成系統(tǒng)成為可能。

其中最另業(yè)界關(guān)注的一點(diǎn)是,這一次他們完全扔掉了擴(kuò)散模型的擴(kuò)散損失函數(shù),使用Transformer做骨干網(wǎng)絡(luò),流匹配做訓(xùn)練目標(biāo)。

具體來(lái)說(shuō)Movie Gen由視頻生成和音頻生成兩個(gè)模型組成。

Movie Gen Video:30B參數(shù)Transformer模型,可以從單個(gè)文本提示生成16秒、16幀每秒的高清視頻,相當(dāng)于73K個(gè)視頻tokens。

對(duì)于精確視頻編輯,它可以執(zhí)行添加、刪除或替換元素,或背景替換、樣式更改等全局修改。

對(duì)于個(gè)性化視頻,它在保持角色身份一致性和運(yùn)動(dòng)自然性方面取得SOTA性能。

Movie Gen Audio:13B參數(shù)Transformer模型,可以接受視頻輸入以及可選的文本提示,生成與視頻同步的高保真音頻。

Movie Gen Video通過(guò)預(yù)訓(xùn)練-微調(diào)范式完成,在骨干網(wǎng)絡(luò)架構(gòu)上,它沿用了Transoformer,特別是Llama3的許多設(shè)計(jì)。

預(yù)訓(xùn)練階段

在海量的視頻-文本和圖像-文本數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,學(xué)習(xí)對(duì)視覺(jué)世界的理解。這個(gè)階段的訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到了OM視頻和OB圖像,用以學(xué)習(xí)運(yùn)動(dòng)、場(chǎng)景、物理、幾何、音頻等概念。

微調(diào)階段

研究人員精心挑選了一小部分高質(zhì)量視頻進(jìn)行有監(jiān)督微調(diào),以進(jìn)一步提升生成視頻的運(yùn)動(dòng)流暢度和美學(xué)品質(zhì)。

為了進(jìn)一步提高效果,模型還引入了流匹配作為訓(xùn)練目標(biāo),這使得視頻生成的效果在精度和細(xì)節(jié)表現(xiàn)上優(yōu)于擴(kuò)散模型。

擴(kuò)散模型通過(guò)從數(shù)據(jù)分布逐漸加入噪聲,然后在推理時(shí)通過(guò)逆過(guò)程去除噪聲來(lái)生成樣本,用大量的迭代步數(shù)逐步逼近目標(biāo)分布。

流匹配則是通過(guò)直接學(xué)習(xí)樣本從噪聲向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的速度,模型只需通過(guò)估計(jì)如何在每個(gè)時(shí)間步中演化樣本,即可生成高質(zhì)量的結(jié)果。

與擴(kuò)散模型相比,流匹配方法訓(xùn)練更加高效,計(jì)算成本更低,并且生成的結(jié)果在時(shí)間維度上具有更好的連續(xù)性和一致性。

在整體架構(gòu)上,首先通過(guò)時(shí)空自編碼器將像素空間的RGB圖像和視頻壓縮到一個(gè)時(shí)空潛空間,學(xué)習(xí)一種更加緊湊的表征。

接著,輸入的文本提示被一系列預(yù)訓(xùn)練的文本編碼器編碼成向量表示,作為模型的條件信息。這里用到了多種互補(bǔ)的文本編碼器,包括理解語(yǔ)義的編碼器如UL2、與視覺(jué)對(duì)齊的編碼器如Long-prompt MetaCLIP,以及理解視覺(jué)文本的字符級(jí)編碼器如ByT5。

最后,生成模型以Flow Matching的目標(biāo)函數(shù)進(jìn)行訓(xùn)練,從高斯分布采樣的噪聲向量作為輸入,結(jié)合文本條件,生成一個(gè)輸出潛碼。這個(gè)潛碼經(jīng)過(guò)TAE解碼,就得到最終的圖像或視頻輸出。

此外Movie Gen Video在技術(shù)上還引入了多項(xiàng)創(chuàng)新:

為了讓模型同時(shí)適配圖像和視頻,設(shè)計(jì)了一套因子化的可學(xué)習(xí)位置編碼機(jī)制。對(duì)高度、寬度、時(shí)間三個(gè)維度分別編碼,再相加。這樣即適配了不同寬高比,又能支持任意長(zhǎng)度的視頻。

針對(duì)推理效率問(wèn)題,它采用了線性-二次時(shí)間步長(zhǎng)調(diào)度策略。僅用50步就能逼近1000步采樣的效果,大幅提升了推理速度。

為了進(jìn)一步提高生成效率,Movie Gen Video模型還采用了基于時(shí)間平鋪的推理方法。應(yīng)對(duì)生成高分辨率長(zhǎng)視頻時(shí),直接對(duì)整個(gè)視頻進(jìn)行編碼和解碼可能會(huì)遇到的內(nèi)存限制問(wèn)題。

在時(shí)間平鋪推理中,輸入視頻在時(shí)間維度上被分割成多個(gè)片段,每個(gè)片段獨(dú)立進(jìn)行編碼和解碼,然后在輸出時(shí)將所有片段重新拼接在一起。這種方法不僅降低了對(duì)內(nèi)存的需求,還提高了推理的效率。

此外,在解碼階段使用了重疊和混合的方式來(lái)消除片段邊界處的偽影問(wèn)題,即通過(guò)在片段之間引入重疊區(qū)域,并對(duì)重疊區(qū)域進(jìn)行加權(quán)平均,確保生成的視頻在時(shí)間維度上保持平滑和一致。

另外Meta還開(kāi)源了多個(gè)基準(zhǔn)測(cè)試數(shù)據(jù)集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,為后續(xù)研究者提供了權(quán)威的評(píng)測(cè)工具,有利于加速整個(gè)領(lǐng)域的進(jìn)步。

這篇長(zhǎng)達(dá)92頁(yè)的論文還介紹了更多在架構(gòu)、訓(xùn)練方法、數(shù)據(jù)管理、評(píng)估、并行訓(xùn)練和推理優(yōu)化、以及音頻模型的更多信息。

感興趣的可到文末鏈接查看。

AI視頻生成這塊,這兩天熱鬧不斷。

就在Meta發(fā)布Movie Gen之前不久,OpenAI Sora主創(chuàng)之一Tim Brooks跳槽谷歌DeepMind,繼續(xù)視頻生成和世界模擬器方面的工作。

這讓很多人想到,就像當(dāng)年谷歌遲遲不推出大模型應(yīng)用,Transformer 8個(gè)作者紛紛出走。

現(xiàn)在OpenAI遲遲發(fā)布不了Sora,主要作者也跑了。

不過(guò)另外也有人認(rèn)為,Tim Brooks選擇現(xiàn)在離開(kāi),或許說(shuō)明他在OpenAI的主要工作完成了,也讓人開(kāi)始猜測(cè):

Meta的發(fā)布會(huì)迫使OpenAI放出Sora來(lái)回應(yīng)嗎?

現(xiàn)在Meta放出了帶有視頻編輯功能的模型,再加上10月1日Pika 1.5更新,主打給視頻中物體加上融化、膨脹、擠壓等物理特效。

不難看出,AI視頻生成下半場(chǎng),要開(kāi)始卷向AI視頻編輯了。

論文地址:

參考鏈接:

[1] 完 —

評(píng)選征集中

「2024人工智能年度評(píng)選」

量子位2024人工智能年度評(píng)選已開(kāi)啟報(bào)名通道,評(píng)選從企業(yè)、人物、產(chǎn)品三大維度設(shè)立了5類獎(jiǎng)項(xiàng)。

歡迎掃碼報(bào)名評(píng)選!評(píng)選結(jié)果將于12月MEET2025智能未來(lái)大會(huì)公布,期待與數(shù)百萬(wàn)從業(yè)者共同見(jiàn)證榮譽(yù)時(shí)刻。

點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~

一鍵三連「點(diǎn)贊」、「分享」和「在看」

科技前沿進(jìn)展日日相見(jiàn) ~

用戶評(píng)論

表情0/300
喵,沒(méi)有找到相關(guān)結(jié)果~
暫時(shí)沒(méi)有評(píng)論,下載喜馬拉雅與主播互動(dòng)
猜你喜歡
未來(lái)已來(lái)_OpenAI_ChatGPT_Sora

未來(lái)已來(lái)!致敬AI時(shí)代,見(jiàn)證AI之發(fā)展。感謝哪些為計(jì)算和人類的未來(lái)作出貢獻(xiàn)的人們!用好奇探索未知,用熱愛(ài)擁抱新的時(shí)代。持續(xù)關(guān)注AI發(fā)展,記錄發(fā)展過(guò)程中令人振奮的...

by:北境刀客_零聲劇坊

原創(chuàng)微小說(shuō)《元宇宙》|Meta,眾生凋零的軟科幻之作

“啟動(dòng)世界初始化的連接?!薄按谕l檢查和效率共振?!薄皢?dòng)染色體過(guò)渡,體細(xì)胞控制建立,世界架構(gòu)完成?!薄捌聊徽龑?duì)面孔,覆蓋掃描開(kāi)始....用戶鎖定?!薄皻g迎...

by:cv驀見(jiàn)

無(wú)聲戲公版書(shū)

《無(wú)聲戲》又名《連城璧》,是清代李漁創(chuàng)作的世情小說(shuō)集,題"覺(jué)世稗官編次,睡鄉(xiāng)祭酒批評(píng)"。小說(shuō)在題材上不作依傍,均為自創(chuàng),多寫(xiě)俗人俗事,主人公有優(yōu)伶、娼妓、商人、...

by:善意流傳

無(wú)家青雪版

國(guó)破山河在,何以為家,是曰無(wú)家。一個(gè)老兵的傳奇,他只是一個(gè)想著老婆、孩子熱炕頭的農(nóng)民,卻被迫拿起了槍。

by:仗劍天下行

大醫(yī)無(wú)疆正版

十步殺一人,千里不留行!邪派魔頭穿越時(shí)空屏障,崛起成為國(guó)醫(yī)后人。在這個(gè)國(guó)醫(yī)式微、青黃不接的時(shí)代,醫(yī)道式微、武道消逝,人性在黑暗中沉淪。表面上,世界看似歌舞升平,...

by:妖嬈狐仙的修仙之路

無(wú)版權(quán)音樂(lè)NoCopyRightSounds

無(wú)版權(quán)音樂(lè)是一個(gè)由比利·伍德福德在2011年創(chuàng)立的唱片公司兼音樂(lè)組織。起初這個(gè)組織被成立的原因是Woodford為了找到他游戲影片中使用的無(wú)版權(quán)音樂(lè)。

by:飯不辣

簡(jiǎn)愛(ài)無(wú)刪減版

《簡(jiǎn)·愛(ài)》的故事梗概如下:該小說(shuō)講述孤女簡(jiǎn)·愛(ài)自幼父母雙亡,寄養(yǎng)于舅母家,備受虐待,后被舅母打發(fā)到孤兒院去。孤兒院環(huán)境惡劣,但她頑強(qiáng)地活了下來(lái)。畢業(yè)兩年后,簡(jiǎn)應(yīng)...

by:沉默兒

原文版《無(wú)能子》

《無(wú)能子》,唐末隱名哲學(xué)家著作。作者非道士,其書(shū)亦極少直接涉及道教內(nèi)容。筆者之所以將其列入道教學(xué)者,有原因的:一、歷代史籍著錄《無(wú)能子》,均列入道家類;《唐志...

by:婉卿講書(shū)