我用豆包，生成了AI版《紅樓夢(mèng)》MV

2024-09-29 14:31:0110:09 83

所屬專輯：量子位｜前沿科技動(dòng)態(tài)

聲音簡(jiǎn)介

要論最近最火的AI視頻生成模型，無(wú)疑就屬字節(jié)豆包了。

也就是字節(jié)一口氣亮出的PixelDance模型和Seaweed模型。

而且大家都說(shuō)效果好，那這不就得親自測(cè)試一波嘍，而且是直接上難度的那種——

最近抖音里很多人都在模仿林黛玉哭泣，我們不妨用“全字節(jié)系的AI”來(lái)制作一支《紅樓夢(mèng)》的MV。

然后啊，效果簡(jiǎn)直就是一個(gè)大寫的萬(wàn)萬(wàn)沒(méi)想到！話不多說(shuō)，直接展示成果：

不論是生成的多人物、畫面的質(zhì)量，甚至是故事情節(jié)，豆包的視頻可以說(shuō)是相當(dāng)有《紅樓夢(mèng)》那味兒了。

而也正如剛才提到的，打造這支MV背后的AI，統(tǒng)統(tǒng)都是字節(jié)系。

現(xiàn)在我們就來(lái)一一拆解細(xì)節(jié)步驟。

第一步，用豆包查詢《紅樓夢(mèng)》中的經(jīng)典片段原文，作為生成圖片的Prompt。

例如王熙鳳出場(chǎng)的名場(chǎng)面，豆包給出了這樣的答案：

第二步，我們直接用《紅樓夢(mèng)》中的原文片段，“喂”給字節(jié)的即夢(mèng)，讓它先生成一幅畫。

例如我們采用的Prompt是：

紅樓夢(mèng)，只見一群媳婦丫鬟圍擁著一個(gè)人從后房門進(jìn)來(lái)。這個(gè)人打扮與眾姑娘不同，彩繡輝煌，恍若神妃仙子：頭上戴著金絲八寶攢珠髻，綰著朝陽(yáng)五鳳掛珠釵；項(xiàng)上帶著赤金盤螭瓔珞圈；裙邊系著豆綠宮絳，雙衡比目玫瑰佩；身上穿著縷金百蝶穿花大紅洋緞?wù)桃\，外罩五彩刻絲石青銀鼠褂；下著翡翠撒花洋縐裙。一雙丹鳳三角眼，兩彎柳葉吊梢眉，身量苗條，體格風(fēng)騷，粉面含春威不露，丹唇未啟笑先聞。

第三步，將生成的圖片丟給豆包PixelDance模型，再附上一句Prompt，讓它生成視頻片段：

中間的女子開懷大笑，性情豪爽地往前走，旁邊眾人微笑慢慢低頭并為這個(gè)女子讓路。

采用相同的方法，逐個(gè)生成其它視頻的片段。

再例如下面這個(gè)片段，Prompt是這樣的：

右邊女生默默哭泣，抬手捂住嘴。鏡頭切換，特寫女生的臉，眼睛里留下眼淚。鏡頭切換，近景，左邊人物癡癡看向女生，眼神中滿是憐愛。

第四步，用基于豆包音樂(lè)模型的海綿音樂(lè)，生成1分鐘的視頻BGM，而且Prompt極其簡(jiǎn)單：

紅樓夢(mèng)，悲傷，大氣。

一曲《夢(mèng)斷紅樓殤》就誕生了：

第五步，將最終的6個(gè)視頻和BGM統(tǒng)統(tǒng)導(dǎo)入字節(jié)的剪映，對(duì)視頻做一個(gè)剪輯，就大功告成了！

不難看出，現(xiàn)在已經(jīng)是人人都可以打造MV了，并且步驟和方法也相當(dāng)簡(jiǎn)單，只需聯(lián)動(dòng)一下字節(jié)系的AI們：

豆包、即夢(mèng)、豆包視頻生成模型PixelDance、海綿音樂(lè)、剪映。

而在整個(gè)過(guò)程中，視頻生成，無(wú)疑是最為關(guān)鍵的步驟。

但有一說(shuō)一，AI版《紅樓夢(mèng)》中的視頻片段，還并沒(méi)有完全展現(xiàn)豆包PixelDance模型的全部真實(shí)實(shí)力。

這次豆包在發(fā)布視頻模型之際，把它的能力歸結(jié)為了四個(gè)點(diǎn)：

精準(zhǔn)的語(yǔ)義理解，多動(dòng)作多主體交互

強(qiáng)大動(dòng)態(tài)和炫酷運(yùn)鏡并存

一致性多鏡頭生成

多風(fēng)格多比例兼容

或許光看文字不能很直觀地感受，接下來(lái)我們就一一對(duì)這四個(gè)特點(diǎn)做深入解讀。

若是縱覽目前市面上的視頻模型，其實(shí)大多數(shù)產(chǎn)品只能完成簡(jiǎn)單指令單一動(dòng)作，而豆包PixelDance模型可以說(shuō)是把AI對(duì)于Prompt的理解能力拉上一個(gè)高度。

不僅如此，豆包PixelDance模型還能把故事延展開來(lái)，以及哪怕參考圖片中沒(méi)有的人物，也可以通過(guò)語(yǔ)言的方式生成。

例如下面這段Prompt：

小朋友笑著笑著就哭了，鏡頭緩緩拉遠(yuǎn)，他的母親走過(guò)來(lái)安慰他。

最初的圖像僅有小朋友的臉，但生成的視頻很好的滿足了Prompt中的所有要求。

再如：

特寫一個(gè)中國(guó)女人的面部。她有些生氣地戴上了一副墨鏡，一個(gè)中國(guó)男人從畫面右側(cè)走進(jìn)來(lái)抱住了她。

由此可見，不論P(yáng)rompt多復(fù)雜，豆包PixelDance模型是可以hold住的。

復(fù)雜的動(dòng)態(tài)和運(yùn)鏡，也一直是視頻生成的難點(diǎn)之一。

這是因?yàn)檎鎸?shí)的動(dòng)態(tài)往往涉及到對(duì)物理規(guī)律的準(zhǔn)確模擬，在復(fù)雜動(dòng)態(tài)場(chǎng)景中，多個(gè)物體的相互作用會(huì)使物理模擬變得極為復(fù)雜。

對(duì)于人物的動(dòng)作，還需要模擬人體的關(guān)節(jié)運(yùn)動(dòng)和肌肉變形。

復(fù)雜的動(dòng)態(tài)和運(yùn)鏡通常會(huì)帶來(lái)光影的變化，而準(zhǔn)確地計(jì)算光影效果是一項(xiàng)艱巨的任務(wù)。光線的傳播、反射、折射等現(xiàn)象都需要進(jìn)行精確的模擬。

動(dòng)態(tài)場(chǎng)景中的光源也可能是變化的，如太陽(yáng)的位置隨時(shí)間變化、燈光的閃爍等。這就需要實(shí)時(shí)計(jì)算光線的強(qiáng)度、顏色和方向，以確保畫面的光影效果真實(shí)自然。

而這些種種的挑戰(zhàn)到了豆包PixelDance模型這里，似乎就不再是難事。

例如在下面這個(gè)視頻中，男子在沖浪的過(guò)程被生成的可謂是相當(dāng)逼真，就連浪花、光影、人的動(dòng)作、發(fā)絲等等，都與現(xiàn)實(shí)非常貼近：

再如下面這個(gè)快速穿越自然的場(chǎng)景，光影的交錯(cuò)、物理的規(guī)律都拿捏的非常精準(zhǔn)，宛如科幻大片的片段：

一致性和多鏡頭，同樣也是此前AI視頻生成被人們?cè)嵅〉囊稽c(diǎn)，甚至人類都開始模仿起了AI們的鬼畜。

例如本來(lái)上一個(gè)畫面還是人物A，下一個(gè)畫面就變成了人物B，甚至連性別和物種都有可能被篡改……

那么豆包PixelDance模型的表現(xiàn)又是如何呢？我們直接來(lái)看效果：

第一個(gè)畫面是小女孩面對(duì)死神，鏡頭一轉(zhuǎn)給到女孩的時(shí)候，豆包PixelDance模型生成的內(nèi)容不論是發(fā)型還是著裝等細(xì)節(jié)，都保持了一致。

即使面對(duì)更加復(fù)雜的場(chǎng)景、鏡頭切換，也是沒(méi)有問(wèn)題：

當(dāng)然，風(fēng)格的多變，是每個(gè)視頻生成模型的“必修課”，豆包PixelDance模型也是如此。

例如黑白大片風(fēng)：

再如日漫風(fēng)格：

而且從這兩個(gè)例子中，我們也不難發(fā)現(xiàn)豆包PixelDance模型對(duì)于生成視頻的比例也是可控的。

更具體而言，豆包PixelDance模型支持包括黑白，3D動(dòng)畫、2D動(dòng)畫、國(guó)畫、水彩、水粉等多種風(fēng)格；包含1:1，3:4，4:3，16:9，9:16，21:9 六個(gè)比例。

嗯，是一個(gè)多變且較為全能的選手了。

那么接下來(lái)的一個(gè)問(wèn)題是：如何做到的？

對(duì)于豆包視頻模型的能力，在發(fā)布會(huì)上，針對(duì)剛才我們所展示的前三項(xiàng)能力，分別對(duì)應(yīng)的技術(shù)是這樣的：

高效的DiT融合計(jì)算單元、全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法，以及深度優(yōu)化的Transforemer架構(gòu)，便是“煉”出豆包PixelDanca模型背后的三大技術(shù)殺手锏了。

不過(guò)對(duì)于各個(gè)視頻生成產(chǎn)品的效果，“什么樣的才算好？是否有什么標(biāo)準(zhǔn)？”這一問(wèn)題，在量子位與火山引擎總裁譚待交流過(guò)程中，他表示：

視頻生成并不像語(yǔ)音生成一樣，有非常標(biāo)準(zhǔn)且綜合性的Benchmark等。但整體來(lái)看也有幾點(diǎn)內(nèi)容可以作為判斷標(biāo)準(zhǔn)。

一是對(duì)復(fù)雜指令遵循，這就非常考驗(yàn)視頻模型對(duì)語(yǔ)義的理解能力，從豆包PixelDance模型的效果來(lái)看，是符合這一點(diǎn)要求的。

二是多鏡頭切換和保證一致性，這也是保證視頻最終效果的重要因素。

而縱觀整場(chǎng)豆包的發(fā)布會(huì)，視頻模型也只是新發(fā)布的動(dòng)作之一。

除了豆包視頻模型之外，這次字節(jié)還發(fā)布了2個(gè)重磅產(chǎn)品。

首先就是豆包音樂(lè)模型。

正如我們給AI《紅樓夢(mèng)》做BGM時(shí)所演示的那般，生成歌曲，Prompt只需簡(jiǎn)單的幾個(gè)字就可以，只要關(guān)鍵字到位，那么歌曲的情感也能精準(zhǔn)拿捏。

除此之外，豆包音樂(lè)模型還提供了10余種不同的音樂(lè)風(fēng)格和情緒的表達(dá)，人聲也幾乎與人類無(wú)異。

其次就是豆包同聲傳譯模型。

這個(gè)模型的效果可以說(shuō)是媲美人類的同傳了，可以邊說(shuō)邊翻譯，實(shí)時(shí)溝通完全沒(méi)有障礙；而且在翻譯的準(zhǔn)確性和人聲自然度方面也是更上一層樓，可以很好的應(yīng)用在各種需要同傳的場(chǎng)景。

最后，豆包通用模型的能力，這次也得到了大幅的提升：

至此，字節(jié)的豆包大模型家族就變得更加壯大了起來(lái)，可以一起來(lái)看下現(xiàn)在的全景圖：

然而，陣容的龐大還是只是一面，更重要的是，豆包家族的模型們是已經(jīng)被廣泛地使用了。

據(jù)了解，截至到9月，豆包大模型的日均tokens使用量已經(jīng)超過(guò)1.3萬(wàn)億，4個(gè)月的時(shí)間里tokens整體增長(zhǎng)超過(guò)了10倍。在多模態(tài)方面，豆包·文生圖模型日均生成圖片5000萬(wàn)張，此外，豆包目前日均處理語(yǔ)音85萬(wàn)小時(shí)。

這組數(shù)據(jù)也從側(cè)面反映出了模型的效果，畢竟只有好用才能會(huì)被大眾所接受；這也再次印證了豆包模型最初發(fā)布時(shí)所提出的那句“只有最大的使用量，才能打磨出最好的大模型”。

也可以視為豆包“左手使用量，右手多場(chǎng)景”的方式反復(fù)打磨后的一次正確的驗(yàn)證；而在驗(yàn)證過(guò)后，字節(jié)此次也亮出了他們?cè)诖竽Ｐ蜕系陌l(fā)展之路，即先To C，再To B。

正如譚待所說(shuō)：

只有在To C上把效果做到極致，我們才會(huì)讓模型在To B領(lǐng)域去上崗。

不僅如此，隨著大模型價(jià)格戰(zhàn)的拉響，豆包模型的價(jià)格也是一降再降，由此也可以預(yù)見大模型發(fā)展的一種趨勢(shì)——

成本已不會(huì)阻礙創(chuàng)新之路。

那么對(duì)于豆包模型接下來(lái)的發(fā)展，是值得期待一波了。

說(shuō)到“全字節(jié)系A(chǔ)I”，除了做AI版《紅樓夢(mèng)》MV的工具全是字節(jié)產(chǎn)品之外，這篇文章還是在飛書里寫的。

最后，一句土味“情話”ending本文：

字節(jié)大舞臺(tái)，有AI你就來(lái)～

— 完 —

點(diǎn)這里?關(guān)注我，記得標(biāo)星哦～

一鍵三連「分享」、「點(diǎn)贊」和「在看」

科技前沿進(jìn)展日日相見 ~

用戶評(píng)論

表情0/300

暫時(shí)沒(méi)有評(píng)論，下載喜馬拉雅與主播互動(dòng)

音頻列表

1
???
大神卡帕西安利爆火AI應(yīng)用，稱「或是下一個(gè)ChatGPT」
71
7天前
2
???
我用豆包，生成了AI版《紅樓夢(mèng)》MV
83
8天前
3
???
2024年度AI十大趨勢(shì)征集啟動(dòng)｜量子位智庫(kù)
59
8天前
4
???
支付寶進(jìn)軍大模型醫(yī)療應(yīng)用，技術(shù)一號(hào)位：我們有4個(gè)切入點(diǎn)
79
9天前
5
???
OpenAI高管震蕩內(nèi)幕：CEO無(wú)視安全倉(cāng)促上馬4o，員工每天干20小時(shí)趕進(jìn)度，追名逐利不再理想主義
74
9天前
6
???
具身智能機(jī)器人隱藏冠軍上新：領(lǐng)狗進(jìn)家門，多模態(tài)AI那種
66
10天前
7
???
百度智能云曬大模型落地成績(jī)單：5個(gè)第一！
84
12天前
8
???
零代碼基礎(chǔ)也能復(fù)刻！大模型化身“AI售前助手”，百頁(yè)萬(wàn)字標(biāo)書秒速解讀
68
13天前
9
???
姚期智院士大模型新研究：思維圖DoT，用數(shù)學(xué)理論確保AI邏輯一致性
45
13天前
10
???
OpenAI開啟推理算力新Scaling Law，AI PC和CPU的機(jī)會(huì)來(lái)了
53
14天前