字節(jié)視頻大模型殺死比賽！無縫鏡頭切換，運鏡技巧拉滿，音樂創(chuàng)作和翻譯自由也實現(xiàn)了

2024-09-25 03:30:0612:23 43

所屬專輯：智東西

聲音簡介

豆包大模型兇猛上新：輕松創(chuàng)作電影質(zhì)感大片、歌曲，同音色翻譯趕超人類同傳。

作者 | 程茜

編輯 | 云鵬

智東西9月24日報道，今天，字節(jié)的視頻生成大模型首次亮相，分分鐘化身超級導(dǎo)演，鏡頭切換、電影質(zhì)感、多主體交互都能輕松拿捏；其通用模型Pro綜合能力提升25%，初始TPM支持800k，高于業(yè)界其他模型。

這些都是今天字節(jié)跳動豆包大模型家族的重磅更新，連添了視頻、音樂、同聲傳譯三大新成員；還有文生圖模型優(yōu)化了六類復(fù)雜生成，語音合成模型可混合數(shù)百種音色……

其中的重磅發(fā)布莫過于視頻生成模型，這意味著繼快手后，另一大短視頻巨頭字節(jié)也正式進軍AI視頻生成賽道。

豆包的視頻生成模型可以實現(xiàn)對復(fù)雜指令的理解和遵循，平滑實現(xiàn)鏡頭的變焦、環(huán)繞、縮放，保持多鏡頭切換的一致性以及多尺寸、多風(fēng)格生成。據(jù)火山引擎總裁譚待透露，該模型會在國慶節(jié)之后上線到火山方舟平臺。

它可以根據(jù)提示詞生成電影質(zhì)感的畫面：

超現(xiàn)實的提示詞也能輕松應(yīng)對，如有翅膀的青蛙、浮空小島中生長的樹等：

在真實使用場景中，人們往往需要不同比例或者尺寸大小的視頻，該模型可以滿足多比例、多尺寸的視頻生成：

即使視頻畫面切換，豆包生成的視頻鏡頭仍能保持一致性：

還有各種或逼真、或科幻的視覺效果：

今年5月，豆包大模型產(chǎn)品家族首次亮相，目前已經(jīng)涵蓋大語言模型、視覺大模型、語音大模型三大品類發(fā)布了13個大模型。此外，豆包通用模型Pro的升級還包括上下文窗口達(dá)到256k。

同時，豆包模型技術(shù)已經(jīng)應(yīng)用到了剪映、即夢AI和醒圖工具中，打造了數(shù)字分身生成、內(nèi)容營銷工具等。

01.

豆包Pro綜合能力提升25%

視頻、音樂、同聲傳譯模型亮相

今年5月，豆包大模型產(chǎn)品家族正式發(fā)布，火山引擎總裁譚待透露道，截至今年9月，豆包大模型Tokens調(diào)用量提升超過10倍，其日均Tokens使用量超過1.3萬億。多模態(tài)方面，日均生成圖片5000萬張，日均處理語音85萬小時，這相當(dāng)于7萬天廣播節(jié)目的總時長。

除此以外，豆包大模型產(chǎn)品家族還迎來三個新成員：視頻生成模型、音樂生成模型、同聲傳譯模型。

1、豆包通用模型Pro：初始TPM業(yè)界最高，上下文窗口達(dá)256k

截至8月底，豆包通用模型Pro綜合能力累計提升25%，其中數(shù)學(xué)能力、專業(yè)知識實現(xiàn)超過35%的提升。

在企業(yè)應(yīng)用場景中，不僅要考慮模型能力，還要考慮成本。譚待談道，今年5月，火山引擎成為國內(nèi)第一個將大模型成本降到每1000 token低于一厘錢的公司。這樣的大幅降價背后大量創(chuàng)新應(yīng)用涌現(xiàn)，過去幾個月內(nèi)模型調(diào)用量增長突飛猛進。

他補充說，當(dāng)Tokens的價格不再是阻礙應(yīng)用創(chuàng)新的阻力，模型的性能又成為應(yīng)用上量的關(guān)鍵。

豆包Pro模型再次升級。豆包Pro默認(rèn)的初始TPM支持800k，高于業(yè)界其他模型，還可以根據(jù)企業(yè)具體需求進一步擴容。豆包Pro上下文窗口達(dá)到256k，可一次性處理約40萬漢字，這相當(dāng)于一口氣讀完《三體》的第一部和第二部，同時，譚待還宣布，豆包Pro加量不加價。

2、視頻生成模型：多主體、動作可絲滑交互，鏡頭平滑切換

豆包大模型家族的第一位重磅新成員就是視頻生成模型。

豆包視頻生成模型有PixelDance和Seaweed兩個版本，PixelDance V1.4是ByteDance Research團隊開發(fā)的 DiT 結(jié)構(gòu)的視頻生成大模型，同時支持文生視頻和圖生視頻，能夠一次性生成長達(dá)10秒的視頻片段。

Seaweed版本支持兩種文生視頻和圖生視頻兩種方式。該技術(shù)基于Transformer結(jié)構(gòu)，利用時空壓縮的潛空間進行訓(xùn)練，模型原生支持多分辨率生成，適配橫屏、豎屏，并能夠根據(jù)用戶輸入的高清圖像分辨率進行適配和保真。

基于豆包視頻生成模型，用戶可以通過輸入文字和圖片獲得一段視頻。這一模型采用了高效的DiT融合計算單元、全新設(shè)計的擴散模型訓(xùn)練方法、深度優(yōu)化的Transformer結(jié)構(gòu)。

其優(yōu)勢在于首先能實現(xiàn)對復(fù)雜指令的理解和遵循，解鎖時序性多拍動作指令與多個主體間的交互能力。

其次是鏡頭語言，根據(jù)Prompt豆包視頻生成模型可以讓視頻在主體的大動態(tài)和鏡頭中進行平滑切換，實現(xiàn)鏡頭的變焦、環(huán)繞、縮放等。

第三是一致性多鏡頭生成，該模型能實現(xiàn)多鏡頭切換的一致性，通過一個Prompt實現(xiàn)多個鏡頭切換，同時保持主體、風(fēng)格、氛圍的一致性。

最后是支持豐富題材，豆包視頻生成模型的風(fēng)格不限于黑白、3D 動畫、2D 動畫、國畫等，同時還能根據(jù)企業(yè)的發(fā)布平臺生成1:1、3:4、4:3、16:9、9:16、21:9六種比例的視頻，適配于不同終端，以及電影、手機豎屏等不同畫幅。

具體到電商營銷、動畫教育、城市文旅、微劇本等商業(yè)場景應(yīng)用中，如電商營銷場景需要根據(jù)商品生成大量配合營銷節(jié)點的視頻素材，以及不同尺寸，豆包視頻模型可以做到快速把商品3D化，并配合不同節(jié)日替換風(fēng)格和背景，生成不同尺寸的內(nèi)容進行發(fā)布。

3、音樂生成模型：詞曲唱全流程覆蓋，還能模擬真假音轉(zhuǎn)換技巧

豆包音樂模型實現(xiàn)了音樂生成通用框架，從詞曲唱三個方面生成高質(zhì)量音樂。

用戶首先輸入Prompt就可以得到一段歌詞，然后在10余種不同風(fēng)格的音樂和情緒表達(dá)中選擇進一步創(chuàng)作出歌曲，再基于豆包語音能力，生成可以媲美真人演唱效果的聲音，可以實現(xiàn)氣口、真假音轉(zhuǎn)換技巧的模擬。

目前，開發(fā)者可以通過火山方舟使用豆包音樂模型API，用戶也可以直接通過豆包App和海綿音樂App創(chuàng)作音樂。

4、同聲傳譯模型：端到端模型架構(gòu)，模擬真人發(fā)音

豆包同聲傳譯模型采用端到端模型架構(gòu)，再疊加豆包的語音克隆能力，去模擬真人發(fā)音。

在實時翻譯方面，豆包同聲傳譯模型可以做到邊說邊譯，且在辦公、法律、教育等場景接近甚至超越人類同傳水平，還能支持跨語言同音色翻譯。

02.

豆包模型技術(shù)接入剪映、即夢AI和醒圖

分分鐘定制數(shù)字分身

即夢AI和剪映市場負(fù)責(zé)人陳欣然談道，不同于傳統(tǒng)的畫筆工具，用AI進行創(chuàng)作是動態(tài)的過程，可以和創(chuàng)作者深度互動，共同創(chuàng)作，生成式AI帶來的一些不可控性，反而能激發(fā)創(chuàng)作者的靈感。

她舉了兩個例子，在輸入虛擬人實現(xiàn)360度旋轉(zhuǎn)的提示詞后，AI生成了頭部不動，身子旋轉(zhuǎn)的視頻，這更符合她需要的賽博朋克風(fēng)格效果。

第二個例子是高適唱歌，她只輸入了音樂和歌詞，就得到了表現(xiàn)力很強的視頻生成效果。

剪映和CapCut上線了定制數(shù)字人、音色克隆、視頻翻譯的功能。

這一數(shù)字人的形象是基于Transformer音頻驅(qū)動和全臉生成模型的技術(shù)，聲音基于音色克隆大模型技術(shù)，可以幫助用戶不需要本人出鏡和錄音，在自媒體口播、營銷帶貨、企業(yè)培訓(xùn)等場景通過數(shù)字人切換不同語言完成表達(dá)。

數(shù)字人的制作需要用戶錄制或者上傳一段高清3分鐘正面視頻，就可以創(chuàng)建數(shù)字分身，如果只需要音色克隆只需要大概5秒鐘的聲音輸入。

還有一大工具是剪映上線的內(nèi)容營銷創(chuàng)作工具，用戶直接填寫商品名、上傳素材，或者直接上傳商品頁鏈接，就能一鍵生成不同風(fēng)格的帶貨視頻。

陳欣然透露說，即夢AI已經(jīng)接入豆包兩款視頻生成模型，正在進行內(nèi)測的場景和效果打磨。

03.

火山方舟2.0，破解大模型效果不好、成本太貴、落地太難關(guān)鍵挑戰(zhàn)

火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪重點提及了大模型在業(yè)務(wù)場景落地的關(guān)鍵挑戰(zhàn)，是效果不好、成本太貴、落地太難。豆包大模型在做的就是基于更強模型、更低價格、更易落地的宗旨，助力企業(yè)AI落地。

吳迪談道，更強模型需要具備兩個必要條件，就是用量非常大、基座模型處理的場景足夠豐富和廣泛。

目前，豆包大模型已經(jīng)在公司內(nèi)部50多條業(yè)務(wù)線和外部30多個行業(yè)實現(xiàn)非常大的用量，日均Tokens使用量超過1.3萬億。

AI角色內(nèi)容社區(qū)和AI創(chuàng)作平臺想法流基于豆包大模型能力，實現(xiàn)了人均對話輪次提升達(dá)到150%~350%之間，綜合線上成功請求率達(dá)到99.95%。

還有一家AI客服訓(xùn)練平臺的全渠道智能知識庫曉多科技，實現(xiàn)初始支持RPM提升了2000多倍，支持高并發(fā)任務(wù)。

字節(jié)跳動的自有業(yè)務(wù)豆包愛學(xué)，基于豆包新版大模型核心指標(biāo)顯著提升10%，題目解析可用率提升。

豆包文生圖模型2.0采用了更高效的DiT架構(gòu)，優(yōu)化了物理世界關(guān)于多主體、多數(shù)量、大小、高矮胖瘦等六類復(fù)雜的生成，能更好呈現(xiàn)小說、超現(xiàn)實設(shè)計等畫面。

語音合成模型打破了音色數(shù)量限制，可以混合數(shù)百種音色，供企業(yè)DIY不同情緒、性別、年齡、風(fēng)格的聲音效果。

在解決大模型落地困難方面，火山方舟2.0的基本理念是模型效果好、性價比高、流量大，圍繞這一核心，算法工程師、信息安全、更強性能、安全可信是其四大支撐。

在更強的系統(tǒng)性能方面，豆包模型支持最大的初始并發(fā)，這得益于其有充沛的算力、推理層優(yōu)化、系統(tǒng)調(diào)度能力的乘積，可以在50-120秒內(nèi)完成數(shù)千卡GPU部署。

上下文緩存方面，據(jù)吳迪透露，今年10月，他們將開放Context上下文緩存，企業(yè)可以減少多輪對話延遲，改善用戶體驗。同時，其會進一步降低企業(yè)使用成本。

火山方舟還打造了全周期安全可信方案，通過身份認(rèn)證、環(huán)境隔離、數(shù)據(jù)保密、信息無痕、操作可審計構(gòu)建大模型安全“堡壘”。

為了擴展大模型應(yīng)用的能力邊界，火山引擎3+X插件升級，其中知識庫插件可支持更大規(guī)模、更低延遲、更高召回率和準(zhǔn)確率等。

04.

結(jié)語：視頻生成模型爆發(fā)機遇已來

近一年來，AI視頻生成領(lǐng)域的熱度持續(xù)攀升，多家AI公司推出了新的視頻生成模型，引發(fā)了行業(yè)內(nèi)的激烈競爭，從圖像生成、圖像編輯到更為復(fù)雜的長視頻、三維信息生成等模型問世，徹底引爆了這條賽道。

坐擁抖音短視頻豐富視頻素材的字節(jié)跳動，此次重磅發(fā)布了視頻生成模型，為視頻生成賽道注入新的動力。從其已經(jīng)發(fā)布的諸多Demo來看，在語義理解、視頻生成的順滑度方面可用性更強，并且字節(jié)跳動還將豆包模型技術(shù)應(yīng)用到了已有的剪映、即夢AI等工具中，進一步加速視頻生成的落地與規(guī)?；瘧?yīng)用。

品牌主題視頻

聯(lián)想集團首次完整呈現(xiàn)一系列質(zhì)造奇觀，從個體部件到整機組裝工藝，建構(gòu)起當(dāng)代制造業(yè)生產(chǎn)力與生產(chǎn)關(guān)系的底色。聯(lián)想集團使AI向?qū)崳嶓w經(jīng)濟，推動產(chǎn)業(yè)和社會發(fā)展，加速邁向人本智能的未來。

用戶評論

表情0/300

暫時沒有評論，下載喜馬拉雅與主播互動

音頻列表

1
???
余承東流血開打特斯拉！智界R7“賣一臺虧3萬”，入伙圍攻Model Y
22
54分鐘前
2
???
字節(jié)視頻大模型殺死比賽！無縫鏡頭切換，運鏡技巧拉滿，音樂創(chuàng)作和翻譯自由也實現(xiàn)了
43
2小時前
3
???
北京，沖刺人形機器人第一城
90
1天前
4
???
小米新車規(guī)劃疑似曝光！增程車2026年上市，開戰(zhàn)華為理想
37
1天前
5
???
突發(fā)！曝高通擬收購英特爾
54
3天前
6
???
從消費電子到智駕智艙，多媒體應(yīng)用全面爆發(fā)，安謀科技自研IP加速中國芯片創(chuàng)新
66
4天前
7
???
極氪7X開賣，比Model Y便宜2萬，安聰慧吐槽像素級復(fù)制特斯拉
49
4天前
8
???
蔚來也賣15萬的車了！像素級對標(biāo)Model Y的樂道L60穩(wěn)了？李斌：訂單大爆
100
5天前
9
???
全球開源大模型新王！阿里Qwen2.5來了，性能跨量級超Llama3.1
49
5天前
10
???
小米SUV內(nèi)飾首曝！取消中控臺實體按鍵，方向盤中控屏繼承SU7
56
6天前