字節(jié)視頻大模型殺死比賽!無縫鏡頭切換,運鏡技巧拉滿,音樂創(chuàng)作和翻譯自由也實現(xiàn)了

2024-09-25 03:30:0612:23 43
所屬專輯:智東西
聲音簡介

豆包大模型兇猛上新:輕松創(chuàng)作電影質(zhì)感大片、歌曲,同音色翻譯趕超人類同傳。

作者 | 程茜

編輯 | 云鵬

智東西9月24日報道,今天,字節(jié)的視頻生成大模型首次亮相,分分鐘化身超級導(dǎo)演,鏡頭切換、電影質(zhì)感、多主體交互都能輕松拿捏;其通用模型Pro綜合能力提升25%,初始TPM支持800k,高于業(yè)界其他模型。

這些都是今天字節(jié)跳動豆包大模型家族的重磅更新,連添了視頻、音樂、同聲傳譯三大新成員;還有文生圖模型優(yōu)化了六類復(fù)雜生成,語音合成模型可混合數(shù)百種音色……

其中的重磅發(fā)布莫過于視頻生成模型,這意味著繼快手后,另一大短視頻巨頭字節(jié)也正式進軍AI視頻生成賽道。

豆包的視頻生成模型可以實現(xiàn)對復(fù)雜指令的理解和遵循,平滑實現(xiàn)鏡頭的變焦、環(huán)繞、縮放,保持多鏡頭切換的一致性以及多尺寸、多風(fēng)格生成。據(jù)火山引擎總裁譚待透露,該模型會在國慶節(jié)之后上線到火山方舟平臺。

它可以根據(jù)提示詞生成電影質(zhì)感的畫面:

超現(xiàn)實的提示詞也能輕松應(yīng)對,如有翅膀的青蛙、浮空小島中生長的樹等:

在真實使用場景中,人們往往需要不同比例或者尺寸大小的視頻,該模型可以滿足多比例、多尺寸的視頻生成:

即使視頻畫面切換,豆包生成的視頻鏡頭仍能保持一致性:

還有各種或逼真、或科幻的視覺效果:

今年5月,豆包大模型產(chǎn)品家族首次亮相,目前已經(jīng)涵蓋大語言模型、視覺大模型、語音大模型三大品類發(fā)布了13個大模型。此外,豆包通用模型Pro的升級還包括上下文窗口達(dá)到256k。

同時,豆包模型技術(shù)已經(jīng)應(yīng)用到了剪映、即夢AI和醒圖工具中,打造了數(shù)字分身生成、內(nèi)容營銷工具等。

01.

豆包Pro綜合能力提升25%

視頻、音樂、同聲傳譯模型亮相

今年5月,豆包大模型產(chǎn)品家族正式發(fā)布,火山引擎總裁譚待透露道,截至今年9月,豆包大模型Tokens調(diào)用量提升超過10倍,其日均Tokens使用量超過1.3萬億。多模態(tài)方面,日均生成圖片5000萬張,日均處理語音85萬小時,這相當(dāng)于7萬天廣播節(jié)目的總時長。

除此以外,豆包大模型產(chǎn)品家族還迎來三個新成員:視頻生成模型、音樂生成模型、同聲傳譯模型。

1、豆包通用模型Pro:初始TPM業(yè)界最高,上下文窗口達(dá)256k

截至8月底,豆包通用模型Pro綜合能力累計提升25%,其中數(shù)學(xué)能力、專業(yè)知識實現(xiàn)超過35%的提升。

在企業(yè)應(yīng)用場景中,不僅要考慮模型能力,還要考慮成本。譚待談道,今年5月,火山引擎成為國內(nèi)第一個將大模型成本降到每1000 token低于一厘錢的公司。這樣的大幅降價背后大量創(chuàng)新應(yīng)用涌現(xiàn),過去幾個月內(nèi)模型調(diào)用量增長突飛猛進。

他補充說,當(dāng)Tokens的價格不再是阻礙應(yīng)用創(chuàng)新的阻力,模型的性能又成為應(yīng)用上量的關(guān)鍵。

豆包Pro模型再次升級。豆包Pro默認(rèn)的初始TPM支持800k,高于業(yè)界其他模型,還可以根據(jù)企業(yè)具體需求進一步擴容。豆包Pro上下文窗口達(dá)到256k,可一次性處理約40萬漢字,這相當(dāng)于一口氣讀完《三體》的第一部和第二部,同時,譚待還宣布,豆包Pro加量不加價。

2、視頻生成模型:多主體、動作可絲滑交互,鏡頭平滑切換

豆包大模型家族的第一位重磅新成員就是視頻生成模型。

豆包視頻生成模型有PixelDance和Seaweed兩個版本,PixelDance V1.4是ByteDance Research團隊開發(fā)的 DiT 結(jié)構(gòu)的視頻生成大模型,同時支持文生視頻和圖生視頻,能夠一次性生成長達(dá)10秒的視頻片段。

Seaweed版本支持兩種文生視頻和圖生視頻兩種方式。該技術(shù)基于Transformer結(jié)構(gòu),利用時空壓縮的潛空間進行訓(xùn)練,模型原生支持多分辨率生成,適配橫屏、豎屏,并能夠根據(jù)用戶輸入的高清圖像分辨率進行適配和保真。

基于豆包視頻生成模型,用戶可以通過輸入文字和圖片獲得一段視頻。這一模型采用了高效的DiT融合計算單元、全新設(shè)計的擴散模型訓(xùn)練方法、深度優(yōu)化的Transformer結(jié)構(gòu)。

其優(yōu)勢在于首先能實現(xiàn)對復(fù)雜指令的理解和遵循,解鎖時序性多拍動作指令與多個主體間的交互能力。

其次是鏡頭語言,根據(jù)Prompt豆包視頻生成模型可以讓視頻在主體的大動態(tài)和鏡頭中進行平滑切換,實現(xiàn)鏡頭的變焦、環(huán)繞、縮放等。

第三是一致性多鏡頭生成,該模型能實現(xiàn)多鏡頭切換的一致性,通過一個Prompt實現(xiàn)多個鏡頭切換,同時保持主體、風(fēng)格、氛圍的一致性。

最后是支持豐富題材,豆包視頻生成模型的風(fēng)格不限于黑白、3D 動畫、2D 動畫、國畫等,同時還能根據(jù)企業(yè)的發(fā)布平臺生成1:1、3:4、4:3、16:9、9:16、21:9六種比例的視頻,適配于不同終端,以及電影、手機豎屏等不同畫幅。

具體到電商營銷、動畫教育、城市文旅、微劇本等商業(yè)場景應(yīng)用中,如電商營銷場景需要根據(jù)商品生成大量配合營銷節(jié)點的視頻素材,以及不同尺寸,豆包視頻模型可以做到快速把商品3D化,并配合不同節(jié)日替換風(fēng)格和背景,生成不同尺寸的內(nèi)容進行發(fā)布。

3、音樂生成模型:詞曲唱全流程覆蓋,還能模擬真假音轉(zhuǎn)換技巧

豆包音樂模型實現(xiàn)了音樂生成通用框架,從詞曲唱三個方面生成高質(zhì)量音樂。

用戶首先輸入Prompt就可以得到一段歌詞,然后在10余種不同風(fēng)格的音樂和情緒表達(dá)中選擇進一步創(chuàng)作出歌曲,再基于豆包語音能力,生成可以媲美真人演唱效果的聲音,可以實現(xiàn)氣口、真假音轉(zhuǎn)換技巧的模擬。

目前,開發(fā)者可以通過火山方舟使用豆包音樂模型API,用戶也可以直接通過豆包App和海綿音樂App創(chuàng)作音樂。

4、同聲傳譯模型:端到端模型架構(gòu),模擬真人發(fā)音

豆包同聲傳譯模型采用端到端模型架構(gòu),再疊加豆包的語音克隆能力,去模擬真人發(fā)音。

在實時翻譯方面,豆包同聲傳譯模型可以做到邊說邊譯,且在辦公、法律、教育等場景接近甚至超越人類同傳水平,還能支持跨語言同音色翻譯。

02.

豆包模型技術(shù)接入剪映、即夢AI和醒圖

分分鐘定制數(shù)字分身

即夢AI和剪映市場負(fù)責(zé)人陳欣然談道,不同于傳統(tǒng)的畫筆工具,用AI進行創(chuàng)作是動態(tài)的過程,可以和創(chuàng)作者深度互動,共同創(chuàng)作,生成式AI帶來的一些不可控性,反而能激發(fā)創(chuàng)作者的靈感。

她舉了兩個例子,在輸入虛擬人實現(xiàn)360度旋轉(zhuǎn)的提示詞后,AI生成了頭部不動,身子旋轉(zhuǎn)的視頻,這更符合她需要的賽博朋克風(fēng)格效果。

第二個例子是高適唱歌,她只輸入了音樂和歌詞,就得到了表現(xiàn)力很強的視頻生成效果。

剪映和CapCut上線了定制數(shù)字人、音色克隆、視頻翻譯的功能。

這一數(shù)字人的形象是基于Transformer音頻驅(qū)動和全臉生成模型的技術(shù),聲音基于音色克隆大模型技術(shù),可以幫助用戶不需要本人出鏡和錄音,在自媒體口播、營銷帶貨、企業(yè)培訓(xùn)等場景通過數(shù)字人切換不同語言完成表達(dá)。

數(shù)字人的制作需要用戶錄制或者上傳一段高清3分鐘正面視頻,就可以創(chuàng)建數(shù)字分身,如果只需要音色克隆只需要大概5秒鐘的聲音輸入。

還有一大工具是剪映上線的內(nèi)容營銷創(chuàng)作工具,用戶直接填寫商品名、上傳素材,或者直接上傳商品頁鏈接,就能一鍵生成不同風(fēng)格的帶貨視頻。

陳欣然透露說,即夢AI已經(jīng)接入豆包兩款視頻生成模型,正在進行內(nèi)測的場景和效果打磨。

03.

火山方舟2.0,破解大模型效果不好、成本太貴、落地太難關(guān)鍵挑戰(zhàn)

火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪重點提及了大模型在業(yè)務(wù)場景落地的關(guān)鍵挑戰(zhàn),是效果不好、成本太貴、落地太難。豆包大模型在做的就是基于更強模型、更低價格、更易落地的宗旨,助力企業(yè)AI落地。

吳迪談道,更強模型需要具備兩個必要條件,就是用量非常大、基座模型處理的場景足夠豐富和廣泛。

目前,豆包大模型已經(jīng)在公司內(nèi)部50多條業(yè)務(wù)線和外部30多個行業(yè)實現(xiàn)非常大的用量,日均Tokens使用量超過1.3萬億。

AI角色內(nèi)容社區(qū)和AI創(chuàng)作平臺想法流基于豆包大模型能力,實現(xiàn)了人均對話輪次提升達(dá)到150%~350%之間,綜合線上成功請求率達(dá)到99.95%。

還有一家AI客服訓(xùn)練平臺的全渠道智能知識庫曉多科技,實現(xiàn)初始支持RPM提升了2000多倍,支持高并發(fā)任務(wù)。

字節(jié)跳動的自有業(yè)務(wù)豆包愛學(xué),基于豆包新版大模型核心指標(biāo)顯著提升10%,題目解析可用率提升。

豆包文生圖模型2.0采用了更高效的DiT架構(gòu),優(yōu)化了物理世界關(guān)于多主體、多數(shù)量、大小、高矮胖瘦等六類復(fù)雜的生成,能更好呈現(xiàn)小說、超現(xiàn)實設(shè)計等畫面。

語音合成模型打破了音色數(shù)量限制,可以混合數(shù)百種音色,供企業(yè)DIY不同情緒、性別、年齡、風(fēng)格的聲音效果。

在解決大模型落地困難方面,火山方舟2.0的基本理念是模型效果好、性價比高、流量大,圍繞這一核心,算法工程師、信息安全、更強性能、安全可信是其四大支撐。

在更強的系統(tǒng)性能方面,豆包模型支持最大的初始并發(fā),這得益于其有充沛的算力、推理層優(yōu)化、系統(tǒng)調(diào)度能力的乘積,可以在50-120秒內(nèi)完成數(shù)千卡GPU部署。

上下文緩存方面,據(jù)吳迪透露,今年10月,他們將開放Context上下文緩存,企業(yè)可以減少多輪對話延遲,改善用戶體驗。同時,其會進一步降低企業(yè)使用成本。

火山方舟還打造了全周期安全可信方案,通過身份認(rèn)證、環(huán)境隔離、數(shù)據(jù)保密、信息無痕、操作可審計構(gòu)建大模型安全“堡壘”。

為了擴展大模型應(yīng)用的能力邊界,火山引擎3+X插件升級,其中知識庫插件可支持更大規(guī)模、更低延遲、更高召回率和準(zhǔn)確率等。

04.

結(jié)語:視頻生成模型爆發(fā)機遇已來

近一年來,AI視頻生成領(lǐng)域的熱度持續(xù)攀升,多家AI公司推出了新的視頻生成模型,引發(fā)了行業(yè)內(nèi)的激烈競爭,從圖像生成、圖像編輯到更為復(fù)雜的長視頻、三維信息生成等模型問世,徹底引爆了這條賽道。

坐擁抖音短視頻豐富視頻素材的字節(jié)跳動,此次重磅發(fā)布了視頻生成模型,為視頻生成賽道注入新的動力。從其已經(jīng)發(fā)布的諸多Demo來看,在語義理解、視頻生成的順滑度方面可用性更強,并且字節(jié)跳動還將豆包模型技術(shù)應(yīng)用到了已有的剪映、即夢AI等工具中,進一步加速視頻生成的落地與規(guī)?;瘧?yīng)用。

品牌主題視頻

聯(lián)想集團首次完整呈現(xiàn)一系列質(zhì)造奇觀,從個體部件到整機組裝工藝,建構(gòu)起當(dāng)代制造業(yè)生產(chǎn)力與生產(chǎn)關(guān)系的底色。聯(lián)想集團使AI向?qū)崳嶓w經(jīng)濟,推動產(chǎn)業(yè)和社會發(fā)展,加速邁向人本智能的未來。

用戶評論

表情0/300
喵,沒有找到相關(guān)結(jié)果~
暫時沒有評論,下載喜馬拉雅與主播互動
猜你喜歡
殺死煩惱

殺死煩惱演唱:House劉佳/YG/張卓含威作詞:劉佳/YG作曲:劉佳/YG發(fā)行日期:2022-07-15發(fā)行公司:杭州回聲文化藝術(shù)策劃有限公司歌曲介紹:Hou...

by:華語音樂

殺死神靈

啊因為有兩本書同時在更,這本只有暫時擱置下下了……對不起友友們,會盡快調(diào)整好更新的!--------------------------------------...

by:若有像你

殺死全世界

為了守住一個不可告人的秘密,蕓兒殺死了度祥的妻子,然而就在她與事先合謀的不在場證人小亮聯(lián)系時,詭異的事情出現(xiàn)了,她只能依據(jù)命運的安排,一步一步往下走……外表懦...

by:牛播臺

殺死小說家

本書講述了人氣小說家——遙川悠真突然失蹤。在他背后,隱藏著一位至今為止不被外人知曉的少女——幕居梓。她深愛著遙川悠真的小說,并在偶然的情況下被遙川悠真救下,與其...

by:龍馬前行

殺死小說家

冠以“愛”之名的瘋狂,是拯救還是毀滅。

by:50萬光年

【同人】殺死汝愛

本作品選自HP橙光游戲《一千零三萬》中的獨立番外《殺死汝愛》改編自戴涵涵同名電影《殺死汝愛》作者:戴恩瑞爾埋爾,河底的水由苦難構(gòu)成奇跡的光亮照不進來我們都在lo...

by:天龍座戀人z考研緩更

殺死那個白月光

聞燈是聞家的大小姐,身患惡疾,年壽難永。她十七歲那年,有一青年夜闖聞家,對她一見鐘情,為她拂花釀酒,為她血洗青城,為她長跪神佛,誦十年經(jīng)。二十七歲的聞燈...

by:百旎baini

殺死那個白月光

好吃這種相愛卻注定無法相守,帶著宿命感的虐戀設(shè)定TT!一直想讀黑蓮花來著,沒版權(quán)一直被下架,難過。

by:白露霑人袂