豆包大模型兇猛上新:輕松創(chuàng)作電影質(zhì)感大片、歌曲,同音色翻譯趕超人類同傳。
作者 | 程茜
編輯 | 云鵬
智東西9月24日報道,今天,字節(jié)的視頻生成大模型首次亮相,分分鐘化身超級導(dǎo)演,鏡頭切換、電影質(zhì)感、多主體交互都能輕松拿捏;其通用模型Pro綜合能力提升25%,初始TPM支持800k,高于業(yè)界其他模型。
這些都是今天字節(jié)跳動豆包大模型家族的重磅更新,連添了視頻、音樂、同聲傳譯三大新成員;還有文生圖模型優(yōu)化了六類復(fù)雜生成,語音合成模型可混合數(shù)百種音色……
其中的重磅發(fā)布莫過于視頻生成模型,這意味著繼快手后,另一大短視頻巨頭字節(jié)也正式進軍AI視頻生成賽道。
豆包的視頻生成模型可以實現(xiàn)對復(fù)雜指令的理解和遵循,平滑實現(xiàn)鏡頭的變焦、環(huán)繞、縮放,保持多鏡頭切換的一致性以及多尺寸、多風(fēng)格生成。據(jù)火山引擎總裁譚待透露,該模型會在國慶節(jié)之后上線到火山方舟平臺。
它可以根據(jù)提示詞生成電影質(zhì)感的畫面:
超現(xiàn)實的提示詞也能輕松應(yīng)對,如有翅膀的青蛙、浮空小島中生長的樹等:
在真實使用場景中,人們往往需要不同比例或者尺寸大小的視頻,該模型可以滿足多比例、多尺寸的視頻生成:
即使視頻畫面切換,豆包生成的視頻鏡頭仍能保持一致性:
還有各種或逼真、或科幻的視覺效果:
今年5月,豆包大模型產(chǎn)品家族首次亮相,目前已經(jīng)涵蓋大語言模型、視覺大模型、語音大模型三大品類發(fā)布了13個大模型。此外,豆包通用模型Pro的升級還包括上下文窗口達(dá)到256k。
同時,豆包模型技術(shù)已經(jīng)應(yīng)用到了剪映、即夢AI和醒圖工具中,打造了數(shù)字分身生成、內(nèi)容營銷工具等。
01.
豆包Pro綜合能力提升25%
視頻、音樂、同聲傳譯模型亮相
今年5月,豆包大模型產(chǎn)品家族正式發(fā)布,火山引擎總裁譚待透露道,截至今年9月,豆包大模型Tokens調(diào)用量提升超過10倍,其日均Tokens使用量超過1.3萬億。多模態(tài)方面,日均生成圖片5000萬張,日均處理語音85萬小時,這相當(dāng)于7萬天廣播節(jié)目的總時長。
除此以外,豆包大模型產(chǎn)品家族還迎來三個新成員:視頻生成模型、音樂生成模型、同聲傳譯模型。
1、豆包通用模型Pro:初始TPM業(yè)界最高,上下文窗口達(dá)256k
截至8月底,豆包通用模型Pro綜合能力累計提升25%,其中數(shù)學(xué)能力、專業(yè)知識實現(xiàn)超過35%的提升。
在企業(yè)應(yīng)用場景中,不僅要考慮模型能力,還要考慮成本。譚待談道,今年5月,火山引擎成為國內(nèi)第一個將大模型成本降到每1000 token低于一厘錢的公司。這樣的大幅降價背后大量創(chuàng)新應(yīng)用涌現(xiàn),過去幾個月內(nèi)模型調(diào)用量增長突飛猛進。
他補充說,當(dāng)Tokens的價格不再是阻礙應(yīng)用創(chuàng)新的阻力,模型的性能又成為應(yīng)用上量的關(guān)鍵。
豆包Pro模型再次升級。豆包Pro默認(rèn)的初始TPM支持800k,高于業(yè)界其他模型,還可以根據(jù)企業(yè)具體需求進一步擴容。豆包Pro上下文窗口達(dá)到256k,可一次性處理約40萬漢字,這相當(dāng)于一口氣讀完《三體》的第一部和第二部,同時,譚待還宣布,豆包Pro加量不加價。
2、視頻生成模型:多主體、動作可絲滑交互,鏡頭平滑切換
豆包大模型家族的第一位重磅新成員就是視頻生成模型。
豆包視頻生成模型有PixelDance和Seaweed兩個版本,PixelDance V1.4是ByteDance Research團隊開發(fā)的 DiT 結(jié)構(gòu)的視頻生成大模型,同時支持文生視頻和圖生視頻,能夠一次性生成長達(dá)10秒的視頻片段。
Seaweed版本支持兩種文生視頻和圖生視頻兩種方式。該技術(shù)基于Transformer結(jié)構(gòu),利用時空壓縮的潛空間進行訓(xùn)練,模型原生支持多分辨率生成,適配橫屏、豎屏,并能夠根據(jù)用戶輸入的高清圖像分辨率進行適配和保真。
基于豆包視頻生成模型,用戶可以通過輸入文字和圖片獲得一段視頻。這一模型采用了高效的DiT融合計算單元、全新設(shè)計的擴散模型訓(xùn)練方法、深度優(yōu)化的Transformer結(jié)構(gòu)。
其優(yōu)勢在于首先能實現(xiàn)對復(fù)雜指令的理解和遵循,解鎖時序性多拍動作指令與多個主體間的交互能力。
其次是鏡頭語言,根據(jù)Prompt豆包視頻生成模型可以讓視頻在主體的大動態(tài)和鏡頭中進行平滑切換,實現(xiàn)鏡頭的變焦、環(huán)繞、縮放等。
第三是一致性多鏡頭生成,該模型能實現(xiàn)多鏡頭切換的一致性,通過一個Prompt實現(xiàn)多個鏡頭切換,同時保持主體、風(fēng)格、氛圍的一致性。
最后是支持豐富題材,豆包視頻生成模型的風(fēng)格不限于黑白、3D 動畫、2D 動畫、國畫等,同時還能根據(jù)企業(yè)的發(fā)布平臺生成1:1、3:4、4:3、16:9、9:16、21:9六種比例的視頻,適配于不同終端,以及電影、手機豎屏等不同畫幅。
具體到電商營銷、動畫教育、城市文旅、微劇本等商業(yè)場景應(yīng)用中,如電商營銷場景需要根據(jù)商品生成大量配合營銷節(jié)點的視頻素材,以及不同尺寸,豆包視頻模型可以做到快速把商品3D化,并配合不同節(jié)日替換風(fēng)格和背景,生成不同尺寸的內(nèi)容進行發(fā)布。
3、音樂生成模型:詞曲唱全流程覆蓋,還能模擬真假音轉(zhuǎn)換技巧
豆包音樂模型實現(xiàn)了音樂生成通用框架,從詞曲唱三個方面生成高質(zhì)量音樂。
用戶首先輸入Prompt就可以得到一段歌詞,然后在10余種不同風(fēng)格的音樂和情緒表達(dá)中選擇進一步創(chuàng)作出歌曲,再基于豆包語音能力,生成可以媲美真人演唱效果的聲音,可以實現(xiàn)氣口、真假音轉(zhuǎn)換技巧的模擬。
目前,開發(fā)者可以通過火山方舟使用豆包音樂模型API,用戶也可以直接通過豆包App和海綿音樂App創(chuàng)作音樂。
4、同聲傳譯模型:端到端模型架構(gòu),模擬真人發(fā)音
豆包同聲傳譯模型采用端到端模型架構(gòu),再疊加豆包的語音克隆能力,去模擬真人發(fā)音。
在實時翻譯方面,豆包同聲傳譯模型可以做到邊說邊譯,且在辦公、法律、教育等場景接近甚至超越人類同傳水平,還能支持跨語言同音色翻譯。
02.
豆包模型技術(shù)接入剪映、即夢AI和醒圖
分分鐘定制數(shù)字分身
即夢AI和剪映市場負(fù)責(zé)人陳欣然談道,不同于傳統(tǒng)的畫筆工具,用AI進行創(chuàng)作是動態(tài)的過程,可以和創(chuàng)作者深度互動,共同創(chuàng)作,生成式AI帶來的一些不可控性,反而能激發(fā)創(chuàng)作者的靈感。
她舉了兩個例子,在輸入虛擬人實現(xiàn)360度旋轉(zhuǎn)的提示詞后,AI生成了頭部不動,身子旋轉(zhuǎn)的視頻,這更符合她需要的賽博朋克風(fēng)格效果。
第二個例子是高適唱歌,她只輸入了音樂和歌詞,就得到了表現(xiàn)力很強的視頻生成效果。
剪映和CapCut上線了定制數(shù)字人、音色克隆、視頻翻譯的功能。
這一數(shù)字人的形象是基于Transformer音頻驅(qū)動和全臉生成模型的技術(shù),聲音基于音色克隆大模型技術(shù),可以幫助用戶不需要本人出鏡和錄音,在自媒體口播、營銷帶貨、企業(yè)培訓(xùn)等場景通過數(shù)字人切換不同語言完成表達(dá)。
數(shù)字人的制作需要用戶錄制或者上傳一段高清3分鐘正面視頻,就可以創(chuàng)建數(shù)字分身,如果只需要音色克隆只需要大概5秒鐘的聲音輸入。
還有一大工具是剪映上線的內(nèi)容營銷創(chuàng)作工具,用戶直接填寫商品名、上傳素材,或者直接上傳商品頁鏈接,就能一鍵生成不同風(fēng)格的帶貨視頻。
陳欣然透露說,即夢AI已經(jīng)接入豆包兩款視頻生成模型,正在進行內(nèi)測的場景和效果打磨。
03.
火山方舟2.0,破解大模型效果不好、成本太貴、落地太難關(guān)鍵挑戰(zhàn)
火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪重點提及了大模型在業(yè)務(wù)場景落地的關(guān)鍵挑戰(zhàn),是效果不好、成本太貴、落地太難。豆包大模型在做的就是基于更強模型、更低價格、更易落地的宗旨,助力企業(yè)AI落地。
吳迪談道,更強模型需要具備兩個必要條件,就是用量非常大、基座模型處理的場景足夠豐富和廣泛。
目前,豆包大模型已經(jīng)在公司內(nèi)部50多條業(yè)務(wù)線和外部30多個行業(yè)實現(xiàn)非常大的用量,日均Tokens使用量超過1.3萬億。
AI角色內(nèi)容社區(qū)和AI創(chuàng)作平臺想法流基于豆包大模型能力,實現(xiàn)了人均對話輪次提升達(dá)到150%~350%之間,綜合線上成功請求率達(dá)到99.95%。
還有一家AI客服訓(xùn)練平臺的全渠道智能知識庫曉多科技,實現(xiàn)初始支持RPM提升了2000多倍,支持高并發(fā)任務(wù)。
字節(jié)跳動的自有業(yè)務(wù)豆包愛學(xué),基于豆包新版大模型核心指標(biāo)顯著提升10%,題目解析可用率提升。
豆包文生圖模型2.0采用了更高效的DiT架構(gòu),優(yōu)化了物理世界關(guān)于多主體、多數(shù)量、大小、高矮胖瘦等六類復(fù)雜的生成,能更好呈現(xiàn)小說、超現(xiàn)實設(shè)計等畫面。
語音合成模型打破了音色數(shù)量限制,可以混合數(shù)百種音色,供企業(yè)DIY不同情緒、性別、年齡、風(fēng)格的聲音效果。
在解決大模型落地困難方面,火山方舟2.0的基本理念是模型效果好、性價比高、流量大,圍繞這一核心,算法工程師、信息安全、更強性能、安全可信是其四大支撐。
在更強的系統(tǒng)性能方面,豆包模型支持最大的初始并發(fā),這得益于其有充沛的算力、推理層優(yōu)化、系統(tǒng)調(diào)度能力的乘積,可以在50-120秒內(nèi)完成數(shù)千卡GPU部署。
上下文緩存方面,據(jù)吳迪透露,今年10月,他們將開放Context上下文緩存,企業(yè)可以減少多輪對話延遲,改善用戶體驗。同時,其會進一步降低企業(yè)使用成本。
火山方舟還打造了全周期安全可信方案,通過身份認(rèn)證、環(huán)境隔離、數(shù)據(jù)保密、信息無痕、操作可審計構(gòu)建大模型安全“堡壘”。
為了擴展大模型應(yīng)用的能力邊界,火山引擎3+X插件升級,其中知識庫插件可支持更大規(guī)模、更低延遲、更高召回率和準(zhǔn)確率等。
04.
結(jié)語:視頻生成模型爆發(fā)機遇已來
近一年來,AI視頻生成領(lǐng)域的熱度持續(xù)攀升,多家AI公司推出了新的視頻生成模型,引發(fā)了行業(yè)內(nèi)的激烈競爭,從圖像生成、圖像編輯到更為復(fù)雜的長視頻、三維信息生成等模型問世,徹底引爆了這條賽道。
坐擁抖音短視頻豐富視頻素材的字節(jié)跳動,此次重磅發(fā)布了視頻生成模型,為視頻生成賽道注入新的動力。從其已經(jīng)發(fā)布的諸多Demo來看,在語義理解、視頻生成的順滑度方面可用性更強,并且字節(jié)跳動還將豆包模型技術(shù)應(yīng)用到了已有的剪映、即夢AI等工具中,進一步加速視頻生成的落地與規(guī)?;瘧?yīng)用。
品牌主題視頻
聯(lián)想集團首次完整呈現(xiàn)一系列質(zhì)造奇觀,從個體部件到整機組裝工藝,建構(gòu)起當(dāng)代制造業(yè)生產(chǎn)力與生產(chǎn)關(guān)系的底色。聯(lián)想集團使AI向?qū)崳嶓w經(jīng)濟,推動產(chǎn)業(yè)和社會發(fā)展,加速邁向人本智能的未來。
用戶評論