零一萬(wàn)物發(fā)布開(kāi)源大模型Yi-34B 李開(kāi)復(fù)：進(jìn)軍全球第一梯隊(duì)

2023-11-06 20:34:0105:05 693

所屬專輯：鯨快訊

聲音簡(jiǎn)介

11月6日，李開(kāi)復(fù)帶隊(duì)創(chuàng)辦的AI 2.0公司零一萬(wàn)物，正式發(fā)布首款預(yù)訓(xùn)練大模型 Yi-34B，并在阿里云魔搭社區(qū)開(kāi)源首發(fā)。

據(jù)了解，“Yi”系列大模型的命名來(lái)自“一”的拼音，“Yi”中的“Y”上下顛倒，巧妙形同漢字的 “人”，結(jié)合AI里的 i，代表 Human + AI。零一萬(wàn)物相信 AI 賦能推動(dòng)人類社會(huì)前行，AI 應(yīng)本著以人為本的精神，為人類創(chuàng)造巨大的價(jià)值。

根據(jù)Hugging Face英文開(kāi)源社區(qū)平臺(tái)和C-Eval中文評(píng)測(cè)的最新榜單，Yi-34B預(yù)訓(xùn)練模型以黑馬姿態(tài)取得了多項(xiàng) SOTA 國(guó)際最佳性能指標(biāo)認(rèn)可，這也是迄今為止唯一成功登頂Hugging Face全球開(kāi)源模型排行榜的國(guó)產(chǎn)模型。

零一萬(wàn)物創(chuàng)始人及CEO李開(kāi)復(fù)博士表示：“零一萬(wàn)物堅(jiān)定進(jìn)軍全球第一梯隊(duì)目標(biāo)，從招的第一個(gè)人，寫(xiě)的第一行代碼，設(shè)計(jì)的第一個(gè)模型開(kāi)始，就一直抱著成為‘World's No.1’的初衷和決心。我們組成了一支有潛力對(duì)標(biāo) OpenAI、Google等一線大廠的團(tuán)隊(duì)，經(jīng)歷了近半年的厚積薄發(fā)，以穩(wěn)定的節(jié)奏和全球齊平的研究工程能力，交出了第一張極具全球競(jìng)爭(zhēng)力的耀眼成績(jī)單。Yi-34B可以說(shuō)不負(fù)眾望，一鳴驚人?！?/p>

支持200K上下文窗口 40萬(wàn)字文本處理

零一萬(wàn)物方面對(duì)貝殼財(cái)經(jīng)記者表示，Yi-34B模型將發(fā)布可支持200K超長(zhǎng)上下文窗口版本，可以處理約40萬(wàn)漢字超長(zhǎng)文本輸入。相比之下，GPT-4上下文窗口只有32K，文字處理量約2.5萬(wàn)字。

在語(yǔ)言模型中，上下文窗口是大模型綜合運(yùn)算能力的金指標(biāo)之一，對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要，擁有更長(zhǎng)窗口的語(yǔ)言模型可以處理更豐富的知識(shí)庫(kù)信息，生成更連貫、準(zhǔn)確的文本。

此外，在文檔摘要、基于文檔的問(wèn)答等下游任務(wù)中，長(zhǎng)上下文的能力發(fā)揮著關(guān)鍵作用，行業(yè)應(yīng)用場(chǎng)景廣闊。在法律、財(cái)務(wù)、傳媒、檔案整理等諸多垂直場(chǎng)景里，更準(zhǔn)確、更連貫、速度更快的長(zhǎng)文本窗口功能，可以成為人們更可靠的AI助理，讓生產(chǎn)力迅猛提升。然而，受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問(wèn)題，上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn)，因此大多數(shù)發(fā)布的大型語(yǔ)言模型僅支持幾千tokens的上下文長(zhǎng)度。

為了解決這個(gè)限制，零一萬(wàn)物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化，包括：計(jì)算通信重疊、序列并行、通信壓縮等。通過(guò)這些能力增強(qiáng)，實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近100倍的能力提升，也為Yi系列模型上下文規(guī)模下一次躍升儲(chǔ)備了充足“電力”。

已在魔搭社區(qū)開(kāi)源首發(fā) 實(shí)測(cè)實(shí)現(xiàn)40%訓(xùn)練成本下降

值得注意的是，零一萬(wàn)物旗下的大模型已經(jīng)在阿里云魔搭社區(qū)首發(fā)，此次開(kāi)源的Yi系列模型包含34B和6B兩個(gè)版本。

零一萬(wàn)物方面稱，Yi-34B的200K上下文窗口直接開(kāi)源，不僅能提供更豐富的語(yǔ)義信息，理解超過(guò)1000頁(yè)的PDF文檔，讓很多依賴于向量數(shù)據(jù)庫(kù)構(gòu)建外部知識(shí)庫(kù)的場(chǎng)景，都可以用上下文窗口來(lái)進(jìn)行替代。Yi-34B的開(kāi)源屬性也給想要在更長(zhǎng)上下文窗口進(jìn)行微調(diào)的開(kāi)發(fā)者提供了更多的可能性。

此外，李開(kāi)復(fù)曾經(jīng)表示，“做過(guò)大模型Infra的人比做算法的人才更稀缺”。在打造“World's No.1"梯隊(duì)時(shí)，超強(qiáng)的Infra 能力是大模型研發(fā)的核心護(hù)城河之一。如果說(shuō)訓(xùn)練大模型是登山，Infra的能力定義了大模型訓(xùn)練算法和模型的能力邊界，也就是“登山高度”的天花板。在芯片、GPU等算力資源緊缺的當(dāng)下，安全和穩(wěn)定成為大模型訓(xùn)練的生命線。

零一萬(wàn)物方面表示，憑借強(qiáng)大的AI Infra支撐，零一萬(wàn)物團(tuán)隊(duì)能實(shí)現(xiàn)超越行業(yè)水平的訓(xùn)練效果，Yi-34B模型訓(xùn)練成本實(shí)測(cè)下降40%，實(shí)際訓(xùn)練完成達(dá)標(biāo)時(shí)間與預(yù)測(cè)的時(shí)間誤差不到一小時(shí)，進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá)50%。截至目前，零一萬(wàn)物Infra能力實(shí)現(xiàn)故障預(yù)測(cè)準(zhǔn)確率超過(guò)90%，故障提前發(fā)現(xiàn)率達(dá)到99.9%，不需要人工參與的故障自愈率超過(guò)95%，有力保障了模型訓(xùn)練的順暢進(jìn)行。

在Yi開(kāi)源模型的全球首發(fā)日，李開(kāi)復(fù)也宣布，在完成 Yi-34B 預(yù)訓(xùn)練的同時(shí)，已經(jīng)旋即啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練?！傲阋蝗f(wàn)物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺(tái)、GPU 資源和AI Infra都已經(jīng)準(zhǔn)備好，我們的動(dòng)作會(huì)越來(lái)越快”。

用戶評(píng)論

表情0/300

暫時(shí)沒(méi)有評(píng)論，下載喜馬拉雅與主播互動(dòng)

音頻列表

1
???
無(wú)錫文旅新嘗試，千年古鎮(zhèn)如何煥發(fā)新光彩？
165
2023-11
2
???
零一萬(wàn)物發(fā)布開(kāi)源大模型Yi-34B 李開(kāi)復(fù)：進(jìn)軍全球第一梯隊(duì)
693
2023-11
3
???
國(guó)家發(fā)改委印發(fā)《國(guó)家碳達(dá)峰試點(diǎn)建設(shè)方案》首批35個(gè)試點(diǎn)名額
195
2023-11
4
???
保利置業(yè)前10個(gè)月合同銷售額486億元
124
2023-11
5
???
南非宣布召回駐以色列外交官
147
2023-11
6
???
臺(tái)灣教育界人士批評(píng)民進(jìn)黨當(dāng)局“去古文化”亂象
421
2023-11
7
???
從ESG角度探索綠色金融科技的創(chuàng)新發(fā)展
167
2023-11
8
???
詹敏已任浙江省經(jīng)信廳黨組書(shū)記
118
2023-11
9
???
朱曉明，被逮捕
687
2023-11
10
???
萬(wàn)科債券波動(dòng)引市場(chǎng)擔(dān)憂深圳國(guó)資委、深圳地鐵雙雙表態(tài)支持
2242
2023-11