11月6日,李開(kāi)復(fù)帶隊(duì)創(chuàng)辦的AI 2.0公司零一萬(wàn)物,正式發(fā)布首款預(yù)訓(xùn)練大模型 Yi-34B,并在阿里云魔搭社區(qū)開(kāi)源首發(fā)。
據(jù)了解,“Yi”系列大模型的命名來(lái)自“一”的拼音,“Yi”中的“Y”上下顛倒,巧妙形同漢字的 “人”,結(jié)合AI里的 i,代表 Human + AI。零一萬(wàn)物相信 AI 賦能推動(dòng)人類社會(huì)前行,AI 應(yīng)本著以人為本的精神,為人類創(chuàng)造巨大的價(jià)值。
根據(jù)Hugging Face英文開(kāi)源社區(qū)平臺(tái)和C-Eval中文評(píng)測(cè)的最新榜單,Yi-34B預(yù)訓(xùn)練模型以黑馬姿態(tài)取得了多項(xiàng) SOTA 國(guó)際最佳性能指標(biāo)認(rèn)可,這也是迄今為止唯一成功登頂Hugging Face全球開(kāi)源模型排行榜的國(guó)產(chǎn)模型。
零一萬(wàn)物創(chuàng)始人及CEO李開(kāi)復(fù)博士表示:“零一萬(wàn)物堅(jiān)定進(jìn)軍全球第一梯隊(duì)目標(biāo),從招的第一個(gè)人,寫(xiě)的第一行代碼,設(shè)計(jì)的第一個(gè)模型開(kāi)始,就一直抱著成為‘World's No.1’的初衷和決心。我們組成了一支有潛力對(duì)標(biāo) OpenAI、Google等一線大廠的團(tuán)隊(duì),經(jīng)歷了近半年的厚積薄發(fā),以穩(wěn)定的節(jié)奏和全球齊平的研究工程能力,交出了第一張極具全球競(jìng)爭(zhēng)力的耀眼成績(jī)單。Yi-34B可以說(shuō)不負(fù)眾望,一鳴驚人?!?/p>
支持200K上下文窗口 40萬(wàn)字文本處理
零一萬(wàn)物方面對(duì)貝殼財(cái)經(jīng)記者表示,Yi-34B模型將發(fā)布可支持200K超長(zhǎng)上下文窗口版本,可以處理約40萬(wàn)漢字超長(zhǎng)文本輸入。相比之下,GPT-4上下文窗口只有32K,文字處理量約2.5萬(wàn)字。
在語(yǔ)言模型中,上下文窗口是大模型綜合運(yùn)算能力的金指標(biāo)之一,對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長(zhǎng)窗口的語(yǔ)言模型可以處理更豐富的知識(shí)庫(kù)信息,生成更連貫、準(zhǔn)確的文本。
此外,在文檔摘要、基于文檔的問(wèn)答等下游任務(wù)中,長(zhǎng)上下文的能力發(fā)揮著關(guān)鍵作用,行業(yè)應(yīng)用場(chǎng)景廣闊。在法律、財(cái)務(wù)、傳媒、檔案整理等諸多垂直場(chǎng)景里,更準(zhǔn)確、更連貫、速度更快的長(zhǎng)文本窗口功能,可以成為人們更可靠的AI助理,讓生產(chǎn)力迅猛提升。然而,受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問(wèn)題,上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn),因此大多數(shù)發(fā)布的大型語(yǔ)言模型僅支持幾千tokens的上下文長(zhǎng)度。
為了解決這個(gè)限制,零一萬(wàn)物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化,包括:計(jì)算通信重疊、序列并行、通信壓縮等。通過(guò)這些能力增強(qiáng),實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近100倍的能力提升,也為Yi系列模型上下文規(guī)模下一次躍升儲(chǔ)備了充足“電力”。
已在魔搭社區(qū)開(kāi)源首發(fā) 實(shí)測(cè)實(shí)現(xiàn)40%訓(xùn)練成本下降
值得注意的是,零一萬(wàn)物旗下的大模型已經(jīng)在阿里云魔搭社區(qū)首發(fā),此次開(kāi)源的Yi系列模型包含34B和6B兩個(gè)版本。
零一萬(wàn)物方面稱,Yi-34B的200K上下文窗口直接開(kāi)源,不僅能提供更豐富的語(yǔ)義信息,理解超過(guò)1000頁(yè)的PDF文檔,讓很多依賴于向量數(shù)據(jù)庫(kù)構(gòu)建外部知識(shí)庫(kù)的場(chǎng)景,都可以用上下文窗口來(lái)進(jìn)行替代。Yi-34B的開(kāi)源屬性也給想要在更長(zhǎng)上下文窗口進(jìn)行微調(diào)的開(kāi)發(fā)者提供了更多的可能性。
此外,李開(kāi)復(fù)曾經(jīng)表示,“做過(guò)大模型Infra的人比做算法的人才更稀缺”。在打造“World's No.1"梯隊(duì)時(shí),超強(qiáng)的Infra 能力是大模型研發(fā)的核心護(hù)城河之一。如果說(shuō)訓(xùn)練大模型是登山,Infra的能力定義了大模型訓(xùn)練算法和模型的能力邊界,也就是“登山高度”的天花板。在芯片、GPU等算力資源緊缺的當(dāng)下,安全和穩(wěn)定成為大模型訓(xùn)練的生命線。
零一萬(wàn)物方面表示,憑借強(qiáng)大的AI Infra支撐,零一萬(wàn)物團(tuán)隊(duì)能實(shí)現(xiàn)超越行業(yè)水平的訓(xùn)練效果,Yi-34B模型訓(xùn)練成本實(shí)測(cè)下降40%,實(shí)際訓(xùn)練完成達(dá)標(biāo)時(shí)間與預(yù)測(cè)的時(shí)間誤差不到一小時(shí),進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá)50%。截至目前,零一萬(wàn)物Infra能力實(shí)現(xiàn)故障預(yù)測(cè)準(zhǔn)確率超過(guò)90%,故障提前發(fā)現(xiàn)率達(dá)到99.9%,不需要人工參與的故障自愈率超過(guò)95%,有力保障了模型訓(xùn)練的順暢進(jìn)行。
在Yi開(kāi)源模型的全球首發(fā)日,李開(kāi)復(fù)也宣布,在完成 Yi-34B 預(yù)訓(xùn)練的同時(shí),已經(jīng)旋即啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練?!傲阋蝗f(wàn)物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺(tái)、GPU 資源和AI Infra都已經(jīng)準(zhǔn)備好,我們的動(dòng)作會(huì)越來(lái)越快”。
用戶評(píng)論