我們用GLM-4-Plus搞了個(gè)“閱讀智能體”,工作效率提升了300%

2024-10-13 03:01:0110:29 57
所屬專輯:Alter聊科技
聲音簡介

大模型落地到千行萬業(yè)的最后一道障礙,正在無形中“瓦解”。等待我們的,注定是一個(gè)被大模型改寫的星光熠熠的時(shí)代。

撰文|張賀飛

編輯|沈菲菲

每隔一段時(shí)間,大模型行業(yè)都會(huì)傳出新的消息。

先是在9月中旬,OpenAI在沒有預(yù)告的情況下發(fā)布了o1模型的預(yù)覽版;不到半個(gè)月后,國內(nèi)的智譜發(fā)布了若干更新模型,其中就包括新的基座大模型GLM-4-Plus,也是智譜當(dāng)前最強(qiáng)大的模型。

國外圍繞o1模型的討論和場景探索還在繼續(xù),也讓我們對GLM-4-Plus萌生了興趣:智譜的最強(qiáng)模型到底有多強(qiáng),能夠解決哪些“懸而未決”的問題,又將帶來什么樣的影響?

01.

全球前三的GLM-4-Plus,

到底強(qiáng)在哪里

早在9月底的時(shí)候,國內(nèi)人工智能權(quán)威機(jī)構(gòu)清華大學(xué)基礎(chǔ)模型研究中心就對國內(nèi)外最具代表性的大模型進(jìn)行了新一輪的綜合性測評,評測數(shù)據(jù)集包含語義、對齊、代碼、智能體、安全、數(shù)理邏輯、指令遵循等等。

按照清華大學(xué)基礎(chǔ)模型研究中心發(fā)布的SuperBench九月綜合榜單,GLM-4-Plus的綜合能力排名前三,打破了過去被國外大模型壟斷前三甲的局面,并在多個(gè)關(guān)鍵能力上保持了國際領(lǐng)先水平。

鑒于GLM-4-Plus在上線前已經(jīng)內(nèi)測了一段時(shí)間,期間有不少技術(shù)博主曾進(jìn)行評測,我們關(guān)注到了三個(gè)層面的能力提升。

一是語言理解能力,通過大規(guī)模語料庫訓(xùn)練和優(yōu)化算法,GLM-4-Plus在處理復(fù)雜語義上的表現(xiàn)較其他模型更加出色。

借用測評博主toyama nao的結(jié)論:在難度較高的水果熱量計(jì)算上,大部分模型并沒有真的懂題目,但GLM-4-Plus完全理解了題意,并采用逐步湊數(shù)的方法給出了正確答案,而且回答非常有“人味”,也是第一個(gè)在此題拿到滿分的模型。

二是長文本能力,GLM-4-Plus支持128K上下文,憑借創(chuàng)新的記憶機(jī)制和分段處理技術(shù),可以高效地處理大量文本信息。

我們之前曾讓支持1M上下文的GLM-4-Long扮演了“書童”的角色,兩分鐘就能“熟讀”50多萬字的《國史大綱》。GLM-4-Plus在上下文長度上沒有過于“激進(jìn)”,而是基于精準(zhǔn)的長短文本數(shù)據(jù)混合策略,取得了更強(qiáng)的長文本的推理效果,能夠滿足論文閱讀、文章總結(jié)等更高頻的應(yīng)用需求。

三是時(shí)序問答和多輪對話能力,從單一的圖像識別進(jìn)化到對視頻、圖像的理解,并能針對單個(gè)視頻進(jìn)行多輪對話問答。

在智譜的Demo中,輸入長達(dá)40秒的視頻后,GLM-4-Plus可以準(zhǔn)確理解并感知時(shí)間,精準(zhǔn)定位到事件發(fā)生的時(shí)刻,然后在視頻理解的基礎(chǔ)上結(jié)合上下文進(jìn)行對話,比如視頻中的某個(gè)物體是在第幾秒出現(xiàn)的、一共出現(xiàn)了幾次,在智能安防、智能檢測等場景中有著不可小覷的應(yīng)用空間。

當(dāng)然,以上只是我們比較感興趣的幾個(gè)能力,GLM-4-Plus的提升還體現(xiàn)在數(shù)學(xué)問題與代碼計(jì)算、數(shù)據(jù)分析任務(wù)、機(jī)器翻譯等方面,作為智譜全模型家族堅(jiān)實(shí)的能力底座,堪稱“六邊形戰(zhàn)士”般的存在。

02.

比性能指標(biāo)有感知的,

是解決問題的能力

智譜提供了GLM-4-Plus的API接口,即使不懂技術(shù)原理、不會(huì)訓(xùn)練和微調(diào),也可以調(diào)用API來解決工作中的實(shí)際問題,甚至動(dòng)手開發(fā)出一個(gè)“智能體”,相比性能指標(biāo)上的提升,有著更直接的價(jià)值感知。

因?yàn)槿粘9ぷ餍枰幚泶罅康奈淖仲Y料,限于大模型的語言理解和長文本能力,一些需求尚未被滿足。于是我們在智譜的開放平臺(tái)bigmodel上調(diào)用了GLM-4-Plus,并進(jìn)行了針對性的場景測試:

第一個(gè)是財(cái)務(wù)報(bào)告的閱讀和信息整理。

每次到了財(cái)報(bào)季,不少企業(yè)會(huì)公布一份長達(dá)幾十頁乃至上百頁的報(bào)告,從頭到尾閱讀報(bào)告的內(nèi)容,至少需要兩個(gè)小時(shí)的時(shí)間,而且會(huì)習(xí)慣性忽略掉一些關(guān)鍵信息,所以我們將信息的整理工作交給了GLM-4-Plus。

我們上傳了PDF文件,并輸入“總結(jié)報(bào)告中的核心信息”的指令后,GLM-4-Plus迅速給出了我們想要的信息:

其中有兩個(gè)讓我們眼前一亮的細(xì)節(jié)處理:原報(bào)告中單位是“千美元”,GLM-4-Plus在輸出的總結(jié)內(nèi)容中,自動(dòng)將單位換算成了“百萬美元”;“晶圓代工”的收入和增長并未體現(xiàn)在圖表中,僅在“管理層討論與分析”的篇末提及,依舊被GLM-4-Plus精準(zhǔn)“捕捉”。

第二個(gè)是圍繞一些細(xì)節(jié)信息的對話問答。

文檔閱讀幾乎是所有大模型主打的場景,僅僅是信息總結(jié)似乎不能證明GLM-4-Plus的能力有多強(qiáng)。所以我們進(jìn)一步提升了難度,用一些“隱藏”在表格中的信息詢問GLM-4-Plus,驗(yàn)證能否在數(shù)萬字的報(bào)告中準(zhǔn)確回答。

比如“目前有多少研發(fā)人員,30歲以下年輕人占比”的問題:

這個(gè)問題的迷惑性在于,表格中分別列舉了2023年中和2024年中的研發(fā)人員數(shù)量,如果大模型不能準(zhǔn)確理解上下文語義,很可能會(huì)給出2023年的數(shù)據(jù)。GLM-4-Plus的表現(xiàn)無疑可圈可點(diǎn),不僅準(zhǔn)確抓住了2024年的數(shù)據(jù),給出了表格中沒有的計(jì)算過程,而且將和問題對應(yīng)的數(shù)字進(jìn)行了加黑處理。

第三個(gè)是提煉核心信息并生成視頻腳本。

除了歸納總結(jié)和信息檢索,另一個(gè)剛需場景在于內(nèi)容生成。我們嘗試讓GLM-4-Plus在報(bào)告的基礎(chǔ)上提煉核心信息并生成視頻腳本,在這個(gè)產(chǎn)品高度同質(zhì)化的賽道上,GLM-4-Plus能否給出不一樣的體驗(yàn)感呢?

結(jié)果再次超出了我們的預(yù)期。

原以為GLM-4-Plus會(huì)像很多大模型一樣只是對信息進(jìn)行簡單的總結(jié),最終給到的是一份90分的高分答卷,涵蓋旁白、畫面切換以及對插入圖表、數(shù)據(jù)動(dòng)畫、“背景音樂選擇輕快但不喧賓奪主的風(fēng)格”等貼心建議,也讓我們進(jìn)一步理解了測評博主toyama nao為何會(huì)給GLM-4-Plus“有人味”的評價(jià)。

做一個(gè)總結(jié)的話,在GLM-4-Plus的幫助下,我們的工作效率至少提升了300%,考慮到智譜已經(jīng)在智譜清言上線了視頻創(chuàng)作智能體清影,30秒即可將任意文字生成視頻,讓我們對GLM-4-Plus的能力有了更多的期待:也許在不久后,只需上傳一份財(cái)報(bào),就能自動(dòng)生成視頻快訊。

03.

人機(jī)交互的新范式,

正被千萬開發(fā)者定義

盡管我們的需求主要集中在內(nèi)容創(chuàng)作上,但在體驗(yàn)了GLM-4-Plus的能力后,腦海中產(chǎn)生了這樣一個(gè)認(rèn)知:GLM-4-Plus提升的不單單是工作效率,人機(jī)交互的習(xí)慣正在朝不可逆的方向演變。

就像財(cái)報(bào)分析的過程,有別于過去逐段閱讀、邊看邊記筆記的方式,GLM-4-Plus的多輪對話能力,讓我們可以對著目錄針對性提問,對整個(gè)工作流程和效率幾乎是重塑的,一旦養(yǎng)成了習(xí)慣就不愿再重復(fù)過去的方式。

在整理素材的過程中,我們看到了GLM-4-Plus更多的應(yīng)用場景:

有人將整理的大廠面試題庫“喂”給了GLM-4-Plus,然后讓模型生成針對性的面試題目。聯(lián)想到智譜清言APP上線的“視頻通話”功能,讓AI扮演面試官的角色,進(jìn)行一對一針對性訓(xùn)練并非沒有可能。

也有人在挖掘GLM-4-Plus的數(shù)學(xué)問題與代碼計(jì)算能力,在大模型的幫助下一步步厘清破題思路、給出準(zhǔn)確的代碼計(jì)算邏輯,進(jìn)而幫助學(xué)生更好地分析和解答數(shù)學(xué)題,讓GLM-4-Plus充當(dāng)一對一家教。

更大范圍的用戶習(xí)慣,還需要和千萬開發(fā)者一起培養(yǎng)。

比如智譜清言APP的“視頻通話”功能,當(dāng)AI有了“眼睛”后,幫我們解鎖了作業(yè)輔導(dǎo)、產(chǎn)品介紹、游戲助手等一系列新體驗(yàn)。目前智譜已經(jīng)開始內(nèi)測GLM-4-Plus-VideoCall,將“視頻通話”的魔法賦予越來越多的開發(fā)者。

以智能硬件為例,VR眼鏡、智能音箱、家教學(xué)習(xí)機(jī)等產(chǎn)品都可以集成GLM-4-Plus-VideoCall,實(shí)現(xiàn)視頻通話、語音多輪交互等跨模態(tài)能力,讓電影《Her》中的場景從科幻走進(jìn)現(xiàn)實(shí)。

同樣的例子還有風(fēng)頭正勁的具身智能,在工業(yè)機(jī)器人等場景中,一旦擁有了視頻分析與實(shí)時(shí)交互能力,將不再局限于程序設(shè)置的機(jī)械操作,極大提升工業(yè)機(jī)器人的自主操作能力,進(jìn)一步解放生產(chǎn)力。

也就是說,GLM-4-Plus不只是“智能體”開發(fā)者的機(jī)會(huì),還為硬件開發(fā)者提供了軟硬協(xié)同的合作空間。

把視角再放大一些的話,蘋果已經(jīng)在iPhone 16系列上搭載了一顆獨(dú)立的“相機(jī)鍵”,并在官方演示中將其定義為視覺AI的交互入口,在很大程度上預(yù)示了硬件創(chuàng)新的方向。

由此可以得出的結(jié)論是:智譜等大模型廠商已經(jīng)向硬件開發(fā)者張開了懷抱,而蘋果為首的硬件廠商正在積極迎接AI時(shí)代,一場“雙向奔赴”將是可以預(yù)見的結(jié)局。

04.

寫在最后

令人興奮的,遠(yuǎn)不止大模型的能力進(jìn)階和落地場景。

智譜在更新模型的同時(shí),還同步釋放了一波紅利:10月份將贈(zèng)送每位用戶1億tokens額度,并根據(jù)消耗梯度提供最高1折的API折扣。

原因并不難解釋,GLM-4-Plus在能力提升的同時(shí),成本也在大幅下降。大模型落地到千行萬業(yè)的最后一道障礙,正在無形中“瓦解”。等待我們的,注定是一個(gè)被大模型改寫的星光熠熠的時(shí)代。

往期推薦

01

兩分鐘“熟讀”《國史大綱》,大模型的下一個(gè)爆點(diǎn)是“書童”?

02

“人手一個(gè)賈維斯”的愿望,正在被“視頻通話”功能帶進(jìn)現(xiàn)實(shí)

主理人 | 張賀飛

前媒體人、公關(guān),現(xiàn)專職科技自媒體

鈦媒體、36kr、創(chuàng)業(yè)邦、福布斯中國等專欄作者

轉(zhuǎn)載、商務(wù)、開白以及讀者交流,請聯(lián)系個(gè)人微信「imhefei」

用戶評論

表情0/300
喵,沒有找到相關(guān)結(jié)果~
暫時(shí)沒有評論,下載喜馬拉雅與主播互動(dòng)
猜你喜歡
我們我們的歷史

給孩子們講的人類文明歷史

by:snowomen

我們的家·我們的房子·我們的農(nóng)莊

不同版本,給你不一樣的感覺。《我們的家?我們的房子?我們的農(nóng)莊》以家庭生活、莊園生活為主要內(nèi)容,著重對日常生活的描繪。編者從卡爾·拉松及女兒蘇姍的回憶錄中,摘選...

by:桐聲童語

我們很遠(yuǎn) 我們很近

愿做好朋友任何感情出現(xiàn)裂痕,都從小事開始。經(jīng)常遇到這樣的對話:聽說你最近換工作了,收入怎么樣?。课铱茨惆l(fā)了朋友圈,談了對象怎么不告訴我呀!聽說你們上次吵架挺兇...

by:海霞煦時(shí)

我們用青春寫就的詩歌

總有一些感情,讓人永生難忘,也總有一些詩歌,讓人想一讀再讀,就像我們的人生一樣,雖然總有一些遺憾,但無論是歡笑還是悲傷,總會(huì)讓我們時(shí)時(shí)想起,反復(fù)思量,就如這些詩...

by:青云逸之

我們用聲音溫暖你。

【FM白+黑,我們用聲音,溫暖你。】你知道的,我們一直都在。

by:FM白加黑

我們

愛情里最美好的事,莫過于“你”和“我”最終成為我們。

by:芹菜qincag

我們

傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心!傷了男人的自尊心...

by:Stray_貓來來第二次