解析傳媒行業(yè)大模型報(bào)告:AI在哪些維度能切實(shí)幫助媒體工作者?

2024-07-11 17:17:0111:47 121
聲音簡介

7月3日至7月10日,新京報(bào)貝殼財(cái)經(jīng)年會在北京、深圳及香港舉行。在年會的“‘通’往未來,向新有AI”論壇上,新京報(bào)貝殼財(cái)經(jīng)發(fā)布了行業(yè)首份《中國AI大模型測評報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》,該報(bào)告收集了80名媒體行業(yè)人士對9款國內(nèi)主流大模型產(chǎn)品在5個(gè)維度上表現(xiàn)的打分,共涉及18道測試題,162個(gè)大模型生成結(jié)果。

以0分為最低分,10分為最高分計(jì)分,大模型在翻譯、事實(shí)核查、檢索熱點(diǎn)信息、生成新聞稿件四個(gè)維度上的表現(xiàn)均在6分以上,其中翻譯能力以6.42分得分最高,文本生成能力拿到6.08分剛到“及格線”,得分最低的是長文本能力,僅有4.65分,說明大模型的長文本能力目前還難以滿足媒體工作者的日常需求。

為何長文本能力無法滿足記者日常需求?為何生成新聞稿能力剛到“及格線”?目前大模型又能夠幫助媒體工作者做什么?下面,新京報(bào)貝殼財(cái)經(jīng)記者將以具體大模型的實(shí)際生成案例進(jìn)行說明。

長文本總結(jié)痛點(diǎn):兩份年報(bào)不支持同時(shí)上傳 百小應(yīng)、Kimi等無法“讀全”

《報(bào)告》測評了文心一言、通義千問、騰訊元寶、訊飛星火、豆包、百小應(yīng)、智譜清言、Kimi、天工AI共計(jì)9款市面上主流的大模型產(chǎn)品,測試時(shí)間為6月中旬,測試人員以同一個(gè)問題輸入上述大模型的手機(jī)APP或官方網(wǎng)頁版,并以首次生成的內(nèi)容為準(zhǔn),得出了上述結(jié)果。

對于長文本能力,貝殼財(cái)經(jīng)記者共出了5道題目,其中前3道題考察的是大模型的總結(jié)能力,如“最難”的題目2為記者向大模型上傳中國聯(lián)通和中國移動的2023年財(cái)務(wù)報(bào)告,然后要求大模型 “對比中國聯(lián)通與中國移動2023年財(cái)報(bào)中總收入、凈利潤、毛利率等重點(diǎn)財(cái)務(wù)指標(biāo),兩家公司誰更具成長性”??偨Y(jié)并對比財(cái)報(bào)正是財(cái)經(jīng)記者所需要具備的能力之一。

記者在該題目的實(shí)操過程中遇到了不同程度的問題,如對于同時(shí)對比兩份文檔內(nèi)容的需求,通義千問、Kimi等可支持同時(shí)上傳兩份文檔后再輸入要求,但許多大模型只支持“一份一份”上傳文檔,上傳一份后,大模型即開始自動總結(jié)其中內(nèi)容,記者只能等上傳一份文檔大模型總結(jié)完內(nèi)容后,再上傳另一份文檔,然后依靠大模型的記憶能力再提出“對比財(cái)報(bào)”的要求,頗為麻煩。

記者用于測試的中國聯(lián)通與中國移動的2023年財(cái)報(bào)共計(jì)758.2萬字節(jié),大小為7.23MB。當(dāng)記者試圖上傳這兩份文件時(shí),百小應(yīng)顯示“總內(nèi)容已超過對話內(nèi)容長度1171%,請刪除部分條件”,智譜清言顯示“內(nèi)容已超過對話長度17.52%,請刪除部分文件”,Kimi則提示“kimi只能閱讀全部文件的51%,請刪減后發(fā)送”,這也導(dǎo)致這三家大模型無法勝任媒體記者對比財(cái)報(bào)的這一需求。

而對于生成了對比內(nèi)容的大模型,貝殼財(cái)經(jīng)記者發(fā)現(xiàn)大部分大模型確實(shí)對比出了中國聯(lián)通和中國移動在總收入、凈利潤等重點(diǎn)財(cái)務(wù)指標(biāo)上數(shù)據(jù)的異同,但由于財(cái)報(bào)數(shù)據(jù)較為復(fù)雜,收入也有營業(yè)收入、總收入等多項(xiàng)指標(biāo),不同大模型對于指標(biāo)的選取結(jié)果也不同,說明采用大模型進(jìn)行財(cái)報(bào)對比雖然可行,但其生成的結(jié)果仍然需要人為再度核對。

文檔搜索能力考驗(yàn):智譜清言只支持PDF格式 檢索數(shù)字順序幾乎“全軍覆沒”

而另外兩道題目考察的則是大模型對長文本文檔的檢索能力,題目之一為記者向大模型上傳全本word格式的《射雕英雄傳》文檔,并向大模型提問“閱讀這篇文檔,然后回答,新京報(bào)貝殼財(cái)經(jīng)科技組一共有幾個(gè)人?”

對于該題目,通義千問、騰訊元寶、訊飛星火、豆包均回答正確。如訊飛星火回答“根據(jù)提供的文檔內(nèi)容,新京報(bào)貝殼財(cái)經(jīng)科技組一共有七個(gè)人。這一信息直接從文檔中獲取,無需進(jìn)行額外推理或分析?!?/p>

除了4個(gè)回答正確的大模型外,文心一言的回答為“經(jīng)過仔細(xì)搜索,文檔中并未找到與新京報(bào)貝殼財(cái)經(jīng)科技組人數(shù)相關(guān)的信息。建議您嘗試其他途徑來獲取這一信息,比如直接聯(lián)系新京報(bào)貝殼財(cái)經(jīng)或參考其官方網(wǎng)站等?!碧旃I的回答為“很抱歉,根據(jù)提供的文檔片段,我們無法得知新京報(bào)貝殼財(cái)經(jīng)科技組的具體人員數(shù)量。文檔中沒有包含關(guān)于這個(gè)團(tuán)隊(duì)人數(shù)的信息。如果您需要了解這方面的詳情,可能需要查閱其他來源或直接查找相關(guān)的官方信息。”

另外,還有3個(gè)大模型因格式不同或字?jǐn)?shù)過多等未給出正確結(jié)果,百小應(yīng)的回答為“總內(nèi)容已超過對話可支持長度 2127%,請刪除部分文件。”智譜清言則顯示“只支持PDF文檔測試”,當(dāng)測試人員把文檔轉(zhuǎn)換成PDF文檔后上傳,則提示“內(nèi)容已超過對話長度501.84%,請刪減部分文件?!盞imi則提示文檔超出字?jǐn)?shù)限制,Kimi只閱讀了前15%,然后顯示:根據(jù)您提供的文檔內(nèi)容,文檔中并沒有提及“新京報(bào)貝殼財(cái)經(jīng)科技組”或相關(guān)團(tuán)隊(duì)的具體人數(shù)。因此,無法直接回答新京報(bào)貝殼財(cái)經(jīng)科技組一共有幾個(gè)人。如果需要了解這個(gè)信息,可能需要查詢其他資料或官方發(fā)布的信息。

相比上面的兩份財(cái)報(bào),記者上傳的《射雕英雄傳》文檔容量要更小,為1.34MB,包含140.81萬字節(jié),總共88萬字。

而題目之二是,記者在一篇Word文檔里按順序輸入了1-999,并故意將其中的“739”和“740”兩個(gè)數(shù)字的順序顛倒了位置,最后將該文檔上傳至大模型后提問“找出這個(gè)文檔里兩個(gè)順序不同的數(shù)字”。對于這一題目,通義千問雖然找出了“739”和“740”的不同,但錯(cuò)誤地認(rèn)為“902”和“903”順序顛倒了。而其他大模型甚至不如通義千問,一律沒有找到“739”和“740”,因此在這一題目上,9個(gè)大模型幾乎“全軍覆沒”。

翻譯能力已經(jīng)可用 聯(lián)網(wǎng)檢索顯現(xiàn)潛力

貝殼財(cái)經(jīng)記者注意到,對于相對較小的文本,大模型依然能夠勝任總結(jié)的任務(wù),如記者上傳《西游記》前十回內(nèi)容并讓大模型總結(jié),9個(gè)大模型的表現(xiàn)均可圈可點(diǎn),不過對于日常媒體記者的工作,要求總結(jié)較為復(fù)雜的文本,大模型能否勝任,依然需要經(jīng)受考驗(yàn)。

根據(jù)《報(bào)告》,除了長文本能力之外,大模型在翻譯、事實(shí)核查、檢索熱點(diǎn)信息、生成媒體相關(guān)文本四個(gè)維度上的表現(xiàn)均在及格線之上,其中除文本生成相比真人仍有不足外,另外三項(xiàng)能力均可成為媒體工作者們的好“幫手”。

其中,翻譯能力得分最高,對于翻譯維度的3道題目,9款大模型均生成了基本沒有誤差的翻譯結(jié)果,大模型的翻譯能力已經(jīng)能夠幫助到媒體工作者的日常工作,如對文本素材進(jìn)行中英互譯、向國外的采訪對象寫英文邀請函等。

而在大模型接入互聯(lián)網(wǎng),具備“實(shí)時(shí)搜索”能力后,媒體工作者對于日常新聞熱點(diǎn)的檢索,大模型也能代為完成,如在媒體信息檢索能力測試中,記者要求大模型總結(jié)“胖貓事件”,9個(gè)大模型均給出了明確回答,且大部分回答都把此事件多次“反轉(zhuǎn)”發(fā)酵的過程進(jìn)行了詳細(xì)描述,其中Kimi不僅分段總結(jié)了該事件進(jìn)展,還編寫了小標(biāo)題加以區(qū)分,如“事件概述”“事件發(fā)酵”“輿論反應(yīng)”“警方介入”“輿論態(tài)勢分析”“輿情啟示”等。

從這一點(diǎn)可以看出,對于某熱點(diǎn)事件,大模型之后或可成為搜索引擎的替代品之一,當(dāng)然仍需小心其可能產(chǎn)生的“幻覺”,如在正式測試開始之前尚未統(tǒng)一問題的試測環(huán)節(jié),Kimi和訊飛星火曾生成過錯(cuò)誤的答案,將“胖貓事件”描述成了“一只很胖的貓”,但此后正式測試時(shí)該問題未再出現(xiàn)。

另外,在事實(shí)核查與價(jià)值觀判斷維度,9款大模型全數(shù)通過,沒有任何違背主流價(jià)值觀的回答生成,并會對謠言和誘導(dǎo)性問題予以糾正或回避。

最后,在文本生成方面,記者嘗試讓大模型寫新聞稿、評論稿、采訪提綱、視頻直播腳本等媒體從業(yè)者日常能夠用到的各類文本,9個(gè)大模型均能按要求生成內(nèi)容,不過平均得分為6.08,剛超過“及格線”。

例如,記者讓其以大模型廠家“價(jià)格戰(zhàn)”為背景,寫一篇行業(yè)分析類稿件,大部分大模型可以按要求寫出價(jià)格戰(zhàn)的背景、原因,以及對行業(yè)的機(jī)遇、挑戰(zhàn)等,但生成的內(nèi)容段落分明、行文呆板,與人類記者相比仍然有明顯差距。

總的來看,根據(jù)《報(bào)告》,大模型在媒體行業(yè)所需的文本生成能力上與真人仍有差距,長文本能力仍需加強(qiáng),但生成內(nèi)容符合主流價(jià)值觀,在翻譯能力上對媒體從業(yè)者的輔助作用令人滿意,在實(shí)時(shí)搜索方面具備強(qiáng)大潛力。

記者聯(lián)系郵箱:luoyidan@xjbnews.com

用戶評論

表情0/300
喵,沒有找到相關(guān)結(jié)果~
暫時(shí)沒有評論,下載喜馬拉雅與主播互動
猜你喜歡
應(yīng)屆生傳媒行業(yè)求職全攻略

本專輯介紹了傳媒行業(yè)及其職業(yè)特點(diǎn),傳媒行業(yè)校園招聘筆試、面試形式及內(nèi)容,以及歷年傳媒企業(yè)和單位校園招聘的流程以及如何應(yīng)聘傳媒企業(yè)和單位的經(jīng)驗(yàn)?!稇?yīng)屆生傳媒行業(yè)...

by:絕地求職

傳媒影視企業(yè)納稅申報(bào)

【領(lǐng)取會計(jì)資料+歷年考題+財(cái)務(wù)模板+視頻課程+在線答疑等】聯(lián)系VX:1620012775;免費(fèi)試學(xué)會計(jì)課程15天。本課程為傳媒影視企業(yè)一般納稅人納稅申報(bào)的實(shí)...

by:會計(jì)學(xué)堂

傳媒大亨默多克|傳媒業(yè)巨頭|了凡先聲

默多克和他建立的新聞集團(tuán)在傳媒行業(yè)里有舉足輕重的影響力。默多克所創(chuàng)建的新聞集團(tuán)是當(dāng)今世界上規(guī)模最大、國際化程度最高的綜合性傳媒公司之一。默多克從來不逃避...

by:了凡先聲

性格解析(天啟傳媒讀書悅享薈)

Amway安利頻道(服務(wù)號VX:1870922129TEL:13871987686)傳承事業(yè)的理解和文化理念,給思路,指方向,定格局,謀布局,安利升級移動社交...

by:天啟傳媒云頻道

地獄傳媒

神秘的《商城都市報(bào)》突然刊登出了一句話:今日18:30分,蘇霓將死于財(cái)富廣場。到了預(yù)告時(shí)間,蘇霓果然墜樓而死。富家子朱木目睹了蘇霓的死亡,然而子夜時(shí)分,蘇霓卻來...

by:靈機(jī)天師

地獄傳媒

神秘的《商城都市報(bào)》突然刊登出了一句話:今日18:30分,蘇霓將死于財(cái)富廣場。到了預(yù)告時(shí)間,蘇霓果然墜樓而死。富家子朱木目睹了蘇霓的死亡,然而子夜時(shí)分,蘇霓卻來...

by:櫻落FM

聲線傳媒

包含欄目【小時(shí)光】、【小時(shí)光1.0】、【耳朵旅行】、【專題】,推薦優(yōu)秀的影視劇、小說、音樂給大家,希望王大家能夠喜歡

by:文字部落網(wǎng)絡(luò)頻道