解析傳媒行業(yè)大模型報(bào)告：AI在哪些維度能切實(shí)幫助媒體工作者？

2024-07-11 17:17:0111:47 121

聲音簡介

7月3日至7月10日，新京報(bào)貝殼財(cái)經(jīng)年會在北京、深圳及香港舉行。在年會的“‘通’往未來，向新有AI”論壇上，新京報(bào)貝殼財(cái)經(jīng)發(fā)布了行業(yè)首份《中國AI大模型測評報(bào)告——公眾及傳媒行業(yè)大模型使用與滿足研究》，該報(bào)告收集了80名媒體行業(yè)人士對9款國內(nèi)主流大模型產(chǎn)品在5個(gè)維度上表現(xiàn)的打分，共涉及18道測試題，162個(gè)大模型生成結(jié)果。

以0分為最低分，10分為最高分計(jì)分，大模型在翻譯、事實(shí)核查、檢索熱點(diǎn)信息、生成新聞稿件四個(gè)維度上的表現(xiàn)均在6分以上，其中翻譯能力以6.42分得分最高，文本生成能力拿到6.08分剛到“及格線”，得分最低的是長文本能力，僅有4.65分，說明大模型的長文本能力目前還難以滿足媒體工作者的日常需求。

為何長文本能力無法滿足記者日常需求？為何生成新聞稿能力剛到“及格線”？目前大模型又能夠幫助媒體工作者做什么？下面，新京報(bào)貝殼財(cái)經(jīng)記者將以具體大模型的實(shí)際生成案例進(jìn)行說明。

長文本總結(jié)痛點(diǎn)：兩份年報(bào)不支持同時(shí)上傳百小應(yīng)、Kimi等無法“讀全”

《報(bào)告》測評了文心一言、通義千問、騰訊元寶、訊飛星火、豆包、百小應(yīng)、智譜清言、Kimi、天工AI共計(jì)9款市面上主流的大模型產(chǎn)品，測試時(shí)間為6月中旬，測試人員以同一個(gè)問題輸入上述大模型的手機(jī)APP或官方網(wǎng)頁版，并以首次生成的內(nèi)容為準(zhǔn)，得出了上述結(jié)果。

對于長文本能力，貝殼財(cái)經(jīng)記者共出了5道題目，其中前3道題考察的是大模型的總結(jié)能力，如“最難”的題目2為記者向大模型上傳中國聯(lián)通和中國移動的2023年財(cái)務(wù)報(bào)告，然后要求大模型 “對比中國聯(lián)通與中國移動2023年財(cái)報(bào)中總收入、凈利潤、毛利率等重點(diǎn)財(cái)務(wù)指標(biāo)，兩家公司誰更具成長性”?？偨Y(jié)并對比財(cái)報(bào)正是財(cái)經(jīng)記者所需要具備的能力之一。

記者在該題目的實(shí)操過程中遇到了不同程度的問題，如對于同時(shí)對比兩份文檔內(nèi)容的需求，通義千問、Kimi等可支持同時(shí)上傳兩份文檔后再輸入要求，但許多大模型只支持“一份一份”上傳文檔，上傳一份后，大模型即開始自動總結(jié)其中內(nèi)容，記者只能等上傳一份文檔大模型總結(jié)完內(nèi)容后，再上傳另一份文檔，然后依靠大模型的記憶能力再提出“對比財(cái)報(bào)”的要求，頗為麻煩。

記者用于測試的中國聯(lián)通與中國移動的2023年財(cái)報(bào)共計(jì)758.2萬字節(jié)，大小為7.23MB。當(dāng)記者試圖上傳這兩份文件時(shí)，百小應(yīng)顯示“總內(nèi)容已超過對話內(nèi)容長度1171%，請刪除部分條件”，智譜清言顯示“內(nèi)容已超過對話長度17.52%，請刪除部分文件”，Kimi則提示“kimi只能閱讀全部文件的51%，請刪減后發(fā)送”，這也導(dǎo)致這三家大模型無法勝任媒體記者對比財(cái)報(bào)的這一需求。

而對于生成了對比內(nèi)容的大模型，貝殼財(cái)經(jīng)記者發(fā)現(xiàn)大部分大模型確實(shí)對比出了中國聯(lián)通和中國移動在總收入、凈利潤等重點(diǎn)財(cái)務(wù)指標(biāo)上數(shù)據(jù)的異同，但由于財(cái)報(bào)數(shù)據(jù)較為復(fù)雜，收入也有營業(yè)收入、總收入等多項(xiàng)指標(biāo)，不同大模型對于指標(biāo)的選取結(jié)果也不同，說明采用大模型進(jìn)行財(cái)報(bào)對比雖然可行，但其生成的結(jié)果仍然需要人為再度核對。

文檔搜索能力考驗(yàn)：智譜清言只支持PDF格式檢索數(shù)字順序幾乎“全軍覆沒”

而另外兩道題目考察的則是大模型對長文本文檔的檢索能力，題目之一為記者向大模型上傳全本word格式的《射雕英雄傳》文檔，并向大模型提問“閱讀這篇文檔，然后回答，新京報(bào)貝殼財(cái)經(jīng)科技組一共有幾個(gè)人？”

對于該題目，通義千問、騰訊元寶、訊飛星火、豆包均回答正確。如訊飛星火回答“根據(jù)提供的文檔內(nèi)容，新京報(bào)貝殼財(cái)經(jīng)科技組一共有七個(gè)人。這一信息直接從文檔中獲取，無需進(jìn)行額外推理或分析?！?/p>

除了4個(gè)回答正確的大模型外，文心一言的回答為“經(jīng)過仔細(xì)搜索，文檔中并未找到與新京報(bào)貝殼財(cái)經(jīng)科技組人數(shù)相關(guān)的信息。建議您嘗試其他途徑來獲取這一信息，比如直接聯(lián)系新京報(bào)貝殼財(cái)經(jīng)或參考其官方網(wǎng)站等?！碧旃I的回答為“很抱歉，根據(jù)提供的文檔片段，我們無法得知新京報(bào)貝殼財(cái)經(jīng)科技組的具體人員數(shù)量。文檔中沒有包含關(guān)于這個(gè)團(tuán)隊(duì)人數(shù)的信息。如果您需要了解這方面的詳情，可能需要查閱其他來源或直接查找相關(guān)的官方信息。”

另外，還有3個(gè)大模型因格式不同或字?jǐn)?shù)過多等未給出正確結(jié)果，百小應(yīng)的回答為“總內(nèi)容已超過對話可支持長度 2127%，請刪除部分文件。”智譜清言則顯示“只支持PDF文檔測試”，當(dāng)測試人員把文檔轉(zhuǎn)換成PDF文檔后上傳，則提示“內(nèi)容已超過對話長度501.84%，請刪減部分文件?！盞imi則提示文檔超出字?jǐn)?shù)限制，Kimi只閱讀了前15%，然后顯示：根據(jù)您提供的文檔內(nèi)容，文檔中并沒有提及“新京報(bào)貝殼財(cái)經(jīng)科技組”或相關(guān)團(tuán)隊(duì)的具體人數(shù)。因此，無法直接回答新京報(bào)貝殼財(cái)經(jīng)科技組一共有幾個(gè)人。如果需要了解這個(gè)信息，可能需要查詢其他資料或官方發(fā)布的信息。

相比上面的兩份財(cái)報(bào)，記者上傳的《射雕英雄傳》文檔容量要更小，為1.34MB，包含140.81萬字節(jié)，總共88萬字。

而題目之二是，記者在一篇Word文檔里按順序輸入了1-999，并故意將其中的“739”和“740”兩個(gè)數(shù)字的順序顛倒了位置，最后將該文檔上傳至大模型后提問“找出這個(gè)文檔里兩個(gè)順序不同的數(shù)字”。對于這一題目，通義千問雖然找出了“739”和“740”的不同，但錯(cuò)誤地認(rèn)為“902”和“903”順序顛倒了。而其他大模型甚至不如通義千問，一律沒有找到“739”和“740”，因此在這一題目上，9個(gè)大模型幾乎“全軍覆沒”。

翻譯能力已經(jīng)可用聯(lián)網(wǎng)檢索顯現(xiàn)潛力

貝殼財(cái)經(jīng)記者注意到，對于相對較小的文本，大模型依然能夠勝任總結(jié)的任務(wù)，如記者上傳《西游記》前十回內(nèi)容并讓大模型總結(jié)，9個(gè)大模型的表現(xiàn)均可圈可點(diǎn)，不過對于日常媒體記者的工作，要求總結(jié)較為復(fù)雜的文本，大模型能否勝任，依然需要經(jīng)受考驗(yàn)。

根據(jù)《報(bào)告》，除了長文本能力之外，大模型在翻譯、事實(shí)核查、檢索熱點(diǎn)信息、生成媒體相關(guān)文本四個(gè)維度上的表現(xiàn)均在及格線之上，其中除文本生成相比真人仍有不足外，另外三項(xiàng)能力均可成為媒體工作者們的好“幫手”。

其中，翻譯能力得分最高，對于翻譯維度的3道題目，9款大模型均生成了基本沒有誤差的翻譯結(jié)果，大模型的翻譯能力已經(jīng)能夠幫助到媒體工作者的日常工作，如對文本素材進(jìn)行中英互譯、向國外的采訪對象寫英文邀請函等。

而在大模型接入互聯(lián)網(wǎng)，具備“實(shí)時(shí)搜索”能力后，媒體工作者對于日常新聞熱點(diǎn)的檢索，大模型也能代為完成，如在媒體信息檢索能力測試中，記者要求大模型總結(jié)“胖貓事件”，9個(gè)大模型均給出了明確回答，且大部分回答都把此事件多次“反轉(zhuǎn)”發(fā)酵的過程進(jìn)行了詳細(xì)描述，其中Kimi不僅分段總結(jié)了該事件進(jìn)展，還編寫了小標(biāo)題加以區(qū)分，如“事件概述”“事件發(fā)酵”“輿論反應(yīng)”“警方介入”“輿論態(tài)勢分析”“輿情啟示”等。

從這一點(diǎn)可以看出，對于某熱點(diǎn)事件，大模型之后或可成為搜索引擎的替代品之一，當(dāng)然仍需小心其可能產(chǎn)生的“幻覺”，如在正式測試開始之前尚未統(tǒng)一問題的試測環(huán)節(jié)，Kimi和訊飛星火曾生成過錯(cuò)誤的答案，將“胖貓事件”描述成了“一只很胖的貓”，但此后正式測試時(shí)該問題未再出現(xiàn)。

另外，在事實(shí)核查與價(jià)值觀判斷維度，9款大模型全數(shù)通過，沒有任何違背主流價(jià)值觀的回答生成，并會對謠言和誘導(dǎo)性問題予以糾正或回避。

最后，在文本生成方面，記者嘗試讓大模型寫新聞稿、評論稿、采訪提綱、視頻直播腳本等媒體從業(yè)者日常能夠用到的各類文本，9個(gè)大模型均能按要求生成內(nèi)容，不過平均得分為6.08，剛超過“及格線”。

例如，記者讓其以大模型廠家“價(jià)格戰(zhàn)”為背景，寫一篇行業(yè)分析類稿件，大部分大模型可以按要求寫出價(jià)格戰(zhàn)的背景、原因，以及對行業(yè)的機(jī)遇、挑戰(zhàn)等，但生成的內(nèi)容段落分明、行文呆板，與人類記者相比仍然有明顯差距。

總的來看，根據(jù)《報(bào)告》，大模型在媒體行業(yè)所需的文本生成能力上與真人仍有差距，長文本能力仍需加強(qiáng)，但生成內(nèi)容符合主流價(jià)值觀，在翻譯能力上對媒體從業(yè)者的輔助作用令人滿意，在實(shí)時(shí)搜索方面具備強(qiáng)大潛力。

記者聯(lián)系郵箱：luoyidan@xjbnews.com

用戶評論

表情0/300

暫時(shí)沒有評論，下載喜馬拉雅與主播互動

音頻列表

1
???
首批基金二季報(bào)出爐：有基金大幅提升權(quán)益占比債市后市被看好
119
2024-07
2
???
解析傳媒行業(yè)大模型報(bào)告：AI在哪些維度能切實(shí)幫助媒體工作者？
121
2024-07
3
???
國內(nèi)成品油零售限價(jià)第七次上調(diào) 每升汽柴油均上調(diào)0.09元
98
2024-07
4
???
股東違反承諾減持股份不能購回了之，還應(yīng)依法追究責(zé)任
105
2024-07
5
???
匯豐研究：全球經(jīng)濟(jì)整體穩(wěn)定中國仍是重要引擎
117
2024-07
6
???
入境游持續(xù)升溫入境游客用支付寶半年消費(fèi)金額同比增8倍
194
2024-07
7
???
從空調(diào)到電風(fēng)扇格力電器“再戰(zhàn)”小米
166
2024-07
8
???
明日起實(shí)施！證監(jiān)會批準(zhǔn)暫停轉(zhuǎn)融券業(yè)務(wù) 融券保證金比例上調(diào)
164
2024-07
9
???
“中國企業(yè)出海新機(jī)遇”研討會在香港成功舉辦
148
2024-07
10
???
全球PC市場二季度再迎正增長 AI能否助推行業(yè)復(fù)蘇
140
2024-07