2023年8月底，商湯科技對外公布了一則新進(jìn)展：擁有1230億個參數(shù)的“書生·浦語”，在全球51個知名評測集共計30萬道問題集合上，測試成績排名全球第二，并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項評測中位列第一，分?jǐn)?shù)超過風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會上，百度正式發(fā)布了文心大模型4.0版本，李彥宏在現(xiàn)場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點與應(yīng)用場景。盡管沒有給出評測數(shù)據(jù)，李彥宏卻自信地表示：文心大模型4.0的綜合水平，“與GPT-4相比毫不遜色”。

國產(chǎn)大模型趕超GPT-4的序幕正式拉開，此后一兩個月里，不少大模型給了這樣的營銷口徑：整體能力已經(jīng)不輸于GPT-3.5，并且在部分性能指標(biāo)上開始超越GPT-4。

第二階段：整體性能逼近GPT-4

時間來到2024年初，國內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期，一些不被資本市場認(rèn)可的大模型，漸漸成了一個數(shù)字，只有幾家科技大廠和獨角獸仍活躍在大模型一線。“活下來”的大模型，勢必要在能力上證明自己。

綜合性能逼近GPT-4，開始成為新的營銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開放日上，正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法：在權(quán)威的英文測試榜單中，GLM-4已經(jīng)整體逼近GPT-4，平均能達(dá)到GPT-4 90%以上的水平，在個別項目上表現(xiàn)持平；而在國內(nèi)企業(yè)更加看重的中文任務(wù)上，GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月，科大訊飛發(fā)布了星火認(rèn)知大模型V3.5，在邏輯推理、語言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升，其中語言理解、數(shù)學(xué)能力已經(jīng)超過GPT-4 Turbo，代碼能力達(dá)到GPT-4 Turbo 96%，多模態(tài)理解達(dá)到GPT-4V 91%。“在中文理解方面，甚至遙遙領(lǐng)先。”

回頭來看，智譜AI和科大訊飛的營銷策略還是有些“保守”，百川智能在同一時間段發(fā)布的Baichuan 3，對外表示已經(jīng)在CMMLU、GAOKAO等中文評測中超越GPT-4。

第三階段：全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會，GPT-4 Turbo可以說整個活動的焦點，不僅比GPT-4更聰明，文本處理的上限更高，推理的速度更快，價格也更便宜，國產(chǎn)大模型隨即迎來了新的比較對象。

先是2024年4月份發(fā)布的日日新5.0，擁有6000億參數(shù)，并在發(fā)布會上引用了OpenCompass的評測數(shù)據(jù)：日日新5.0達(dá)到或超越了GPT-4 Turbo版本，幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5，根據(jù)媒體報道中的說法：模型性能全面趕超GPT-4-Turbo，成為“地表最強(qiáng)”中文大模型；通義千問1100億參數(shù)開源模型在多個基準(zhǔn)測評收獲最佳成績，超越Meta的Llama-3-70B，成為開源領(lǐng)域最強(qiáng)大模型。

可以篤定的是，日日新5.0和通義千問2.5只是個開始，后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息，將全面對標(biāo)GPT-4系列；文心一言4.0的發(fā)布已經(jīng)超過半年，不排除新版本正在準(zhǔn)備中，且大概率會在性能上再上一個臺階……

“跑分”的意義在哪里？

不管是一開始的“部分性能超越”，還是現(xiàn)在進(jìn)行中的“全面趕超”，依據(jù)都是第三方評測結(jié)果，或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass，就是上海人工智能實驗室開源的大模型評測平臺。

對于一些大模型沉迷于刷榜、跑分的現(xiàn)象，上海人工智能實驗室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪中直言：通過題海戰(zhàn)術(shù)提高大模型成績，對于模型實際能力的反應(yīng)是失真的，影響了模型研發(fā)團(tuán)隊的改進(jìn)方向和模型的商業(yè)落地，“高分低能”傷害的是機(jī)構(gòu)本身；榜單上任何具體的名字只是大模型成長過程中無數(shù)次測試中的一次，一時的排名高低并不真正反映模型的能力。

何況很多大模型測試集為了公開透明，測試題目或者提綱都是公開的，大模型廠商不難通過“針對性的訓(xùn)練”來提高分?jǐn)?shù)。只要將足夠的的測試題喂給大模型，在開卷考試的機(jī)制下，分?jǐn)?shù)總不會太低。

也就是說，分?jǐn)?shù)高并不一定代表大模型的能力強(qiáng)。“跑分”的意義僅僅是讓客戶或開發(fā)者對大模型能力有一個初步的認(rèn)識，最終的評估因素永遠(yuǎn)是“能不能解決問題”，“能不能在場景中帶來實實在在的生產(chǎn)力”。

特別是在大模型走向落地應(yīng)用的趨勢下，一味炒作“超越GPT-4”、“跑分第一”，妄顧落地應(yīng)用的實效，可能會適得其反。以大模型應(yīng)用中比較常見的財報分析為例，如果大模型連一家企業(yè)的財報都看不懂，再高的計算分?jǐn)?shù)也不會讓客戶信服，反而會被排除在合作名單外。

而參考中信證券等機(jī)構(gòu)的研究報告，目前OpenAI的GPT-5正處于紅隊測試階段，有望在今年夏天正式發(fā)布，可能在多模態(tài)理解、長文本輸入、zero-shot學(xué)習(xí)等方面實現(xiàn)重大突破，且性能將遠(yuǎn)超GPT-4。即使國產(chǎn)大模型花費400多天追平了GPT-4，在相當(dāng)長一段時間里，仍將處于追趕的姿態(tài)。

大模型的價值是解決日常問題的生產(chǎn)力工具，趕超GPT-4的階段性升級，可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志，切莫像手機(jī)跑分那樣，在過度營銷的作用下，淪為被群嘲的對象。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！