當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

OpenAI和科大訊飛,瞄準了同一件事

 2025-08-12 09:17  來源: 互聯(lián)網   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

夏季大模型行業(yè)的密集上新隨著上周GPT-5的推出終于落下帷幕。北京時間8月8日凌晨,OpenAI正式發(fā)布下一代旗艦模型GPT-5,距離上代模型GPT-4的推出已經過去了29個月。

但GPT-5上線初期的反饋卻有些兩極分化。GPT-5仍然是當前能力最為全面的模型,但和此前OpenAI一直保持著斷代式的模型性能領先相比,GPT-5并未與市場主流模型拉開顯著差距,部分基準測試場景下甚至被馬斯克的Grok 4或者同期發(fā)布的Claude Opus 4.1超越。

部分原因在于OpenAI的先發(fā)優(yōu)勢正在減弱,但更關鍵的原因或許在于OpenAI試圖將大模型從“能用”推向“好用”。和此前發(fā)布的旗艦模型不同,OpenAI在此次GPT-5發(fā)布會中尤其強調他們在減少模型幻覺、提升指令遵循能力和降低模型諂媚性方面的進展。

這和此前國內大模型代表星火 X1 的升級不謀而合。作為當前市面上唯一全棧自主可控的全國產大模型,星火X1在7月25日的升級同樣著重強調對大模型實用痛點尤其是幻覺問題的精準攻克上。

在對模型幻覺問題治理上,星火X1取得顯著突破,無論是對自身生成內容真實性的把控(事實性幻覺治理),還是參考外部資料時對原文的忠實程度都有顯著改善(忠誠性幻覺治理),大大提升了大模型在行業(yè)應用中的可靠性。

甚至二者在技術路線的探索上都頗為一致。OpenAI在官網介紹,針對模型幻覺問題,他們在GPT-5訓練中加入了多目標獎勵機制以及思維鏈監(jiān)控等手段,來改善模型幻覺問題。多目標獎勵改變了此前模型單一獎懲機制容易迎合用戶的弊病,即便模型給出不確定性回答也可以得到正向反饋,思維鏈監(jiān)控則可以有限防止推理模型在深度思考過程中的幻覺問題。

大模型幻覺的后果

在強化學習技術上,科大訊飛同樣試圖改進大模型粗糙的數(shù)值獎勵機制,將評語模型與細粒度反饋的強化學習技術結合起來,就像是給AI配了一個耐心的老師,能在解題的每個環(huán)節(jié)給出具體建議。這種做法讓復雜的數(shù)學推理訓練變得更加高效,也解決了強化學習訓練中“獎勵太少”的痛點問題。

此外,科大訊飛提出的基于多路徑采樣驗證及事實性約束強化學習的幻覺治理技術,則可以在大模型思考過程及恢復生成階段,實現(xiàn)客觀問題與標準答案的深度對齊,從而大幅減少慢思考下的幻覺率。

但在治理模型幻覺問題上,作為大模型國家隊的科大訊飛還是比OpenAI更多走了一步??拼笥嶏w不僅從模型訓練與監(jiān)督角度入手,還深入介入了大模型訓練更前置的數(shù)據(jù)環(huán)節(jié)。

在此前已經建立行業(yè)高質量數(shù)據(jù)集以及訊飛知識工程平臺的基礎上,科大訊飛還開創(chuàng)性地提出了基于多路徑采樣驗證及事實性約束強化學習的幻覺治理技術,在大模型思考過程及回復生成階段,實現(xiàn)客觀問題與標準答案的深度強對齊,大幅減少了在慢思考下的幻覺率讓大模型回復通用常識及專業(yè)知識問題更加可靠。

從全國產大模型代表的星火X1,到海外大模型代表的GPT-5,全球頂尖大模型同時強調模型可靠性的升級。這背后是因為,大模型已經日益深入到社會應用的方方面面,在性能穩(wěn)步提升的同時,也對模型的可靠性和易用性提出了更高要求。

“我們的核心追求的是模型的實際應用價值以及大眾的可訪問性/可負擔性。我們可以發(fā)布更智能的模型,但更重要的這次的模型可以讓超過十億人受益。”OpenAI創(chuàng)始人兼CEO薩姆·奧爾特曼說。

縱觀此次OpenAI針對GPT-5的升級,你可能會感到些許熟悉。在發(fā)布會中,模型性能的提升一筆帶過,更多時間都用在了講述GPT-5的具體行業(yè)應用,尤其是編程、寫作以及醫(yī)療等三個大模型核心應用場景上。

其實,大模型行業(yè)中最早呼吁關注模型行業(yè)應用價值的正是科大訊飛。早在科大訊飛立項攻堅大模型時,就確立了“1+N”的研發(fā)方向,在研發(fā)一個通用大模型的同時,也同步推出教育、醫(yī)療、法律等行業(yè)大模型。過去幾年來,訊飛星火圍繞醫(yī)療、教育、法律、汽車、科研等多個重點行業(yè)發(fā)布多個行業(yè)大模型,同時與多個行業(yè)龍頭、央國企展開深入合作,共同推進大模型落地應用。

7月25日全新升級的星火X1,更是科大訊飛推動模型從“能用”走向“好用”的關鍵一步。二者雖然只一字之差,但背后的技術深度和應用廣度完全不同。升級后的星火X1已全面賦能教育、醫(yī)療、企業(yè)應用、代碼、科研等行業(yè)大模型和智能體,在復雜行業(yè)場景任務上進一步滿足用戶核心需求。

星火代碼大模型已深度賦能金融、制造、能源、科技等100余家關鍵領域客戶,在典型應用場景中驅動研發(fā)效率提升超過50%。測試集合來源:測試集合來自認知智能全國重點實驗室構建的代碼實用場景測試集

大模型產業(yè)已經到了產業(yè)化與規(guī)?;涞氐年P鍵時期,大模型不僅要能用,更要好用。作為大模型產業(yè)真正的國家隊代表,星火X1更是肩負著中國大模型產業(yè)真正自主可控的使命要求。在保持性能領先的同時,也要真正賦能關乎社會民生的重點行業(yè),為世界提供第二種選擇。

量子位智庫

星火X1能夠先于GPT-5提出大模型要從“能用”走向“好用”,要在智能領先的同時擁有更廣的行業(yè)應用,這背后彰顯了中國人工智能產業(yè)已經從追趕逐漸走向領先階段。

今年是國家《新一代人工智能發(fā)展規(guī)劃》“第二步”的關鍵之年,在人工智能基礎理論實現(xiàn)重大突破的同時,尤為強調在技術與應用達到世界領先水平,人工智能成為帶動我國產業(yè)升級和經濟轉型的主要動力。

作為大模型國家隊的突出代表,星火X1更要率先解決橫亙在大模型行業(yè)落地難的關鍵技術與應用難題。從這個角度上來說,星火X1已經交出了一份出色的答卷。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦