推理模型競(jìng)賽又添新玩家。1 月 15 日,科大訊飛對(duì)外發(fā)布首個(gè)基于全國產(chǎn)平臺(tái)訓(xùn)練的深度推理模型訊飛星火 X1,該模型憑借更少的算力,實(shí)現(xiàn)了業(yè)界一流的效果,多項(xiàng)指標(biāo)國內(nèi)第一,并率先應(yīng)用于真實(shí)場(chǎng)景。
目前,市面上的推理模型眾多,但各家的側(cè)重點(diǎn)并不相同。比如 DeepSeek 著重強(qiáng)調(diào)其通過強(qiáng)化學(xué)習(xí)訓(xùn)練,可以對(duì)外展現(xiàn)更長的思維鏈。通義團(tuán)隊(duì)多次強(qiáng)調(diào) QwQ 的深度自省能力,模型在思考過程中會(huì)質(zhì)疑其自身假設(shè),審視推理過程。月之暗面則更強(qiáng)調(diào) k0-math 的數(shù)學(xué)能力,稱其數(shù)學(xué)能力可以與 OpenAI 的 o1 系列模型媲美。
科大訊飛最新發(fā)布的推理模型 X1 多項(xiàng)指標(biāo)實(shí)現(xiàn)國內(nèi)第一。發(fā)布會(huì)上,科大訊飛展示了訊飛星火 X1 解答高考題、AIME 競(jìng)賽題以及高中奧賽題的表現(xiàn)。
X1 不僅準(zhǔn)確給出答案,還可以對(duì)解題思路和步驟進(jìn)行詳細(xì)拆解,充分展現(xiàn)深度推理模型的三大典型特征:一、化繁為簡(jiǎn),將復(fù)雜問題分步拆解簡(jiǎn)化;二、進(jìn)行自我探索和反思驗(yàn)證;三、基于答案正確與否的優(yōu)質(zhì)反饋信息進(jìn)行強(qiáng)化訓(xùn)練。
以一道 2024 年全國高中聯(lián)合數(shù)學(xué)競(jìng)賽的無窮等比數(shù)列求和問題為例,分別在網(wǎng)頁端提問訊飛星火 X1 與 DeepSeekV3、Kimi 中的最新推理模型。
三者均展現(xiàn)出當(dāng)下推理模型的典型特征,比如能夠針對(duì)對(duì)復(fù)雜問題進(jìn)行分步拆解,也會(huì)在求解過程中不斷進(jìn)行自我反思驗(yàn)證。
不過,相較于訊飛星火 X1 在解答過程中動(dòng)態(tài)展示思維步驟不同,DeepSeek 對(duì)外強(qiáng)調(diào)的思維鏈條有些過長,一定程度上影響了用戶與模型的交互。Kimi 則是將思考過程與模型回答融為一體,卻沒有給出一個(gè)總結(jié)性的解題步驟,不夠直觀。
在回答準(zhǔn)確率上,我們引用包括小初高(含競(jìng)賽)、大學(xué)(含競(jìng)賽)、AIME、MATH500 等多項(xiàng)數(shù)學(xué)考試測(cè)試數(shù)據(jù)進(jìn)行對(duì)比。其中,訊飛星火 X1 多項(xiàng)指標(biāo)均獲國內(nèi)第一。在多個(gè)中文考試測(cè)試的比拼中,訊飛星火 X1 得分都超過 DS-R1-Lite-Preview、QwQ-32B-Preview、K1-math 等眾多推理模型,中文數(shù)學(xué)能力國內(nèi)第一。
更難能可貴的是,這份成績還是基于全國產(chǎn)算力平臺(tái)得來的。和市面上常見的其他模型不同,訊飛星火 X1 是目前全國產(chǎn)算力平臺(tái)上唯一的深度推理模型,用更少的算力,實(shí)現(xiàn)了業(yè)界一流效果。
這樣的成績十分難得。一直以來,訊飛星火都堅(jiān)持全國產(chǎn)化路線,訊飛星火至今仍然是國內(nèi)唯一基于全國產(chǎn)算力平臺(tái)的大模型。但推理模型的訓(xùn)練與大語言模型有諸多不同,仍然面臨不少挑戰(zhàn)??拼笥嶏w迎難而上,攜手華為成功攻克了訓(xùn)練推理強(qiáng)交互、高吞吐推理優(yōu)化以及國產(chǎn)算子優(yōu)化等一系列難題,最終成功基于全國產(chǎn)算力平臺(tái)訓(xùn)練出深度推理模型 X1。
之所以訊飛星火 X1 一出世就能在多項(xiàng)數(shù)學(xué)測(cè)試中取得亮眼成績,和此前訊飛星火著重提升的數(shù)學(xué)能力不無關(guān)系。事實(shí)上,一直以來訊飛星火都是數(shù)學(xué)能力最強(qiáng)的大模型之一。此前,訊飛星火 4.0Turbo 就在數(shù)學(xué)和代碼能力上實(shí)現(xiàn)對(duì) GPT-4o 的超越,完成了超長思維鏈、樹搜索和自我反思評(píng)價(jià)等算法的驗(yàn)證。
去年高考期間,多家媒體和專業(yè)人士用高考數(shù)學(xué)題對(duì)市面上的大模型進(jìn)行測(cè)評(píng)比試,訊飛星火表現(xiàn)出色,領(lǐng)先一眾同行。
在搜狐科技針對(duì)國內(nèi)十余家大模型的高考數(shù)學(xué)能力評(píng)測(cè)中,訊飛星火、文心一言、豆包均以63% 的正確率位列第一梯隊(duì),智譜清言、阿里通義則以50% 的正確率位居第二梯隊(duì),其他大模型相對(duì)落后。
這次著重提升了深度推理能力的 X1,則是將訊飛星火一直見長的數(shù)學(xué)能力再度提升一個(gè)維度。相較于此前的大語言模型,訊飛星火 X1 從訓(xùn)練方法、訓(xùn)練數(shù)據(jù)乃至架構(gòu)上都有所不同,數(shù)學(xué)和推理能力顯著提升。
技術(shù)迭代之外,科大訊飛率先將推理模型應(yīng)用到教育、醫(yī)療等真實(shí)剛需場(chǎng)景之中。搭載了星火 X1 的高中數(shù)學(xué)智能教師助手,已被一線教研員和教師用來解答高中數(shù)學(xué)創(chuàng)新題和考試題。在醫(yī)療場(chǎng)景下,X1 的相關(guān)技術(shù)和策略也取得了初步驗(yàn)證成效,可使得專科輔助診斷和復(fù)雜病歷內(nèi)涵質(zhì)控的準(zhǔn)確率均達(dá) 90%。
大模型時(shí)代的迭代速度遠(yuǎn)超以往,一家公司的領(lǐng)先往往只能持續(xù)數(shù)月乃至數(shù)周,稍有不慎就會(huì)被后來者超越,此次訊飛星火 X1 出道即“巔峰”也正說明了這一點(diǎn)。唯有不斷從底層攻難克堅(jiān),真正從源頭實(shí)現(xiàn)自主可控,才能在日益飛速技術(shù)迭代立于不敗之地。
本文鏈接:http://www.tebozhan.com/showinfo-26-126062-0.html強(qiáng)強(qiáng) PK 國產(chǎn)勝,訊飛星火 X1 碾壓 DeepSeek
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 蘋果公司聲明:TikTok 及字節(jié)跳動(dòng)旗下應(yīng)用在美國已不可用
下一篇: 黃仁勛宴請(qǐng) 35 位英偉達(dá)供應(yīng)鏈大佬,預(yù)告將參加 2025 臺(tái)北電腦展