2025 年 4 月 8 日,斯坦福大學(xué)與加拿大國(guó)立大學(xué)、卡內(nèi)基梅隆大學(xué)聯(lián)合發(fā)布的《2025 年人工智能指數(shù)報(bào)告》(HAI 報(bào)告)正式出爐,在眾多頂尖大模型的技術(shù)性能評(píng)測(cè)中,來自中國(guó)的訊飛星火 4.0(Spark 4.0)憑借其在“MixEval-Hard”測(cè)試中的出色表現(xiàn),成為國(guó)內(nèi)唯一入圍前十的中文大模型,在所有國(guó)產(chǎn)大模型中排名第一,展示出強(qiáng)勁的技術(shù)實(shí)力與國(guó)際競(jìng)爭(zhēng)力。
MixEval 是本次 HAI 報(bào)告引入的一項(xiàng)全新評(píng)測(cè)標(biāo)準(zhǔn),專為評(píng)估大語言模型在復(fù)雜真實(shí)語言任務(wù)中的表現(xiàn),尤其聚焦于“分布式用戶查詢”和“復(fù)雜問題處理能力”。在更具挑戰(zhàn)性的 MixEval-Hard 基準(zhǔn)測(cè)試中,訊飛星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多個(gè)國(guó)際知名模型以及通義千問等國(guó)內(nèi)模型,成為唯一入榜前十的中國(guó)大模型選手。
從報(bào)告來看,在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”,以 72.0 分遙遙領(lǐng)先,其次是 Anthropic 的 Claude 3.5 Sonnet(68.1 分)以及 Meta 推出的 LLaMA-3 405B-Instruct(66.2 分)。訊飛星火 4.0 緊隨亞馬遜旗下模型 Mistral Large2,以 0.4 的劣勢(shì)排在第十名,在多個(gè)維度上展現(xiàn)出不俗的語言理解和推理能力。
MixEval-Hard 測(cè)試體系包括“過濾篩選”“語料注釋”“評(píng)估”和“動(dòng)態(tài)更新”等多個(gè)環(huán)節(jié),模擬真實(shí)場(chǎng)景下用戶與模型的交互過程,是目前衡量模型處理復(fù)雜任務(wù)能力最具代表性的基準(zhǔn)之一。其涵蓋多模態(tài)能力、事實(shí)一致性、推理能力等綜合指標(biāo),被業(yè)界稱為“大模型能力大考”。
作為科大訊飛旗下的重要戰(zhàn)略產(chǎn)品,訊飛星火大模型自 2023 年發(fā)布以來不斷迭代升級(jí)。其 4.0 版本于 2024 年 6 月發(fā)布的,在語義理解、邏輯推理、跨語種翻譯等多個(gè)領(lǐng)域都實(shí)現(xiàn)突破。2025 年 3 月 3 日,訊飛星火發(fā)布深度推理模型 X1 在數(shù)學(xué)能力上大幅躍升,以 70B 參數(shù)規(guī)模便追平了 o1 和 DeepSeek-R1。尤其針對(duì)小初高中文測(cè)試集(來自 2023/2024 各學(xué)段考試真題 / 模擬題 / 競(jìng)賽題),星火 X1 拿下 SOTA。令人振奮的是,這一切全是在全國(guó)產(chǎn)算力平臺(tái)上實(shí)現(xiàn)的。
值得注意的是,本次 HAI 報(bào)告也指出,雖然中美在 AI 能力發(fā)展上仍存在差距,但中國(guó)本土模型正在以“快馬加鞭”的速度追趕國(guó)際巨頭,中美頂級(jí) AI 模型的性能差距已經(jīng)縮小到了 0.3%(2023 年,這一數(shù)字還是 20%),國(guó)產(chǎn)大模型正在邁向全球舞臺(tái)的中心。
本文鏈接:http://www.tebozhan.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 報(bào)告出爐,國(guó)產(chǎn)大模型僅訊飛星火入圍 Mix-Eval 前十
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 江波龍推出企業(yè)級(jí) SATA 固態(tài)硬盤 UNCIA 3856:容量覆蓋 480GB 至 7.68TB