當(dāng)前位置：首頁(yè) > 科技 > 軟件

斯坦福 2025 年 HAI 報(bào)告出爐，國(guó)產(chǎn)大模型僅訊飛星火入圍 Mix-Eval 前十

來源：責(zé)編：時(shí)間：2025-04-09 12:35:42 84觀看

導(dǎo)讀 2025 年 4 月 8 日，斯坦福大學(xué)與加拿大國(guó)立大學(xué)、卡內(nèi)基梅隆大學(xué)聯(lián)合發(fā)布的《2025 年人工智能指數(shù)報(bào)告》（HAI 報(bào)告）正式出爐，在眾多頂尖大模型的技術(shù)性能評(píng)測(cè)中，來自中國(guó)的訊飛星火 4.0（Spark 4.0）憑借其在“MixEval

2025 年 4 月 8 日，斯坦福大學(xué)與加拿大國(guó)立大學(xué)、卡內(nèi)基梅隆大學(xué)聯(lián)合發(fā)布的《2025 年人工智能指數(shù)報(bào)告》（HAI 報(bào)告）正式出爐，在眾多頂尖大模型的技術(shù)性能評(píng)測(cè)中，來自中國(guó)的訊飛星火 4.0（Spark 4.0）憑借其在“MixEval-Hard”測(cè)試中的出色表現(xiàn)，成為國(guó)內(nèi)唯一入圍前十的中文大模型，在所有國(guó)產(chǎn)大模型中排名第一，展示出強(qiáng)勁的技術(shù)實(shí)力與國(guó)際競(jìng)爭(zhēng)力。

MixEval 是本次 HAI 報(bào)告引入的一項(xiàng)全新評(píng)測(cè)標(biāo)準(zhǔn)，專為評(píng)估大語言模型在復(fù)雜真實(shí)語言任務(wù)中的表現(xiàn)，尤其聚焦于“分布式用戶查詢”和“復(fù)雜問題處理能力”。在更具挑戰(zhàn)性的 MixEval-Hard 基準(zhǔn)測(cè)試中，訊飛星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多個(gè)國(guó)際知名模型以及通義千問等國(guó)內(nèi)模型，成為唯一入榜前十的中國(guó)大模型選手。

從報(bào)告來看，在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”，以 72.0 分遙遙領(lǐng)先，其次是 Anthropic 的 Claude 3.5 Sonnet（68.1 分）以及 Meta 推出的 LLaMA-3 405B-Instruct（66.2 分）。訊飛星火 4.0 緊隨亞馬遜旗下模型 Mistral Large2，以 0.4 的劣勢(shì)排在第十名，在多個(gè)維度上展現(xiàn)出不俗的語言理解和推理能力。

MixEval-Hard 測(cè)試體系包括“過濾篩選”“語料注釋”“評(píng)估”和“動(dòng)態(tài)更新”等多個(gè)環(huán)節(jié)，模擬真實(shí)場(chǎng)景下用戶與模型的交互過程，是目前衡量模型處理復(fù)雜任務(wù)能力最具代表性的基準(zhǔn)之一。其涵蓋多模態(tài)能力、事實(shí)一致性、推理能力等綜合指標(biāo)，被業(yè)界稱為“大模型能力大考”。

作為科大訊飛旗下的重要戰(zhàn)略產(chǎn)品，訊飛星火大模型自 2023 年發(fā)布以來不斷迭代升級(jí)。其 4.0 版本于 2024 年 6 月發(fā)布的，在語義理解、邏輯推理、跨語種翻譯等多個(gè)領(lǐng)域都實(shí)現(xiàn)突破。2025 年 3 月 3 日，訊飛星火發(fā)布深度推理模型 X1 在數(shù)學(xué)能力上大幅躍升，以 70B 參數(shù)規(guī)模便追平了 o1 和 DeepSeek-R1。尤其針對(duì)小初高中文測(cè)試集（來自 2023/2024 各學(xué)段考試真題 / 模擬題 / 競(jìng)賽題），星火 X1 拿下 SOTA。令人振奮的是，這一切全是在全國(guó)產(chǎn)算力平臺(tái)上實(shí)現(xiàn)的。

值得注意的是，本次 HAI 報(bào)告也指出，雖然中美在 AI 能力發(fā)展上仍存在差距，但中國(guó)本土模型正在以“快馬加鞭”的速度追趕國(guó)際巨頭，中美頂級(jí) AI 模型的性能差距已經(jīng)縮小到了 0.3%（2023 年，這一數(shù)字還是 20%），國(guó)產(chǎn)大模型正在邁向全球舞臺(tái)的中心。

本文鏈接：http://www.tebozhan.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 報(bào)告出爐，國(guó)產(chǎn)大模型僅訊飛星火入圍 Mix-Eval 前十

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：江波龍推出企業(yè)級(jí) SATA 固態(tài)硬盤 UNCIA 3856：容量覆蓋 480GB 至 7.68TB

下一篇：《刺客信條：影》兩大主機(jī)平臺(tái)表現(xiàn)迥異，PS5銷量不佳真相何在？

標(biāo)簽：

熱門焦點(diǎn)

vivo TWS Air開箱體驗(yàn)：真輕臻好聽

在vivo S15系列新機(jī)的發(fā)布會(huì)上，vivo的最新款真無線藍(lán)牙耳機(jī)vivo TWS Air也一同發(fā)布，本次就這款耳機(jī)新品給大家?guī)硪粋€(gè)簡(jiǎn)單的分享。外包裝盒上，vivo TWS Air保持了vivo自家產(chǎn)
5月iOS設(shè)備性能榜：M1 M2依舊是榜單前五

和上個(gè)月一樣，沒有新品發(fā)布的iOS設(shè)備性能榜的上榜設(shè)備并沒有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動(dòng)，剛剛開始的蘋果WWDC2023，推出的產(chǎn)品也依舊是新款Mac Pro、新款Mac Stu
女孩租房開2小時(shí)空調(diào)用完100元電費(fèi)引熱議：5級(jí)能耗惹不起月薪過萬電費(fèi)也交不起

近日，江蘇蘇州一女孩租房當(dāng)天充值了100元電費(fèi)，開著空調(diào)不到2小時(shí)發(fā)現(xiàn)電費(fèi)已用完。對(duì)于為什么這個(gè)快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
JavaScript 混淆及反混淆代碼工具

介紹在我們開始學(xué)習(xí)反混淆之前，我們首先要了解一下代碼混淆。如果不了解代碼是如何混淆的，我們可能無法成功對(duì)代碼進(jìn)行反混淆，尤其是使用自定義混淆器對(duì)其進(jìn)行混淆時(shí)。什么是混
Raft算法：保障分布式系統(tǒng)共識(shí)的穩(wěn)健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復(fù)制、可冗余、可容錯(cuò)”）的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
.NET 程序的 GDI 句柄泄露的再反思

一、背景1. 講故事上個(gè)月我寫過一篇如何洞察 C# 程序的 GDI 句柄泄露文章，當(dāng)時(shí)用的是 GDIView + WinDbg 把問題搞定，前者用來定位泄露資源，后者用來定位泄露代碼，后面有朋友反
每天一道面試題-CPU偽共享

前言：了不起：又到了每天一到面試題的時(shí)候了！學(xué)弟，最近學(xué)習(xí)的怎么樣啊了不起學(xué)弟：最近學(xué)習(xí)的還不錯(cuò)，每天都在學(xué)習(xí)，每天都在進(jìn)步！了不起：那你最近學(xué)習(xí)的什么呢？了不起學(xué)弟：最近在學(xué)習(xí)C
使用AIGC工具提升安全工作效率

在日常工作中，安全人員可能會(huì)涉及各種各樣的安全任務(wù)，包括但不限于：開發(fā)某些安全工具的插件，滿足自己特定的安全需求；自定義github搜索工具，快速查找所需的安全資料、漏洞poc、exp
北京：科技教育體驗(yàn)基地開始登記

　　北京“科技館之城”科技教育體驗(yàn)基地登記和認(rèn)證工作日前啟動(dòng)。首批北京科技教育體驗(yàn)基地?cái)M于2023年全國(guó)科普日期間掛牌，后續(xù)還將開展常態(tài)化登記?！　”本┛萍冀逃w驗(yàn)基

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

斯坦福 2025 年 HAI 報(bào)告出爐，國(guó)產(chǎn)大模型僅訊飛星火入圍 Mix-Eval 前十

vivo TWS Air開箱體驗(yàn)：真輕臻好聽

5月iOS設(shè)備性能榜：M1 M2依舊是榜單前五

女孩租房開2小時(shí)空調(diào)用完100元電費(fèi)引熱議：5級(jí)能耗惹不起月薪過萬電費(fèi)也交不起

JavaScript 混淆及反混淆代碼工具

Raft算法：保障分布式系統(tǒng)共識(shí)的穩(wěn)健之道

.NET 程序的 GDI 句柄泄露的再反思

每天一道面試題-CPU偽共享

使用AIGC工具提升安全工作效率

北京：科技教育體驗(yàn)基地開始登記

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊