當(dāng)前位置：首頁(yè) > 科技 > 互聯(lián)網(wǎng)

FlagEval大語(yǔ)言模型評(píng)測(cè)9月榜：Baichuan 2排名第一

來(lái)源：責(zé)編：時(shí)間：2023-09-20 21:55:01 382觀看

導(dǎo)讀 9月19日消息，繼SuperCLUE中文大模型評(píng)測(cè)基準(zhǔn)8月榜單發(fā)布之后，國(guó)內(nèi)又一權(quán)威評(píng)測(cè)體系FlagEval（天秤）公布最新9月榜單評(píng)測(cè)結(jié)果。FlagEval（天秤）是北京智源人工智能研究院推出的大模型評(píng)測(cè)體系及開放平

9月19日消息，繼SuperCLUE中文大模型評(píng)測(cè)基準(zhǔn)8月榜單發(fā)布之后，國(guó)內(nèi)又一權(quán)威評(píng)測(cè)體系FlagEval（天秤）公布最新9月榜單評(píng)測(cè)結(jié)果。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型評(píng)測(cè)體系及開放平臺(tái)，旨在建立科學(xué)、公正、開放的評(píng)測(cè)基準(zhǔn)、方法、工具集，協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能。FlagEval 大語(yǔ)言模型評(píng)測(cè)體系當(dāng)前包含6大評(píng)測(cè)任務(wù)，近30個(gè)評(píng)測(cè)數(shù)據(jù)集，超10萬(wàn)道評(píng)測(cè)題目。

據(jù)悉，在9月評(píng)測(cè)中，F(xiàn)lagEval進(jìn)行了評(píng)測(cè)框架升級(jí)，細(xì)化「安全與價(jià)值觀」與「推理能力」。依據(jù)最新版的能力框架，F(xiàn)lagEval 團(tuán)隊(duì)同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主觀評(píng)測(cè)數(shù)據(jù)集題庫(kù)v2.0，題目數(shù)量擴(kuò)充3倍，采用“多人‘背靠背’評(píng)測(cè)+第三方仲裁”的方式保證評(píng)測(cè)結(jié)果的一致性。

基于最新 CLCC v2.0主觀評(píng)測(cè)數(shù)據(jù)集，F(xiàn)lagEval（天秤）9月榜重點(diǎn)評(píng)測(cè)了近期大熱的 7 個(gè)開源對(duì)話模型。從整體結(jié)果來(lái)看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，準(zhǔn)確率均超過(guò) 65%。

在基座模型榜單中，Baichuan 2、Qwen、InternLM、Aquila 的客觀評(píng)測(cè)結(jié)果表現(xiàn)均超越同參數(shù)量級(jí)的 Llama 及 Llama2 模型。

在 SFT 模型榜單中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

另外，值得注意的是，在客觀評(píng)測(cè)兩個(gè)榜單中，Baichuan 2均表現(xiàn)出優(yōu)異性能，基礎(chǔ)模型測(cè)試在中英文領(lǐng)域均全面超越Llama2。

本文鏈接：http://www.tebozhan.com/showinfo-21-10600-0.htmlFlagEval大語(yǔ)言模型評(píng)測(cè)9月榜：Baichuan 2排名第一

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：周杰倫“騎”愛(ài)瑪電動(dòng)車15年 “電量”耗盡了嗎？

下一篇：拉勾招聘聯(lián)合知乎啟動(dòng)“2024秋招通關(guān)指南”

標(biāo)簽：

熱門焦點(diǎn)

小米平板5 Pro 12.4簡(jiǎn)評(píng)：多專多能兼顧影音娛樂(lè)的大屏利器

疫情帶來(lái)了網(wǎng)課，網(wǎng)課盤活了安卓平板，安卓平板市場(chǎng)雖然中途停滯了幾年，但好的一點(diǎn)就是停滯的這幾年行業(yè)又有了新的發(fā)展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
石頭自清潔掃拖機(jī)器人G10S評(píng)測(cè)：多年黑科技集大成之作懶人終極福音

科技圈經(jīng)常能看到一個(gè)詞叫“縫合怪”，用來(lái)形容那些把好多功能或者外觀結(jié)合在一起的產(chǎn)品，通常這樣的詞是貶義詞，但如果真的是產(chǎn)品縫合的好、縫合的實(shí)用的話，那它就成了中性詞，今
消費(fèi)結(jié)構(gòu)調(diào)整丨巨頭低價(jià)博弈，拼多多還卷得動(dòng)嗎？

來(lái)源：征探財(cái)經(jīng)作者：陳香羽隨著流量紅利的退潮，電商的存量博弈越來(lái)越明顯。曾經(jīng)主攻中高端與品質(zhì)的淘寶天貓、京東重拾“低價(jià)”口號(hào)。而過(guò)去與他們錯(cuò)位競(jìng)爭(zhēng)的拼多多，靠
網(wǎng)紅炒股不為了賺錢，那就是耍流氓！

來(lái)源：首席商業(yè)評(píng)論6月26日高調(diào)宣布入市，網(wǎng)絡(luò)名嘴大v胡錫進(jìn)居然進(jìn)軍了股市。在一次財(cái)經(jīng)媒體峰會(huì)上，幾個(gè)財(cái)經(jīng)圈媒體大佬就“胡錫進(jìn)炒股是否知道認(rèn)真報(bào)道”展開討論。有
疑似小米14外觀設(shè)計(jì)圖曝光：后置相機(jī)模組變化不大

下半年的大幕已經(jīng)開啟，而誰(shuí)將成為下半年手機(jī)圈的主角就成為了大家關(guān)注的焦點(diǎn)，其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發(fā)布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

7月18日消息，據(jù)外媒報(bào)道，隨著蘋果首款頭顯產(chǎn)品Vision Pro在6月份正式推出，AR/VR/MR等頭顯產(chǎn)品也就將成為各大公司下一個(gè)重要的競(jìng)爭(zhēng)領(lǐng)域，對(duì)顯示屏這一關(guān)
上海舉辦人工智能大會(huì)活動(dòng)，建設(shè)人工智能新高地

人工智能大會(huì)在上海浦江兩岸隆重拉開帷幕，人工智能新技術(shù)、新產(chǎn)品、新應(yīng)用、新理念集中亮相。8月30日晚，作為大會(huì)的特色活動(dòng)之一的上海人工智能發(fā)展盛典人工
Meta盲目擴(kuò)張致超萬(wàn)人被裁，重金押注元宇宙而前景未明

圖片來(lái)源：圖蟲創(chuàng)意日前，Meta創(chuàng)始人兼CEO 馬克·扎克伯發(fā)布公開信，宣布Meta計(jì)劃裁員超11000人，占其員工總數(shù)13%。他公開承認(rèn)了自己的預(yù)判失誤：“不僅

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

FlagEval大語(yǔ)言模型評(píng)測(cè)9月榜：Baichuan 2排名第一

小米平板5 Pro 12.4簡(jiǎn)評(píng)：多專多能兼顧影音娛樂(lè)的大屏利器

石頭自清潔掃拖機(jī)器人G10S評(píng)測(cè)：多年黑科技集大成之作懶人終極福音

消費(fèi)結(jié)構(gòu)調(diào)整丨巨頭低價(jià)博弈，拼多多還卷得動(dòng)嗎？

網(wǎng)紅炒股不為了賺錢，那就是耍流氓！

疑似小米14外觀設(shè)計(jì)圖曝光：后置相機(jī)模組變化不大

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

上海舉辦人工智能大會(huì)活動(dòng)，建設(shè)人工智能新高地

Meta盲目擴(kuò)張致超萬(wàn)人被裁，重金押注元宇宙而前景未明

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊