AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 互聯網

FlagEval大語言模型評測9月榜:Baichuan 2排名第一

來源: 責編: 時間:2023-09-20 21:55:01 331觀看
導讀 9月19日消息,繼SuperCLUE中文大模型評測基準8月榜單發布之后,國內又一權威評測體系FlagEval(天秤)公布最新9月榜單評測結果。FlagEval(天秤)是北京智源人工智能研究院推出的大模型評測體系及開放平

9月19日消息,繼SuperCLUE中文大模型評測基準8月榜單發布之后,國內又一權威評測體系FlagEval(天秤)公布最新9月榜單評測結果。TeM28資訊網——每日最新資訊28at.com

FlagEval(天秤)是北京智源人工智能研究院推出的大模型評測體系及開放平臺,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能。FlagEval 大語言模型評測體系當前包含6大評測任務,近30個評測數據集,超10萬道評測題目。TeM28資訊網——每日最新資訊28at.com

據悉,在9月評測中,FlagEval進行了評測框架升級,細化「安全與價值觀」與「推理能力」。依據最新版的能力框架,FlagEval 團隊同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主觀評測數據集題庫v2.0,題目數量擴充3倍,采用“多人‘背靠背’評測+第三方仲裁”的方式保證評測結果的一致性。TeM28資訊網——每日最新資訊28at.com

基于最新 CLCC v2.0主觀評測數據集,FlagEval(天秤)9月榜重點評測了近期大熱的 7 個開源對話模型。從整體結果來看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅,準確率均超過 65%。TeM28資訊網——每日最新資訊28at.com

在基座模型榜單中,Baichuan 2、Qwen、InternLM、Aquila 的客觀評測結果表現均超越同參數量級的 Llama 及 Llama2 模型。TeM28資訊網——每日最新資訊28at.com

在 SFT 模型榜單中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。TeM28資訊網——每日最新資訊28at.com

另外,值得注意的是,在客觀評測兩個榜單中,Baichuan 2均表現出優異性能,基礎模型測試在中英文領域均全面超越Llama2。TeM28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-21-10600-0.htmlFlagEval大語言模型評測9月榜:Baichuan 2排名第一

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 周杰倫“騎”愛瑪電動車15年 “電量”耗盡了嗎?

下一篇: 拉勾招聘聯合知乎啟動“2024秋招通關指南”

標簽:
  • 熱門焦點
Top