AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

谷歌發(fā)布開源 LMEval 框架:打破 AI 模型比較壁壘,降低評測成本和時間

來源: 責編: 時間:2025-05-29 09:06:02 50觀看
導(dǎo)讀 5 月 27 日消息,科技媒體 The Decoder 昨日(5 月 26 日)發(fā)布博文,報道稱谷歌推出開源框架 LMEval,為大語言模型和多模態(tài)模型提供標準化的評測工具。評測新型 AI 模型一直是個難題。不同供應(yīng)商使用各自的 API、數(shù)據(jù)

5 月 27 日消息,科技媒體 The Decoder 昨日(5 月 26 日)發(fā)布博文,報道稱谷歌推出開源框架 LMEval,為大語言模型和多模態(tài)模型提供標準化的評測工具。ReT28資訊網(wǎng)——每日最新資訊28at.com

評測新型 AI 模型一直是個難題。不同供應(yīng)商使用各自的 API、數(shù)據(jù)格式和基準設(shè)置,導(dǎo)致跨模型比較耗時且復(fù)雜。ReT28資訊網(wǎng)——每日最新資訊28at.com

ReT28資訊網(wǎng)——每日最新資訊28at.com

而谷歌最新推出的 LMEval 開源框架直擊這一痛點,研究人員和開發(fā)者只需設(shè)置一次基準,就能展開標準化的評測流程,大幅簡化了評測工作,節(jié)省了時間和資源。ReT28資訊網(wǎng)——每日最新資訊28at.com

LMEval 還通過 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平臺之間的接口差異,確保測試跨平臺無縫運行。ReT28資訊網(wǎng)——每日最新資訊28at.com

LMEval 不僅支持文本評測,還涵蓋圖像和代碼等領(lǐng)域的基準測試,且新輸入格式可輕松擴展,框架支持是非題、多選題和自由文本生成等多種評估類型。同時,該框架能識別模型采用的“規(guī)避策略”,即故意給出模糊回答以避免生成有風險內(nèi)容。ReT28資訊網(wǎng)——每日最新資訊28at.com

Google 還引入了 Giskard 安全評分,展示模型規(guī)避有害內(nèi)容的表現(xiàn),百分比越高代表安全性越強。測試結(jié)果存儲在自加密的 SQLite 數(shù)據(jù)庫中,確保數(shù)據(jù)本地化且不會被搜索引擎索引,兼顧了隱私與便捷。ReT28資訊網(wǎng)——每日最新資訊28at.com

LMEval 具備增量評估功能,無需在新增模型或問題時重新運行整個測試,僅執(zhí)行必要的新增測試即可,并采用多線程引擎并行處理多項計算,有效降低了計算成本和時間消耗。ReT28資訊網(wǎng)——每日最新資訊28at.com

谷歌還開發(fā)了 LMEvalboard 可視化工具,通過雷達圖展示模型在不同類別中的表現(xiàn)。用戶可深入查看具體任務(wù),精準定位模型錯誤,并直接比較多個模型在特定問題上的差異,圖形化展示一目了然。ReT28資訊網(wǎng)——每日最新資訊28at.com

ReT28資訊網(wǎng)——每日最新資訊28at.com

ReT28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-13257-0.html谷歌發(fā)布開源 LMEval 框架:打破 AI 模型比較壁壘,降低評測成本和時間

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI 首款 AI 硬件被曝 2026 年登場,ChatGPT 全面融入用戶生活

下一篇: 更新:OpenAI 宣布阿聯(lián)酋全境接入 ChatGPT AI

標簽:
  • 熱門焦點
  • FMIFAwards獎項即將揭曉!

    來源:X增強現(xiàn)實FMIF Awards未來元宇宙創(chuàng)新獎是由未來元宇宙創(chuàng)新論壇、ARinChina以及多家投資機構(gòu)、媒體、研究院聯(lián)合發(fā)起的一項評選活動。旨在推動新技術(shù)的融合與集成低成本
  • 從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施:帶你了解不一樣的Flow

    對于大部分年輕人來說,剛剛過去的春節(jié)有一個詞語突然成為了品牌宣傳的流行語,作為從NFT中衍生出來的“數(shù)字藏品”一時間獲得了不少品牌青睞,他們紛紛推出自己的數(shù)
  • Terra鏈上TVL躍升至第二

    據(jù)DefiLlama數(shù)據(jù)顯示,當前,Terra鏈上應(yīng)用鎖倉的加密資產(chǎn)價值(TVL)為172.1億美元,在公鏈板塊中已躍升至第二,超越了幣安智能鏈TVL的118億美元,TVL排名居首的仍為以太
  • NFT行業(yè)的三大區(qū)塊鏈之一引起了Snoop Dogg的強烈興趣,究竟有何潛力?

    Block-810多個區(qū)塊鏈吸引了希望創(chuàng)建單個NFT或整個集合的用戶的注意。Tezos是其中因其低費用和低碳排放方式而備受贊譽的區(qū)塊鏈,就連Snoop Dogg也希望通過公開他
  • 又一家數(shù)字營銷公司入局元宇宙,國內(nèi)首個藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

    作者:董宇佳2月28日,智度股份在北京舉辦產(chǎn)品發(fā)布會,宣布其與國光電器聯(lián)手打造的國內(nèi)首個藝術(shù)元宇宙社區(qū)——“Meta彼岸”在VR端和移動端正式公測。從科技巨頭布局
  • MR——元宇宙平臺的下一代入口

    作為“元宇宙”的領(lǐng)頭羊,Meta的一舉一動都受到業(yè)內(nèi)的高度關(guān)注。華爾街見聞提及,2月17日周四,F(xiàn)acebook母公司Meta在透露,其混合現(xiàn)實技術(shù)(MR)將在幾年后實現(xiàn),讓人們對元
  • 花旗集團前高管加入Provenance區(qū)塊鏈,擔任CEO

    No.1 花旗集團前高管加入Provenance區(qū)塊鏈,擔任CEO3月1日消息,Provenance區(qū)塊鏈基金會已任命花旗集團前高管摩根·麥肯尼(Morgan McKenney)為新任首席執(zhí)行官。麥肯
  • Staking 收益翻倍?

    以太坊質(zhì)押可能很快就會有兩倍的利潤。Coinbase 估計,在 1 月份以太坊網(wǎng)絡(luò)合并后,持有 ETH 的回報將翻倍。增長預(yù)期假設(shè)來自加密貨幣交易所 Coinbase 的估計是準
  • Ceramic:為Web3.0社交應(yīng)用打造的中間件

    大家關(guān)注老雅痞公眾號這么久,對Web3的概念不陌生吧?讓我們做一個簡短的回顧,Web3主要被描述為去中心化的網(wǎng)絡(luò),旨在實現(xiàn)無服務(wù)器、去中心化的互聯(lián)網(wǎng),即用戶掌握自己
Top