AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 資訊

阿里巴巴開源Qwen1.5-110B:1100億參數挑戰Meta Llama3-70B性能

來源: 責編: 時間:2024-04-28 08:53:42 81觀看
導讀4月28日消息,阿里巴巴最近公開宣布,他們已成功開源了Qwen1.5系列中的首個千億參數模型——Qwen1.5-110B。據稱,在基礎能力的評估測試中,該模型的表現足以媲美meta旗下的Llama3-70B模型,并且在Chat評估中也大放異彩,這包括了

4月28日消息,阿里巴巴最近公開宣布,他們已成功開源了Qwen1.5系列中的首個千億參數模型——Qwen1.5-110B。據稱,在基礎能力的評估測試中,該模型的表現足以媲美meta旗下的Llama3-70B模型,并且在Chat評估中也大放異彩,這包括了MT-Bench和Alpacaeval2.0兩項基準測試。I9e28資訊網——每日最新資訊28at.com

這款Qwen1.5-110B模型沿用了Qwen1.5系列一貫的Transformer解碼器架構,并引入了分組查詢注意力(GQA)機制,使得模型在推理時更為高效。這款模型支持長達32Ktokens的上下文長度,同時兼容多種語言,包括但不限于英語、中文、法語、西班牙語、德語、俄語、日語、韓語、越南語以及阿拉伯語。I9e28資訊網——每日最新資訊28at.com

I9e28資訊網——每日最新資訊28at.com

阿里巴巴將Qwen1.5-110B與當前頂尖的語言模型meta-Llama3-70B和Mixtral-8x22B進行了詳盡的對比測試。測試結果顯示,新的110B模型在基礎能力上至少達到了Llama-3-70B模型的水平。阿里巴巴團隊指出,他們在這一模型中并未對預訓練方法進行大幅調整,因此性能的提升主要歸功于模型規模的擴大。I9e28資訊網——每日最新資訊28at.com

I9e28資訊網——每日最新資訊28at.com

此外,阿里巴巴還在MT-Bench和Alpacaeval2.0上對其進行了Chat評估。結果顯示,與之前發布的72B模型相比,110B模型在這兩個Chat模型基準評估中的表現顯著更佳。這一持續改善的評估結果表明,即便沒有大幅改變訓練方法,更強大、規模更大的基礎語言模型也能催生出更優秀的Chat模型。I9e28資訊網——每日最新資訊28at.com

據ITBEAR科技資訊了解,Qwen1.5-110B不僅是Qwen1.5系列中規模最大的模型,更是該系列首個參數超過1000億的模型。與最近發布的頂尖模型Llama-3-70B相比,其性能表現同樣出色,并且明顯優于先前的72B模型。這一突破性的進展無疑將為自然語言處理領域帶來新的可能性。I9e28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-16-102378-0.html阿里巴巴開源Qwen1.5-110B:1100億參數挑戰Meta Llama3-70B性能

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 盒馬會員服務重啟,黃金/鉆石會員年費維持不變

下一篇: 比克電池連續四屆亮相CIBF大會,以創“芯”賦能綠色生活

標簽:
  • 熱門焦點
  • 小米官宣:2023年上半年出貨量中國第一!

    今日早間,小米電視官方微博帶來消息,稱2023年小米電視上半年出貨量達到了中國第一,同時還表示小米電視的巨屏風暴即將開始。“公布一個好消息2023年#小米電視上半年出貨量中國
  • vivo TWS Air開箱體驗:真輕 臻好聽

    在vivo S15系列新機的發布會上,vivo的最新款真無線藍牙耳機vivo TWS Air也一同發布,本次就這款耳機新品給大家帶來一個簡單的分享。外包裝盒上,vivo TWS Air保持了vivo自家產
  • Rust中的高吞吐量流處理

    作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫,還使用這些庫實現了一個流處理程序
  • 分布式系統中的CAP理論,面試必問,你理解了嘛?

    對于剛剛接觸分布式系統的小伙伴們來說,一提起分布式系統,就感覺高大上,深不可測。而且看了很多書和視頻還是一臉懵逼。這篇文章主要使用大白話的方式,帶你理解一下分布式系統
  • 如何正確使用:Has和:Nth-Last-Child

    我們可以用CSS檢查,以了解一組元素的數量是否小于或等于一個數字。例如,一個擁有三個或更多子項的grid。你可能會想,為什么需要這樣做呢?在某些情況下,一個組件或一個布局可能會
  • 一篇聊聊Go錯誤封裝機制

    %w 是用于錯誤包裝(Error Wrapping)的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞,用于將一個錯誤(或其他可打印的值)包裝在一個新的錯誤中。使
  • 猿輔導與新東方的兩種“歸途”

    作者|卓心月 出品|零態LT(ID:LingTai_LT)如何成為一家偉大企業?答案一定是對“勢”的把握,這其中最關鍵的當屬對企業戰略的制定,且能夠站在未來看現在,即使這其中的
  • ESG的面子與里子

    來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之三伏大幕拉起,各地高溫預警不絕,但處于厄爾尼諾大“烤”之下的除了眾生,還有各大企業發布的ESG報告。ESG是“環境保
  • 當家的盒馬,加速謀生

    來源 | 價值星球Planet作者 | 歸去來自己“當家”的盒馬,開始加速謀生了。據盒馬官微消息,盒馬計劃今年開放生鮮供應鏈,將其生鮮商品送往食堂。目前,盒馬在上海已經與
Top