1 月 27 日消息,阿里通義千問今日宣布,正式推出開源的 Qwen2.5-1M 模型及其對應的推理框架支持。
從官方介紹獲悉,通義千問本次發布了兩個新的開源模型,分別是Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,這是通義千問首次將開源的 Qwen 模型的上下文擴展到 1M 長度。
為了幫助開發者更高效地部署 Qwen2.5-1M 系列模型,Qwen 團隊完全開源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得該框架在處理 1M 標記輸入時的速度提升了 3 倍到 7 倍。
長上下文任務在上下文長度為 100 萬 Tokens 的大海撈針(Passkey Retrieval)任務中,Qwen2.5-1M 系列模型能夠準確地從 1M 長度的文檔中檢索出隱藏信息,其中僅有 7B 模型出現了少量錯誤。
對于更復雜的長上下文理解任務,選擇了 RULER、LV-Eval 和 LongbenchChat 測試集。
從這些結果中,Qwen 得出以下幾點關鍵結論:
顯著超越 128K 版本:Qwen2.5-1M 系列模型在大多數長上下文任務中顯著優于之前的 128K 版本,特別是在處理超過 64K 長度的任務時表現出色。
性能優勢明顯:Qwen2.5-14B-Instruct-1M 模型不僅擊敗了 Qwen2.5-Turbo,還在多個數據集上穩定超越 GPT-4o-mini,為長上下文任務提供了開源模型的選擇。
短序列任務可以發現:
Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短文本任務上的表現與其 128K 版本相當,確保了基本能力沒有因為增加了長序列處理能力而受到影響。
與 GPT-4o-mini 相比,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任務上實現了相近的性能,同時上下文長度是 GPT-4o-mini 的八倍。
模型鏈接:https://www.modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
體驗鏈接:https://modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
本文鏈接:http://www.tebozhan.com/showinfo-45-10254-0.html支持 100 萬 Tokens 上下文,阿里通義千問推出 Qwen2.5-1M 開源模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com