7 月 22 日消息,阿里云今天更新了旗艦版 Qwen3 模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名為 Qwen3-235B-A22B-Instruct-2507-FP8。
阿里云表示,在經過與社區溝通和深思熟慮后,決定停止使用混合思考模式,轉為分別訓練 Instruct 和 Thinking 模型,以獲得最佳質量。
據介紹,新的 Qwen3 模型通用能力顯著提升,包括指令遵循、邏輯推理、文本理解、數學、科學、編程及工具使用等方面,在 GQPA(知識)、AIME25(數學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent 能力)等眾多測評中表現出色,超過 Kimi-K2、DeepSeek-V3 等頂級開源模型以及 Claude-Opus4-Non-thinking 等領先閉源模型。
FP8 版本的 Qwen3-235B-A22B-Instruct-2507 具有以下功能特點:
類型:因果語言模型 / 自回歸語言模型
訓練階段:預訓練與后訓練
參數量:總共 235B,激活 22B
參數量(非嵌入):234B
層數:94
注意頭數(GQA): Q 為 64,KV 為 4
專家數:128
激活專家數:8
上下文長度:原生支持 262,144。
阿里云表示,本次更新的 Qwen3 模型,還增強了以下關鍵性能:
在多語言的長尾知識覆蓋方面,模型取得顯著進步。
在主觀及開放性任務中,模型顯著增強了對用戶偏好的契合能力,能夠提供更有用的回復,生成更高質量的文本。
長文本提升到 256K,上下文理解能力進一步增強。
目前,Qwen3 新模型已在魔搭社區和 HuggingFace 上開源更新,附官方地址:
官網地址:https://chat.qwen.ai/
HuggingFace:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
魔塔社區:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
本文鏈接:http://www.tebozhan.com/showinfo-45-14799-0.html阿里云通義千問 Qwen 3 旗艦版模型宣布更新:性能全面提升,超越 Kimi、DeepSeek 等行業頂尖水平
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com