5 月 3 日消息,面壁智能發(fā)布開(kāi)源大模型 Eurux-8x22B,包括Eurux-8x22B-NCA與Eurux-8x22B-KTO,主打推理能力。
官方測(cè)試中,Eurux-8x22B 在LeetCode(180 道 LeetCode 編程真題)與TheoremQA (注:美國(guó)大學(xué)水準(zhǔn)的 STEM 題目)測(cè)試上超越了Llama3-70B,在LeetCode 測(cè)試上超越閉源的 GPT-3.5-Turbo。
據(jù)介紹,Eurux-8x22B 模型激活參數(shù) 39B,支持 64k 上下文,是由 Mixtral-8x22B 模型對(duì)齊而來(lái),在 UltraInteract 對(duì)齊數(shù)據(jù)集上訓(xùn)練而成。
UltraInteract 是專(zhuān)門(mén)設(shè)計(jì)用于提升大模型推理能力的大規(guī)模、高質(zhì)量的對(duì)齊數(shù)據(jù)集,包含了覆蓋數(shù)學(xué)、代碼和邏輯推理問(wèn)題的 12 個(gè)開(kāi)源數(shù)據(jù)集的 86K 條指令和 220K 偏好對(duì),共有五十萬(wàn)條左右數(shù)據(jù)。
本文鏈接:http://www.tebozhan.com/showinfo-45-4209-0.html面壁智能發(fā)布 Eurux-8x22B 開(kāi)源大模型:代碼性能超越 Llama3-70B
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: AI 入侵華爾街,高盛、摩根大通:66% 初級(jí)分析師有被取代風(fēng)險(xiǎn)
下一篇: 挑戰(zhàn)谷歌巨頭地位?消息稱(chēng) OpenAI 于 5 月 9 日發(fā)布 ChatGPT 版搜索引擎