據(jù)媒體報(bào)道,中國(guó)臺(tái)灣新創(chuàng)公司APMIC與語言模型研究社群Twinkle AI達(dá)成合作,共同推出了適用于手機(jī)端的3B參數(shù)繁體中文推理模型,同時(shí)還發(fā)布了24B和70B參數(shù)的更大模型。這些模型通過開源模型結(jié)合繁體中文語料,并利用微調(diào)和蒸餾技術(shù)開發(fā)而成。
APMIC成立于2017年,專注于模型微調(diào)和語言模型平臺(tái)服務(wù),是NVIDIA的獨(dú)立軟件供應(yīng)商。Twinkle AI則是2024年成立的研究社群,主要研究繁體中文語言模型,并已開源評(píng)測(cè)架構(gòu)Twinkle Eval。
此次合作的模型基于Meta或Mistral AI的基礎(chǔ)模型,使用了約100B的繁體中文語料,涵蓋新聞、學(xué)術(shù)論文、法律條文和社會(huì)討論等多領(lǐng)域文本。團(tuán)隊(duì)還借助NVIDIA NeMo和Data Curator工具,以及DeepSeek R1 1776模型作為蒸餾技術(shù)的基底,完成了通用模型向推理模型的改造。整個(gè)開發(fā)過程動(dòng)用了超過200片H100進(jìn)行預(yù)訓(xùn)練與微調(diào)。
APMIC共同創(chuàng)始人兼CEO吳柏翰表示,3B參數(shù)的輕量化模型適合手機(jī)端應(yīng)用,預(yù)計(jì)可在最新款iPhone上運(yùn)行,主要取決于設(shè)備的存儲(chǔ)容量。24B參數(shù)模型在計(jì)算資源與推理精度之間實(shí)現(xiàn)了平衡,適合企業(yè)和學(xué)術(shù)研究;而70B參數(shù)模型則進(jìn)一步提升了推理和語言理解能力,適用于對(duì)性能要求更高的專業(yè)場(chǎng)景。
此外,雙方還開源了評(píng)測(cè)架構(gòu)Twinkle Eval,整合了包括臺(tái)灣通識(shí)與專業(yè)能力混合題庫(TMMLU+)、臺(tái)灣法律語料測(cè)試集(tw-legal-benchmark-v1)和多任務(wù)基準(zhǔn)測(cè)試集(MMLU)等數(shù)據(jù)集。團(tuán)隊(duì)指出,傳統(tǒng)評(píng)測(cè)工具多采用逐題推論方式,但隨著語言模型向“測(cè)試時(shí)運(yùn)算拓展”發(fā)展,逐題推論限制了評(píng)測(cè)效率。Twinkle Eval通過平行驗(yàn)測(cè)和工具整合,提升了評(píng)測(cè)效能,方便企業(yè)用戶進(jìn)行自動(dòng)化測(cè)試。
吳柏翰在近期的NVIDIA GTC大會(huì)中觀察到,AI產(chǎn)業(yè)分工日益細(xì)化,專注于特定領(lǐng)域的深度發(fā)展比追求通用領(lǐng)域的廣泛覆蓋更具競(jìng)爭(zhēng)力。他強(qiáng)調(diào),對(duì)于希望進(jìn)軍國(guó)際市場(chǎng)的中國(guó)臺(tái)灣企業(yè),加強(qiáng)軟硬件結(jié)合與專業(yè)合作是提升市場(chǎng)差異化的關(guān)鍵。
本文鏈接:http://www.tebozhan.com/showinfo-27-141885-0.html臺(tái)灣新創(chuàng)APMIC與Twinkle AI合作推出繁體中文推理模型
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 蘋果計(jì)劃推出AI健康助手,2026年或上線
下一篇: 英諾賽科贏得國(guó)際專利戰(zhàn),中國(guó)GaN產(chǎn)業(yè)迎利好
標(biāo)簽: