近日,國內(nèi)社交內(nèi)容平臺(tái)小紅書在人工智能領(lǐng)域邁出了重要一步,宣布開源其首個(gè)大型語言模型dots.llm1。這一舉動(dòng)不僅為開源社區(qū)增添了一名重量級(jí)的新成員,也彰顯了小紅書在技術(shù)創(chuàng)新上的雄厚實(shí)力。
dots.llm1是一個(gè)擁有1420億參數(shù)的混合專家(MoE)模型,但在實(shí)際應(yīng)用中,它僅需激活140億參數(shù),便能展現(xiàn)出與阿里Qwen3-32B模型相近的性能。這一特性使得dots.llm1在保持高效能的同時(shí),也大大降低了運(yùn)算成本。在中文任務(wù)上的表現(xiàn)尤為亮眼,dots.llm1在C-eval評(píng)測中取得了92.2分的高分,超越了包括DeepSeek-V3在內(nèi)的眾多模型。
技術(shù)報(bào)告顯示,小紅書團(tuán)隊(duì)在數(shù)據(jù)處理方面做出了多項(xiàng)創(chuàng)新。他們提出了一個(gè)可擴(kuò)展且細(xì)粒度的三階段數(shù)據(jù)處理框架,旨在提升數(shù)據(jù)的規(guī)模、質(zhì)量和多樣性。團(tuán)隊(duì)還開發(fā)了Web雜亂清除模型和類別平衡技術(shù),進(jìn)一步確保了數(shù)據(jù)的高質(zhì)量和多樣性。這些努力使得dots.llm1在預(yù)訓(xùn)練階段就能接觸到豐富且高質(zhì)量的數(shù)據(jù),從而提升了模型的性能。
在模型架構(gòu)方面,dots.llm1采用了僅限解碼器的Transformer架構(gòu),其中每一層包含一個(gè)注意力層和一個(gè)前饋網(wǎng)絡(luò)(FFN)。與傳統(tǒng)的密集模型不同,dots.llm1的FFN被專家混合(MoE)層所替代。這種架構(gòu)使得dots.llm1能夠在保持經(jīng)濟(jì)成本的同時(shí),訓(xùn)練出功能強(qiáng)大的模型。在注意力層方面,dots.llm1使用了普通的多頭注意力機(jī)制,而在MoE層則遵循了DeepSeek和Qwen的做法,用包含共享和獨(dú)立專家的MoE層替換了FFN。
為了全面評(píng)估dots.llm1的性能,小紅書團(tuán)隊(duì)在中文和英文上進(jìn)行了預(yù)訓(xùn)練,并評(píng)估了它在多個(gè)領(lǐng)域基準(zhǔn)測試中的表現(xiàn)。結(jié)果顯示,dots.llm1在大多數(shù)領(lǐng)域中表現(xiàn)出了與Qwen2.5-72B相當(dāng)?shù)男阅堋L貏e是在語言理解任務(wù)上,dots.llm1在中文理解基準(zhǔn)測試中取得了較高性能,這主要得益于其高效的數(shù)據(jù)處理管道。在知識(shí)任務(wù)、代碼和數(shù)學(xué)領(lǐng)域,dots.llm1也展現(xiàn)出了穩(wěn)健的表現(xiàn)。
dots.llm1在預(yù)訓(xùn)練完成后還經(jīng)過了監(jiān)督微調(diào)階段。小紅書團(tuán)隊(duì)基于開源數(shù)據(jù)和內(nèi)部注釋數(shù)據(jù)收集了大約400k個(gè)指令調(diào)優(yōu)實(shí)例,并對(duì)dots.llm1進(jìn)行了兩個(gè)階段的微調(diào)。這些努力進(jìn)一步提升了dots.llm1在特定領(lǐng)域(如數(shù)學(xué)和編碼)的能力。
通過此次開源,小紅書不僅為人工智能領(lǐng)域貢獻(xiàn)了一個(gè)強(qiáng)大的大型語言模型,也展示了其在數(shù)據(jù)處理和模型架構(gòu)方面的創(chuàng)新實(shí)力。dots.llm1的成功推出,無疑將推動(dòng)大型語言模型的發(fā)展和應(yīng)用,為人工智能技術(shù)的進(jìn)步注入新的活力。
本文鏈接:http://www.tebozhan.com/showinfo-45-13632-0.html小紅書首推大模型dots.llm1,中文性能力壓DeepSeek-V3
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com