4 月 12 日消息,科技媒體 marktechpost 昨日(4 月 11 日)發(fā)布博文,報(bào)道稱英偉達(dá)發(fā)布 Llama-3.1-Nemotron-Ultra-253B-v1,這款 2530 億參數(shù)的大型語言模型在推理能力、架構(gòu)效率和生產(chǎn)準(zhǔn)備度上實(shí)現(xiàn)重大突破。
隨著 AI 在數(shù)字基礎(chǔ)設(shè)施中的普及,企業(yè)與開發(fā)者需在計(jì)算成本、性能與擴(kuò)展性間尋找平衡。大型語言模型(LLM)的快速發(fā)展提升了自然語言理解和對(duì)話能力,但其龐大規(guī)模常導(dǎo)致效率低下,限制大規(guī)模部署。
英偉達(dá)最新發(fā)布的 Llama-3.1-Nemotron-Ultra-253B-v1(簡(jiǎn)稱 Nemotron Ultra)直面這一挑戰(zhàn),該模型基于 Meta 的 Llama-3.1-405B-Instruct 架構(gòu),專為商業(yè)和企業(yè)需求設(shè)計(jì),支持從工具使用到多輪復(fù)雜指令執(zhí)行等任務(wù)。
援引博文介紹,Nemotron Ultra 采用僅解碼器的密集 Transformer 結(jié)構(gòu),通過神經(jīng)架構(gòu)搜索(NAS)算法優(yōu)化,其創(chuàng)新之處在于采用跳躍注意力機(jī)制,在部分層中省略注意力模塊或替換為簡(jiǎn)單線性層。
此外,前饋網(wǎng)絡(luò)(FFN)融合技術(shù)將多層 FFN 合并為更寬但更少的層,大幅縮短推理時(shí)間,同時(shí)保持性能。模型支持 128K token 的上下文窗口,可處理長(zhǎng)篇文本,適合高級(jí) RAG 系統(tǒng)和多文檔分析。
在部署效率上,Nemotron Ultra 也實(shí)現(xiàn)突破。它能在單 8xH100 節(jié)點(diǎn)上運(yùn)行推理,顯著降低數(shù)據(jù)中心成本,提升企業(yè)開發(fā)者的可及性。
英偉達(dá)通過多階段后訓(xùn)練進(jìn)一步優(yōu)化模型,包括在代碼生成、數(shù)學(xué)、對(duì)話和工具調(diào)用等任務(wù)上的監(jiān)督微調(diào),以及使用群體相對(duì)策略優(yōu)化(GRPO)算法進(jìn)行強(qiáng)化學(xué)習(xí)(RL)。這些步驟確保模型在基準(zhǔn)測(cè)試中表現(xiàn)出色,并與人類交互偏好高度契合。
本文鏈接:http://www.tebozhan.com/showinfo-45-12242-0.html英偉達(dá)發(fā)布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推動(dòng) AI 高效部署
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com