當(dāng)前位置：首頁 > 科技 > 軟件

大模型首選AI框架——昇思MindSpore2.3.RC1版本上線開源社區(qū)

來源：責(zé)編：時(shí)間：2024-04-25 17:40:55 170觀看

導(dǎo)讀經(jīng)過社區(qū)開發(fā)者們幾個(gè)月的開發(fā)與貢獻(xiàn)，現(xiàn)正式發(fā)布昇思MindSpore2.3.RC1版本，通過多維混合并行以及確定性CKPT來實(shí)現(xiàn)超大集群的高性能訓(xùn)練，支持大模型訓(xùn)推一體架構(gòu)，大模型開發(fā)訓(xùn)練推理更簡、更穩(wěn)、更高效，并在訓(xùn)推一體框架的

經(jīng)過社區(qū)開發(fā)者們幾個(gè)月的開發(fā)與貢獻(xiàn)，現(xiàn)正式發(fā)布昇思MindSpore2.3.RC1版本，通過多維混合并行以及確定性CKPT來實(shí)現(xiàn)超大集群的高性能訓(xùn)練，支持大模型訓(xùn)推一體架構(gòu)，大模型開發(fā)訓(xùn)練推理更簡、更穩(wěn)、更高效，并在訓(xùn)推一體框架的基礎(chǔ)上通過多樣的大模型推理優(yōu)化技術(shù)，進(jìn)一步降低大模型推理成本；通過使能kernel by kernel調(diào)度執(zhí)行，進(jìn)一步提升靜態(tài)圖調(diào)試調(diào)優(yōu)能力；持續(xù)升級(jí)MindSpore TransFormers大模型套件和MindSpore One生成式套件，全流程開箱即用，一周即可完成大模型全流程的開發(fā)、驗(yàn)證；創(chuàng)新AI+科學(xué)計(jì)算（科學(xué)智能）范式，孵化科學(xué)領(lǐng)域基礎(chǔ)大模型；下面就帶大家詳細(xì)了解下2.3.RC1版本的關(guān)鍵特性。

大模型訓(xùn)練：細(xì)粒度多副本并行，有效提升計(jì)算通信并發(fā)度，顯著提升大模型訓(xùn)練性能

大模型訓(xùn)練下，為了降低顯存開銷，廣泛的使用算子級(jí)并行技術(shù)，其中引入了大量的模型并行的通信，極大地影響了大模型的訓(xùn)練效率。模型并行的通信，從網(wǎng)絡(luò)的結(jié)構(gòu)上來看，其處于正反向計(jì)算過程中，阻塞正反向計(jì)算，無法與正反向的計(jì)算進(jìn)行互相掩蓋。為了解決模型并行通信的掩蓋問題，MindSpore提出了多副本并行技術(shù)。

在舊版本的MindSpore上，通過將網(wǎng)絡(luò)從數(shù)據(jù)開始進(jìn)行拆分，如下圖所示，在單張卡內(nèi)，通過slice算子將Batch維度進(jìn)行拆分，進(jìn)而產(chǎn)生多個(gè)分支，這多個(gè)分支的計(jì)算與通信互相之間沒有依賴，存在并發(fā)的空間，通過執(zhí)行序調(diào)度算法，控制多個(gè)分支的計(jì)算與通信進(jìn)行并發(fā)。

隨著網(wǎng)絡(luò)規(guī)模的增大，受限于顯存限制，當(dāng)一張卡內(nèi)的BatchSize僅支持為1時(shí)，上述對(duì)整網(wǎng)進(jìn)行Batch拆分的方案不再可行。因此，考慮到模型并行通信的位置，昇思MindSpore2.3.RC1版本將Transformer模型中的AttentionProjection層以及FFN層進(jìn)行拆分，產(chǎn)生多個(gè)分支，通過執(zhí)行序調(diào)度算法控制細(xì)粒度的多分支的并行，其中拆分從AttentionProjection開始，到下一個(gè)Layer的QKV計(jì)算前結(jié)束。

上圖描述了序列并行場(chǎng)景下的細(xì)粒度多副本拆分與掩蓋基本思路，拆分為兩個(gè)副本，在正向可以達(dá)成50%+的通信掩蓋；而在反向，結(jié)合計(jì)算梯度的分支的計(jì)算與TP通信的掩蓋，可達(dá)成90%的通信的掩蓋。當(dāng)前細(xì)粒度多副本并行僅在MindSpore Transformers的LLAMA網(wǎng)絡(luò)進(jìn)行了實(shí)現(xiàn)，需要對(duì)模型結(jié)構(gòu)進(jìn)行手動(dòng)改造為多個(gè)副本。后續(xù)版本昇思MindSpore將集成自動(dòng)拆分副本的邏輯，達(dá)成更易用的細(xì)粒度多副本并行。

參考鏈接：https://www.mindspore.cn/tutorials/experts/zh-CN/master/parallel/multiple_copy.html

大模型推理全棧升級(jí)

大模型大規(guī)模商用之后，推理消耗的算力規(guī)模將十分龐大，相應(yīng)地帶來高昂的成本，商業(yè)閉環(huán)依賴推理規(guī)模突破。在降低大模型推理的成本的同時(shí)，要兼顧模型精度和計(jì)算時(shí)延，不能影響用戶的體驗(yàn)。昇思MindSpore 2.3.RC1版本，從最上層推理服務(wù)到模型腳本優(yōu)化到推理引擎LLM Serving，為用戶提供端到端的高效推理解決方案。

訓(xùn)推一體：大模型訓(xùn)/推統(tǒng)一腳本，大幅簡化部署流程，提高效率

模型腳本默認(rèn)使能了增量推理、FlashAttention/PagedAttention等推理加速技術(shù)，避免了模型導(dǎo)出、切分、推理腳本開發(fā)等一系列工作，訓(xùn)練到推理加速平滑遷移，部署周期下降到天級(jí)。

極致性能：持續(xù)提升融合大算子、并行推理、模型小型化的關(guān)鍵能力

融合大算子：新增10+業(yè)界最新的推理融合大算子接口，模型開發(fā)人員可以快速使能推理融合算子實(shí)現(xiàn)加速。

并行推理：訓(xùn)練推理并行策略接口一致，提供訓(xùn)練并行到推理并行ckpt重切分接口，支持動(dòng)態(tài)shape模型切分。

模型壓縮：昇思MindSpore金箍棒升級(jí)到2.0版本，提供了針對(duì)大模型的業(yè)界SOTA以及華為諾亞自研的量化、減枝等算法，實(shí)現(xiàn)千億大模型10倍+壓縮。

以上技術(shù)均可泛化的應(yīng)用于Transformer結(jié)構(gòu)的大模型中，經(jīng)過驗(yàn)證，在盤古、Llama 2的8卡模型推理中，首token時(shí)延做到百ms級(jí)，平均token時(shí)延小于50ms，保持業(yè)界領(lǐng)先水平。

服務(wù)化高吞吐

通過連續(xù)批調(diào)度、Prefill/Decoding混合部署等手段，盡可能的消除掉冗余計(jì)算，確保算力不閑置，實(shí)現(xiàn)大模型推理吞吐提升2倍+。

參考鏈接：https://www.mindspore.cn/lite/docs/zh-CN/r2.3.0rc1/use/cloud_infer/runtime_distributed_python.html

靜態(tài)圖優(yōu)化：支持O(n)多級(jí)編譯，使能kernel by kernel調(diào)度執(zhí)行，提升靜態(tài)圖調(diào)試調(diào)優(yōu)能力

整圖下沉執(zhí)行性能最優(yōu)，但大模型的規(guī)模和參數(shù)量發(fā)展得更為龐大，整圖下沉執(zhí)行方式在整圖編譯過程中耗時(shí)較長，一個(gè)千億級(jí)別的大模型的編譯時(shí)間為30分鐘-60分鐘，調(diào)試調(diào)優(yōu)效率低下。為解決上述問題，昇思MindSpore2.3.RC1版本中，提供了多級(jí)編譯技術(shù)，O0原生構(gòu)圖不優(yōu)化、O1增加自動(dòng)算子融合優(yōu)化、O2整圖下沉執(zhí)行優(yōu)化。在O0的編譯選項(xiàng)下，通過原生圖編譯和kernel by kernel（KBK）的執(zhí)行技術(shù)，可以將編譯時(shí)間提升到15分鐘以內(nèi)，同時(shí)我們?cè)谛掳姹局羞€開發(fā)了DryRun技術(shù)，用戶可以直接在離線的情況進(jìn)行內(nèi)存瓶頸分析和并行策略調(diào)優(yōu)，結(jié)合這兩大技術(shù)可以使得大模型調(diào)試效率倍增。在O0這種編譯條件下，我們使能了SOMAS/LazyInline/控制流Inline來提升內(nèi)存復(fù)用率，使能了多流并行/流水異步調(diào)度，可以提升執(zhí)行性能；在O1這種編譯條件下，通過使能算子融合技術(shù)，KBK執(zhí)行模式下可以有更好的執(zhí)行性能。

參考鏈接：https://www.mindspore.cn/docs/zh-CN/r2.3.0rc1/api_python/mindspore/mindspore.JitConfig.html?highlight=jitconfig

JIT兼具易用性和性能，動(dòng)靜統(tǒng)一，提供靈活高效開發(fā)

昇思MindSpore支持圖模式（靜態(tài)圖）和PyNative模式（動(dòng)態(tài)圖）兩種運(yùn)行方法。動(dòng)態(tài)圖易于調(diào)試，開發(fā)靈活，易用性好；靜態(tài)圖語法支持有限，但執(zhí)行性能好。JIT兼顧性能和易用性，通過對(duì)Python字節(jié)碼進(jìn)行分析&調(diào)整、執(zhí)行流進(jìn)行圖捕獲&圖優(yōu)化，支持入圖的Python代碼做靜態(tài)圖方式執(zhí)行，不支持的進(jìn)行子圖切分以動(dòng)態(tài)圖方式執(zhí)行，自動(dòng)地做到動(dòng)靜統(tǒng)一，實(shí)現(xiàn)方法如下圖所示。

參考鏈接：https://www.mindspore.cn/docs/zh-CN/r2.3/design/dynamic_graph_and_static_graph.html#%E5%8A%A8%E6%80%81%E5%9B%BE%E8%BD%AC%E9%9D%99%E6%80%81%E5%9B%BE%E6%8A%80%E6%9C%AF

MindSpore Elec：新增大地電磁智能反演模型

MindSpore Elec電磁仿真套件升級(jí)至0.3版本，聯(lián)合清華大學(xué)李懋坤教授團(tuán)隊(duì)、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室共同打造了基于昇思MindSpore的大地電磁（Magnetotelluric，MT）智能反演模型。該模型通過變分自編碼器（VAE）靈活嵌入了多物理先驗(yàn)知識(shí)，達(dá)到了業(yè)界SOTA。該成果已被國際頂級(jí)勘探地球物理期刊《Geophysics》收錄，同時(shí)也在昇思人工智能框架峰會(huì)2024上發(fā)布亮相。

（1）基礎(chǔ)MT反演：反演區(qū)域水平長度為10km，深度為1km。下圖1中目標(biāo)電阻率分布（第一列）與傳統(tǒng)大地電磁反演（第二列）、大地電磁智能反演（第三列），可以看出大地電磁智能反演相比傳統(tǒng)反演精度顯著提升（前者殘差為0.0056和0.0054；后者為0.023和0.024 ）；下圖2中，大地電磁智能反演性能也優(yōu)于傳統(tǒng)反演方法（前者收斂步數(shù)為4和4；后者為6和4）。

目標(biāo)電阻率	傳統(tǒng)方法	我們的工作

圖1 大地電磁反演精度對(duì)比

圖2 大地電磁反演收斂速度對(duì)比（Pixel-based：傳統(tǒng)反演；Feature-based：我們的工作）

（2）南部非洲MT反演：大地電磁智能反演模型也在南部非洲開源數(shù)據(jù)集（SAMTEX）上做了驗(yàn)證。該反演區(qū)域位于南部非洲西海岸附近，長度約為750km，深度選定為80km。該測(cè)區(qū)顯著特征為在水平方向100km至400km之間，深度20km以淺的區(qū)域存在的高導(dǎo)結(jié)構(gòu)。由于低頻電磁波在導(dǎo)體結(jié)構(gòu)中的衰減，MT方法對(duì)高導(dǎo)結(jié)構(gòu)下部區(qū)域的敏感度很低, 因此無先驗(yàn)知識(shí)約束的傳統(tǒng)MT反演難以準(zhǔn)確重建高導(dǎo)地層的下邊界位置。大地電磁智能反演對(duì)高導(dǎo)地層的下邊界重建較為清晰準(zhǔn)確，較好地將地層厚度的先驗(yàn)知識(shí)融入了反演。

圖3 南部非洲MT反演示例圖（上圖：傳統(tǒng)反演；下圖：我們的工作）

參考鏈接：https://gitee.com/mindspore/mindscience/tree/master/MindElec

本文鏈接：http://www.tebozhan.com/showinfo-26-85543-0.html大模型首選AI框架——昇思MindSpore2.3.RC1版本上線開源社區(qū)

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：如何處理好微服務(wù)之間千絲萬縷的關(guān)系？到BFF大顯身手了

下一篇：揭露 FileSystem 引起的線上 JVM 內(nèi)存溢出問題

標(biāo)簽：

熱門焦點(diǎn)

5月安卓手機(jī)好評(píng)榜：魅族20 Pro奪冠

性能榜和性價(jià)比榜之后，我們來看最后的安卓手機(jī)好評(píng)榜，數(shù)據(jù)來源安兔兔評(píng)測(cè)，收集時(shí)間2023年5月1日至5月31日，僅限國內(nèi)市場(chǎng)。第一名：魅族20 Pro好評(píng)率：97.50%不得不感慨魅族老品牌還
一年經(jīng)驗(yàn)在二線城市面試后端的經(jīng)驗(yàn)分享

忠告這篇文章只適合2年內(nèi)工作經(jīng)驗(yàn)、甚至沒有工作經(jīng)驗(yàn)的朋友閱讀。如果你是2年以上工作經(jīng)驗(yàn)，請(qǐng)果斷劃走，對(duì)你沒啥幫助~主人公這篇文章內(nèi)容來自「升職加薪」星球星友的投稿，坐
在線圖片編輯器，支持PSD解析、AI摳圖等

自從我上次分享一個(gè)人開發(fā)仿造稿定設(shè)計(jì)的圖片編輯器到現(xiàn)在，不知不覺已過去一年時(shí)間了，期間我經(jīng)歷了裁員失業(yè)、面試找工作碰壁，寒冬下一直沒有很好地履行計(jì)劃.....這些就放在日
中國家電海外掘金正當(dāng)時(shí)｜出海專題

作者｜吳南南編輯｜胡展嘉運(yùn)營｜陳佳慧出品｜零態(tài)LT（ID：LingTai_LT）2023年，出海市場(chǎng)戰(zhàn)況空前，中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌，以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外，他們依
花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

來源：極點(diǎn)商業(yè)作者：楊銘在淘寶購買珠寶玉石后，因?yàn)楸ＷC金不夠賠付，店鋪關(guān)閉，退貨退款難、維權(quán)無門的比比皆是。“提供相關(guān)產(chǎn)品鑒定證書，支持全國復(fù)檢，可以30天無理由退換貨。&
Android 14發(fā)布：首批適配機(jī)型公布

5月11日消息，谷歌在今天凌晨舉行了I/O大會(huì)，本次發(fā)布會(huì)谷歌帶來了自家的AI語言模型PaLM 2、谷歌Pixel Fold折疊屏、谷歌Pixel 7a手機(jī)，同時(shí)發(fā)布了Androi
英特爾Xe HPG游戲顯卡：擁有512EU，單風(fēng)扇版本

據(jù)10 月 30 日外媒 TheVerge 消息報(bào)道，英特爾 Xe HPG Arc Alchemist 的正面實(shí)被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風(fēng)扇版本。另外，這款顯卡 PCB
蘋果MacBook Pro 2021測(cè)試：仍不支持平滑滾動(dòng)

據(jù)10月30日9to5 Mac 消息報(bào)道，蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯(cuò)的評(píng)價(jià)，亮點(diǎn)包括行業(yè)領(lǐng)先的性能，令人印象深刻的電池續(xù)航，精美豐
電博會(huì)上海爾智家模擬500平大平層，還原生活空間沉浸式體驗(yàn)

電博會(huì)為了更好地讓參展觀眾真正感受到智能家居的絕妙之處，海爾智家的程傳嶺先生同樣介紹了展會(huì)上海爾智家的模擬500平大平層，還原生活空間沉浸式體驗(yàn)。程傳

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品