大規(guī)模預(yù)訓(xùn)GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大規(guī)模預(yù)訓(xùn)練模型(大模型)漸漸成為了AI算法領(lǐng)域的熱點。
工作流程視角
? 算法設(shè)計環(huán)節(jié):機(jī)器視覺、語音識別、自然語音處理、知識圖譜
? 算法實現(xiàn)環(huán)節(jié):深度學(xué)習(xí)框架,訓(xùn)練、推理部署,對模型的調(diào)參優(yōu)化
? 算法運行環(huán)節(jié):AI芯片和AIDC超算中心,提供硬件基礎(chǔ)
AI平臺:少量企業(yè)參與的AI高地之爭
? 訓(xùn)練軟件框架:實現(xiàn)深度學(xué)習(xí)訓(xùn)練算法的模塊化封裝
? 模型生產(chǎn)平臺:實現(xiàn)模型的工業(yè)級生產(chǎn)
? 推理部署框架:實現(xiàn)模型生產(chǎn)完成后的工業(yè)級高效、自動的部署
? 數(shù)據(jù)平臺:包括數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)生產(chǎn)、數(shù)據(jù)存儲等功能
訓(xùn)練框架:調(diào)節(jié)參數(shù),生成參數(shù)
訓(xùn)練框架是AI的重要基石,也是AI發(fā)展戰(zhàn)略的制高點。當(dāng)算法變成改造甚至顛覆軟件行業(yè)的力量時,最后核心就是看這些AI的公司有沒有平臺化的能力,即“能夠批量、高效、比競爭對手更及時地供應(yīng)優(yōu)質(zhì)算法。
推理框架:與硬件和設(shè)備端緊密相關(guān)
推理框架:主要部署在設(shè)備端和云端,因此與硬件廠商緊密相關(guān)。
開源框架的選擇:規(guī)模效應(yīng)與生態(tài)
四大頂級深度學(xué)習(xí)框架陣營可以滿足絕大部分開發(fā)者要求。社區(qū)規(guī)模效應(yīng):維護(hù)力量、貢獻(xiàn)人員決定了算法庫擴(kuò)展及時性、API水平,軟件框架規(guī)模效應(yīng)較強。
行業(yè)更新熱點在“大模型”
傳統(tǒng)機(jī)器學(xué)習(xí)里,模型過小則欠擬合,模型過大則過擬合。深度學(xué)習(xí)里Double Descent現(xiàn)象在2018年揭示,隨著模型參數(shù)變多,Test Error是先下降,再上升,然后第二次下降;原則上,在成本可接受的情況下,模型越大,準(zhǔn)確率越好。
OpenAI :GPT-3
GPT-3在許多NLP數(shù)據(jù)集上均具有出色的性能,包括翻譯、問答和文本填空任務(wù),這還包括一些需要即時推理或領(lǐng)域適應(yīng)的任務(wù),例如給一句話中的單詞替換成同義詞,或執(zhí)行3位數(shù)的數(shù)學(xué)運算。
GPT-3工具DALL·E和“邏輯”優(yōu)化
基于GPT-3構(gòu)建,僅使用了120億個參數(shù)樣本,相當(dāng)于GPT-3參數(shù)量的十四分之一;有利于降低了深度學(xué)習(xí)需要的數(shù)據(jù)標(biāo)注量,文本和圖像理解結(jié)合起來
優(yōu)勢顯著
? 自監(jiān)督學(xué)習(xí)功能,大幅降低對數(shù)據(jù)量的需求:GPT舍棄Fine-tuning,先使用海量數(shù)據(jù)預(yù)訓(xùn)練大模型,得到一套模型參數(shù),然后用這套參數(shù)對模型進(jìn)行初始化,再進(jìn)行訓(xùn)練。大幅降低后續(xù)對數(shù)據(jù)量的需求。
? 預(yù)訓(xùn)練大模型+細(xì)分場景微調(diào),更適合長尾落地:大規(guī)模預(yù)訓(xùn)練可以有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識,通過將知識存儲到大量的參數(shù)中并對特定任務(wù)進(jìn)行微調(diào),極大擴(kuò)展模型的泛化能力。
? 有望進(jìn)一步突破現(xiàn)有模型結(jié)構(gòu)的精度局限:可能繼續(xù)突破精度上限。
AI落地和碎片化需求同時出現(xiàn)
業(yè)界在2015-2017年后開始發(fā)生變化,AI走出實驗室和商業(yè)模式轉(zhuǎn)變:
? 工業(yè)場景更復(fù)雜的邏輯:編程模式從靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)描述向動態(tài)計算過程轉(zhuǎn)變。
? SDK商業(yè)模式可能無法在國內(nèi)落地:早期試圖復(fù)制海外SDK銷售路線,但這一模式無法在國內(nèi)復(fù)制。
兩種路徑的總結(jié)
設(shè)計并訓(xùn)練工業(yè)級的高性能AI模型需要大量的成本投入和深厚的技術(shù)沉淀,包含多場景匯總的海量數(shù)據(jù),復(fù)雜的模型設(shè)計和訓(xùn)練算法,以及復(fù)雜的軟件框架和硬件系統(tǒng)在內(nèi)的大型計算基礎(chǔ)設(shè)施,AI公司需要突破技術(shù)發(fā)展的瓶頸。
-END-
本文鏈接:http://www.tebozhan.com/showinfo-40-64-0.html【申萬宏源】必然的碎片化AI落地,哪種路徑可能勝出? | 元宇宙Meta洞見
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 【東方證券】虛擬世界照進(jìn)現(xiàn)實,元宇宙中有什么? | 元宇宙Meta洞見
下一篇: 元宇宙將會如何塑造未來的工作方式?