當前位置：首頁 > 科技 > 資訊

DeepSeek顛覆了什么？——大模型“國產(chǎn)之光”破局的啟示

來源：責編：時間：2025-02-08 08:27:23 96觀看

導讀潘悅制圖一家人工智能初創(chuàng)企業(yè)淺淺扇動兩下翅膀，即掀起全球科技界的一陣“海嘯”。短短30天，中國初創(chuàng)企業(yè)深度求索（DeepSeek）先后發(fā)布兩款性能比肩GPT-4o的大模型，“1/18的訓練成本、1/10的團隊規(guī)模、不分伯仲的模型

潘悅制圖

一家人工智能初創(chuàng)企業(yè)淺淺扇動兩下翅膀，即掀起全球科技界的一陣“海嘯”。

短短30天，中國初創(chuàng)企業(yè)深度求索（DeepSeek）先后發(fā)布兩款性能比肩GPT-4o的大模型，“1/18的訓練成本、1/10的團隊規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《經(jīng)濟學人》封面文章第一時間讓位給這一土生土長的國產(chǎn)大模型：《低成本中國模型的成功動搖美國科技優(yōu)勢》。很快，華爾街也同樣感受到了這種被動搖的震感。

事實上，這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產(chǎn)函數(shù)，還將重新定義計算。

不論開源與閉源未來的優(yōu)勢如何，這股沖擊波都將迫使全球科技界重新思考：當“規(guī)模定律”與“生態(tài)壁壘”不再絕對，什么才是下一賽季AI競爭的核心？或許我們能從中獲得新的啟示。

擊穿三大定式

1月下旬，DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂，超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品。具體而言，它顛覆了什么？

——打破“越強越貴”的成本詛咒

價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元，而o1模型上述三項服務的定價分別是55元、110元、438元。

凡是使用過幾款大模型的用戶很快就能形成這樣一個共識：就推理能力而言，DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型，甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型，令硅谷的“燒錢模式”一時間遭到猛烈質(zhì)疑。

然而在過去，大模型服務是標準的“一分錢一分貨”，想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費用，以覆蓋整個模型訓練過程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

當硅谷仍在為GPU萬卡集群豪擲千億資金時，一群土生土長的中國年輕人用557.6萬美元證明：AI大模型的比拼或許并不只靠規(guī)模，更重要的是看實際效果。有句話形象地概括出DeepSeek的優(yōu)勢：“不是GPT用不起，而是DeepSeek更具性價比。”

傳統(tǒng)模型訓練，需要在性能、成本、速度之間權衡，其高性能的獲得，需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線，同時壓縮了計算周期。

根據(jù)DeepSeek技術報告，DeepSeek-V3模型的訓練成本為557.6萬美元，訓練使用的是算力受限的英偉達H800 GPU集群。相比之下，同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元，而OpenAI的GPT-4o模型的訓練成本為1億美元，且使用的是性能更加優(yōu)異的英偉達H100 GPU集群。而使用過程中，DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間，通過算法輕量化、計算效率最大化、資源利用率優(yōu)化，成功壓縮了計算時間，降低了延遲。

——走出“參數(shù)膨脹”陷阱

ChatGPT橫空出世后700多天里，全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線，參數(shù)越“煉”越大，給算力、數(shù)據(jù)、能耗帶來了極大壓力。很長一段時間，參數(shù)幾乎成為大模型廠商比拼的最大焦點。

而另辟蹊徑的DeepSeek恰巧處于對角線的另一端：并不盲目追求參數(shù)之大，而是選擇了一條通過探索更高效訓練方法以實現(xiàn)性能提升的“小而精”路線，打破了“參數(shù)膨脹”的慣性。

例如DeepSeek-R1（4B參數(shù)）在數(shù)學推理、代碼生成等任務上具有比肩70B參數(shù)模型（如Llama-2）的能力，通過算法優(yōu)化、數(shù)據(jù)質(zhì)量提升，小參數(shù)模型一樣能實現(xiàn)高性能，甚至能夠“四兩撥千斤”。

實現(xiàn)三大躍升

“DeepSeek出圈，很好地證明了我們的競爭優(yōu)勢：通過有限資源的極致高效利用，實現(xiàn)以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。

算力封鎖下的有力破局，得益于DeepSeek技術架構、數(shù)據(jù)策略、工程實踐三方面的關鍵突破。

——技術架構：重新定義參數(shù)效率

大模型的千億參數(shù)不應是冰冷的數(shù)字堆砌，而應是巧奪天工般地重組整合。

傳統(tǒng)大模型Transformer架構好比一條承載車輛的高速公路，當車輛（數(shù)據(jù)）數(shù)量足夠多的時候，每輛車必須和前后所有車溝通完成才能繼續(xù)行駛（計算），導致堵車（計算慢、能耗高）。而DeepSeek創(chuàng)新的架構則把一條串行的高速路，變成了一個輻射狀的快遞分揀中心，先把貨物（數(shù)據(jù)）按類型分類打包，再分不同路線同時出發(fā)開往不同目的地，每輛貨車（計算）只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

——數(shù)據(jù)策略：質(zhì)量驅(qū)動的成本控制

DeepSeek研發(fā)團隊相信，用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”，能使訓練更具效率。

傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場隨便采撿，常有價值不高的爛菜葉（低質(zhì)量數(shù)據(jù)）。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術，有針對性地篩選掉質(zhì)量不高的爛菜葉：一方面自動識別高價值數(shù)據(jù)片段（如代碼邏輯推理鏈），相比隨機采樣訓練效率提升3.2倍，另一方面通過對抗訓練生成合成數(shù)據(jù)，將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個tokens的0.8元降低至0.12元。

——工程實踐：架起“超級工廠”流水線

大模型傳統(tǒng)的訓練方式好比手工造車，一次只能裝配一臺，效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟，同時組裝10輛車（數(shù)據(jù)分塊處理），另一方面通過張量并行，把發(fā)動機拆成零件，分給10個工廠同時生產(chǎn)（模型分片計算）。

至于推理過程，傳統(tǒng)模型好比現(xiàn)點現(xiàn)做的餐廳，客戶等菜時間長，推理過程慢。而DeepSeek采用的INT4量化，能把復雜菜品提前做成預制菜，加熱（計算）時間減半，口味損失不到5%，實現(xiàn)了大模型的低成本工業(yè)化。

超越技術的啟示

拆解DeepSeek的成功公式不難發(fā)現(xiàn)，通過底層架構創(chuàng)新降低AGI成本，同時以開源策略構建生態(tài)護城河，提供了中小型機構突破算力限制的可行路徑。此外，我們還能從中得到一些超越技術的啟示。

一直以來，驅(qū)動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。

一名人工智能科學家表示，在人工智能大模型領域，大廠、高校、傳統(tǒng)科研機構、初創(chuàng)公司在資源稟賦上其實各有優(yōu)勢，但結構性的局限很難扭轉。DeepSeek這種類型的初創(chuàng)公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團隊扁平化組織機制帶來的絲滑流暢的協(xié)作度。

據(jù)不具名人士透露，其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣，經(jīng)過研判后DeepSeek組建了專項團隊開展大規(guī)模驗證與攻關。而R1模型果斷調(diào)整強化學習路線，領先于其他機構實現(xiàn)了近似o1的推理能力，核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。

“我們創(chuàng)新缺少的不是資本，而是信心，以及組織高密度人才的能力，調(diào)動他們高效地進行創(chuàng)造力與好奇心驅(qū)動的創(chuàng)新。”DeepSeek創(chuàng)始人梁文鋒說。

在DeepSeek身上，我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創(chuàng)企業(yè)與那個創(chuàng)作27部長片有19部獲得奧斯卡最佳動畫、同樣以創(chuàng)新為鮮明標簽的組織，有著不謀而合的組織機制與范式選擇，以及由此帶來的高企的創(chuàng)新成功率與人才留存率。

不同于先發(fā)者略顯封鎖的護城堡壘，DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開，不僅需要格局，更需要勇氣與實力。

“在顛覆性技術面前，閉源形成的護城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因，“開源、發(fā)論文，其實并不會失去什么。對于技術人員來說，被follow（追隨模仿）是很有成就感的事。”

從技術到愿景，DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么，即便別國在人工智能領域已坐享先發(fā)優(yōu)勢，后發(fā)者依然有機會憑借技術創(chuàng)新、成本革命打破大模型競爭的傳統(tǒng)邏輯，打破人工智能行業(yè)競爭格局，打破“他國更擅長從0到1的原始創(chuàng)新，而中國更擅長從1到10的應用創(chuàng)新”的成見，重塑競爭優(yōu)勢的奧秘。

北京時間2月1日凌晨，在OpenAI發(fā)布其推理系列最新模型o3-mini時，我們從中看到了一個熟悉的字眼：“Deep research”。這是否是國產(chǎn)之光“被follow”的開端盡管不好斷言，但我們至少身體力行走出了一條“大力出奇跡”之外，另一條具有自主創(chuàng)新基因的制勝之道。

正如梁文鋒此前接受采訪時所說，“中國要逐步成為貢獻者，而不是一直‘搭便車’。”（記者張漫子）

本文鏈接：http://www.tebozhan.com/showinfo-16-129144-0.htmlDeepSeek顛覆了什么？——大模型“國產(chǎn)之光”破局的啟示

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英媒： DeepSeek打破美對AI話語權壟斷

下一篇：智啟荊楚春！湖北人形機器人展現(xiàn)人工智能新成果

標簽：

熱門焦點

6月安卓手機性能榜：vivo/iQOO霸占旗艦排行榜前三

2023年上半年已經(jīng)正式過去了，我們也迎來了安兔兔V10版本，在新的驍龍8Gen3和天璣9300發(fā)布之前，性能榜的榜單大體會以驍龍8Gen2和天璣9200+為主，至于那顆3.36GHz的驍龍8Gen2領先
印度登月最關鍵一步！月船三號今晚進入環(huán)月軌道

8月5日消息，據(jù)印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進入環(huán)月軌道。這是該探測器能夠成功的最關鍵步驟之一，如果成功將開始圍
一年經(jīng)驗在二線城市面試后端的經(jīng)驗分享

忠告這篇文章只適合2年內(nèi)工作經(jīng)驗、甚至沒有工作經(jīng)驗的朋友閱讀。如果你是2年以上工作經(jīng)驗，請果斷劃走，對你沒啥幫助~主人公這篇文章內(nèi)容來自「升職加薪」星球星友的投稿，坐
如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
虛擬鍵盤 API 的妙用

你是否在遇到過這樣的問題：移動設備上有一個固定元素，當激活虛擬鍵盤時，該元素被隱藏在了鍵盤下方？多年來，這一直是 Web 上的默認行為，在本文中，我們將探討這個問題、為什么會發(fā)生
Temu起訴SHEIN，跨境電商戰(zhàn)事升級

來源 | 伯虎財經(jīng)（bohuFN）作者 | 陳平安日前據(jù)外媒報道，拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟，訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
年輕人的“職場羞恥感”，無處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來源：燃次元“人在職場，應該選擇什么樣的著裝？”近日，在網(wǎng)絡上，一個與著裝相關的帖子引發(fā)關注，在該帖子里，一位在高級寫字樓亞洲金
三星電子Q2營收60萬億韓元存儲業(yè)務營收同比仍下滑超過50%

7月27日消息，據(jù)外媒報道，從三星電子所發(fā)布的財報來看，他們主要利潤來源的存儲芯片業(yè)務在今年二季度仍不樂觀，營收同比仍在大幅下滑，所在的設備解決方案
半導體需求下滑三星電子DS業(yè)務部門今年營業(yè)虧損預計超10萬億韓元

7月17日消息，據(jù)外媒報道，去年下半年開始的半導體需求下滑，影響到了三星電子、SK海力士、英特爾等諸多廠商，營收明顯下滑，部分廠商甚至出現(xiàn)了虧損。作為

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

DeepSeek顛覆了什么？——大模型“國產(chǎn)之光”破局的啟示

6月安卓手機性能榜：vivo/iQOO霸占旗艦排行榜前三

印度登月最關鍵一步！月船三號今晚進入環(huán)月軌道

一年經(jīng)驗在二線城市面試后端的經(jīng)驗分享

如何正確使用:Has和:Nth-Last-Child

虛擬鍵盤 API 的妙用

Temu起訴SHEIN，跨境電商戰(zhàn)事升級

年輕人的“職場羞恥感”，無處不在

三星電子Q2營收60萬億韓元存儲業(yè)務營收同比仍下滑超過50%

半導體需求下滑三星電子DS業(yè)務部門今年營業(yè)虧損預計超10萬億韓元

最新推薦

猜你喜歡

熱門推薦

相關資訊