當前位置：首頁 > 科技 > 網(wǎng)絡(luò)

R2來之前 DeepSeek又放了個煙霧彈

來源：責編：時間：2025-05-16 09:03:48 74觀看

導讀 5月前后，DeepSeek的動作倒是頻繁，卻都不是大家期待的R2。不過，一系列前菜已經(jīng)給R2做足了鋪墊。5月14日，一篇DeepSeek V3論文，揭示了梁文峰是如何做到“極致降本”的。這篇論文也讓業(yè)界得以一窺這家以

5月前后，DeepSeek的動作倒是頻繁，卻都不是大家期待的R2。不過，一系列前菜已經(jīng)給R2做足了鋪墊。

5月14日，一篇DeepSeek V3論文，揭示了梁文峰是如何做到“極致降本”的。這篇論文也讓業(yè)界得以一窺這家以技術(shù)立身的公司，其“內(nèi)功”究竟修煉到了何種火候。

與此前發(fā)布的V3技術(shù)報告不同，這篇論文詳細闡述了DeepSeek如何做到在硬件資源的的“緊箍咒”下，通過精妙的“軟硬一體”協(xié)同設(shè)計，將成本效益這筆賬算到極致。（虎嗅注：DeepSeek-V3僅使用了2048塊英偉達H800 GPU）

在AI大模型這條燒錢的賽道上，算力即權(quán)力，但也可能是壓垮駱駝的后一根稻草。DeepSeek V3論文的核心，恰恰點出了一個行業(yè)痛點：如何讓大模型不再是少數(shù)巨頭的專屬游戲？

論文中，DeepSeek毫不吝嗇地分享了其“降本增效”的幾大秘籍，這些技術(shù)細節(jié)，字里行間都透露出對現(xiàn)有硬件潛能的極致壓榨，也預示著未來DeepSeek系列模型在性能與效率上的野心：

其一，是給模型的“記憶系統(tǒng)”瘦身。AI處理長文本、多輪對話時，需要記住海量的上下文信息，這部分“記憶”（即KV Cache）對顯存的消耗極為驚人。DeepSeek V3祭出了“多頭隱注意力機制”（MLA），好比給模型的記憶裝上了一個高效壓縮軟件，能將冗長的信息濃縮成精華，大幅降低顯存占用。這意味著，即便是處理越來越長的上下文，模型也能更加從容不迫，這對于解鎖更多復雜應用場景至關(guān)重要。

其二，是打造“專家各司其職”的團隊。面對大模型天文數(shù)字般的參數(shù)量，傳統(tǒng)的“一人生萬物”模式難免力不從心。DeepSeek V3沿用并優(yōu)化了“混合專家模型”（MoE）架構(gòu)。想象一下，一個龐大的項目被分解給一群各有所長的專家，遇到具體問題時，系統(tǒng)會自動“搖人”，只激活相關(guān)的幾位專家協(xié)同作戰(zhàn)。這樣一來，不僅運算效率提升，模型的“有效規(guī)模”也能在控制之下，避免了不必要的資源浪費。DeepSeek的優(yōu)化，讓這些“專家”間的溝通更順暢，協(xié)作成本更低。

其三，是大膽擁抱“差不多就行”的數(shù)字精度。在AI訓練中，數(shù)字的精確度并非越高越好。FP8，一種低精度數(shù)字格式，就像我們?nèi)粘Ｉ钪兴阗~，有時精確到“角”甚至“元”就已足夠，不必非要到“分”。DeepSeek V3在訓練中引入FP8混合精度，在對精度不那么敏感的環(huán)節(jié)“粗略”計算，直接效果就是計算量和內(nèi)存占用大幅下降，訓練速度更快、更省電。關(guān)鍵在于，論文證明了這種“偷懶”并不會明顯犧牲模型的終性能。

其四，是鋪設(shè)更暢通的“信息高速公路”。大規(guī)模訓練離不開GPU集群的協(xié)同作戰(zhàn)，GPU之間的數(shù)據(jù)交換效率，直接決定了訓練的整體速度。DeepSeek V3采用了“多平面網(wǎng)絡(luò)拓撲結(jié)構(gòu)”，優(yōu)化了集群內(nèi)部的數(shù)據(jù)傳輸路徑，減少了擁堵和瓶頸，確保信息流轉(zhuǎn)如絲般順滑。

可以說，DeepSeek V3的新論文，更像是一次技術(shù)自信的展示。它傳遞出一個清晰的信號：即便沒有頂級的硬件配置，通過極致的工程優(yōu)化和算法創(chuàng)新，依然可以打造出具備行業(yè)領(lǐng)先潛力的大模型。這無疑為那些在算力焦慮中掙扎的追趕者們，提供了一條更具可行性的攀登路徑。

實際上，4月30日，DeepSeek還上了另一道“前菜”。

當時，DeepSeek Prover V2以671B的參數(shù)重磅亮相，要知道，DeepSeek上一次發(fā)布V2模型的時候僅有7B。對于DeepSeek Prover V2，行業(yè)觀察者們普遍認為，這是AI在輔助科學發(fā)現(xiàn)，特別是挑戰(zhàn)人類智力極限的數(shù)學領(lǐng)域邁出的重要一步。

而DeepSeek近期的系列動作，放置于當前AI大模型產(chǎn)業(yè)的宏觀背景下，更耐人尋味。

一方面，我們看到的是頭部廠商在模型參數(shù)、多模態(tài)能力、應用生態(tài)上的全方位“內(nèi)卷”，技術(shù)迭代的速度令人目不暇接，資本的熱情也持續(xù)高漲。但另一方面，算力成本的持續(xù)攀升、商業(yè)化路徑的尚不清晰、以及“智能涌現(xiàn)”之后如何實現(xiàn)真正的價值創(chuàng)造，這些都是懸在所有從業(yè)者頭頂?shù)倪_摩克利斯之劍。

在這樣的背景下，DeepSeek V3論文所強調(diào)的“成本效益”和“軟硬件協(xié)同”，以及Prover V2所代表的在特定高壁壘領(lǐng)域的深耕，似乎在傳遞一種不同的信號：在追求更大、更強的同時，對效率的極致追求和對特定價值場景的深度挖掘，可能成為AI下半場競爭的關(guān)鍵變量。

當“大力出奇跡”的邊際效應開始遞減，當市場開始從對技術(shù)本身的狂熱轉(zhuǎn)向?qū)嶋H應用價值的考量，那些能夠更聰明地利用現(xiàn)有資源、更精準地切入真實需求、更深入地理解并解決復雜問題的玩家，或許才能在喧囂過后，笑到后。

DeepSeek的這些“前菜”，無疑吊足了市場的胃口。人們期待的，不僅僅是一個性能更強的R2模型，更是一個能夠為行業(yè)帶來新思路、新變量的DeepSeek。在AI的牌桌上，這家以技術(shù)為底色的公司，顯然還想打出更多意想不到的牌。

R2來之前 DeepSeek又放了個煙霧彈

文章出處：虎嗅網(wǎng)

本文鏈接：http://www.tebozhan.com/showinfo-17-150075-0.htmlR2來之前 DeepSeek又放了個煙霧彈

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： “狗啃的” 樓梯網(wǎng)上酷炫的宇樹現(xiàn)實里是這個樣的

下一篇：憑啥“韓國的泡菜缸”能賣幾千萬啊

標簽：

熱門焦點

2023年Q2用戶偏好榜：12+256G版本成新主流

3月份的性能榜、性價比榜和好評榜之后，就要輪到2023年的第二季度偏好榜了，上半年的新機潮已經(jīng)過去，最明顯的肯定就是大內(nèi)存和存儲的機型了，另外部分中端機也取消了屏幕塑料支架
6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

6月份有一個618，雖然這是京東周年慶的日子，但別的電商也都不約而同的跟進了，反正促銷沒壞處，廠商和用戶都能滿意。618期間一些產(chǎn)品也出現(xiàn)了歷史低價，那么各個價位段的產(chǎn)品性價比
5月安卓手機好評榜：魅族20 Pro奪冠

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數(shù)據(jù)來源安兔兔評測，收集時間2023年5月1日至5月31日，僅限國內(nèi)市場。第一名：魅族20 Pro好評率：97.50%不得不感慨魅族老品牌還
谷歌KDD'23工作：如何提升推薦系統(tǒng)Ranking模型訓練穩(wěn)定性

谷歌在KDD 2023發(fā)表了一篇工作，探索了推薦系統(tǒng)ranking模型的訓練穩(wěn)定性問題，分析了造成訓練穩(wěn)定性存在問題的潛在原因，以及現(xiàn)有的一些提升模型穩(wěn)定性方法的不足，并提出了一種新
重估百度丨大模型，能撐起百度的“今天”嗎?

自象限原創(chuàng) 作者｜程心羅輯2023年之前，對于自己的“今天”，百度也很迷茫。“新業(yè)務到 2022 年底還是 0，希望 2023 年出來一個 1。”這是2022年底，李彥宏
三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

7月18日消息，據(jù)外媒報道，隨著蘋果首款頭顯產(chǎn)品Vision Pro在6月份正式推出，AR/VR/MR等頭顯產(chǎn)品也就將成為各大公司下一個重要的競爭領(lǐng)域，對顯示屏這一關(guān)
聯(lián)想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

聯(lián)想小新Pad Pro 12.6將于秋季新品會上推出，官方按照慣例直接在發(fā)布會前給出了機型的所有參數(shù)。聯(lián)想小新 Pad Pro 12.6 將搭載高通驍龍 870 處理器，重量為 5
上海舉辦人工智能大會活動，建設(shè)人工智能新高地

人工智能大會在上海浦江兩岸隆重拉開帷幕，人工智能新技術(shù)、新產(chǎn)品、新應用、新理念集中亮相。8月30日晚，作為大會的特色活動之一的上海人工智能發(fā)展盛典人工
“買真退假” 這種“羊毛”不能薅

□ 法治日報記者王春　　□ 本報通訊員胡佳麗　　2020年初，還在上大學的小東加入了一個大學生兼職QQ群。群主“七王”在群里介紹一些刷單賺

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

R2來之前 DeepSeek又放了個煙霧彈

2023年Q2用戶偏好榜：12+256G版本成新主流

6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

5月安卓手機好評榜：魅族20 Pro奪冠

谷歌KDD'23工作：如何提升推薦系統(tǒng)Ranking模型訓練穩(wěn)定性

重估百度丨大模型，能撐起百度的“今天”嗎?

三星顯示已開始為AR設(shè)備研發(fā)硅基LED微顯示屏

聯(lián)想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

上海舉辦人工智能大會活動，建設(shè)人工智能新高地

“買真退假” 這種“羊毛”不能薅

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊