AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 資訊

DeepSeek顛覆了什么?——大模型“國產之光”破局的啟示

來源: 責編: 時間:2025-02-08 08:27:23 46觀看
導讀潘悅 制圖 一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。 短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型

naK28資訊網——每日最新資訊28at.com

潘悅 制圖naK28資訊網——每日最新資訊28at.com

  一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。naK28資訊網——每日最新資訊28at.com

  短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。naK28資訊網——每日最新資訊28at.com

  最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優勢》。很快,華爾街也同樣感受到了這種被動搖的震感。naK28資訊網——每日最新資訊28at.com

  事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。naK28資訊網——每日最新資訊28at.com

  不論開源與閉源未來的優勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。naK28資訊網——每日最新資訊28at.com

  擊穿三大定式naK28資訊網——每日最新資訊28at.com

  1月下旬,DeepSeek在中區、美區蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什么?naK28資訊網——每日最新資訊28at.com

  ——打破“越強越貴”的成本詛咒naK28資訊網——每日最新資訊28at.com

  價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。naK28資訊網——每日最新資訊28at.com

  凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。naK28資訊網——每日最新資訊28at.com

  然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。naK28資訊網——每日最新資訊28at.com

  ——超越“性能-成本-速度”的不可能三角naK28資訊網——每日最新資訊28at.com

  當硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更具性價比。”naK28資訊網——每日最新資訊28at.com

  傳統模型訓練,需要在性能、成本、速度之間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。naK28資訊網——每日最新資訊28at.com

  根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優異的英偉達H100 GPU集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,通過算法輕量化、計算效率最大化、資源利用率優化,成功壓縮了計算時間,降低了延遲。naK28資訊網——每日最新資訊28at.com

  ——走出“參數膨脹”陷阱naK28資訊網——每日最新資訊28at.com

  ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。naK28資訊網——每日最新資訊28at.com

  而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線,打破了“參數膨脹”的慣性。naK28資訊網——每日最新資訊28at.com

  例如DeepSeek-R1(4B參數)在數學推理、代碼生成等任務上具有比肩70B參數模型(如Llama-2)的能力,通過算法優化、數據質量提升,小參數模型一樣能實現高性能,甚至能夠“四兩撥千斤”。naK28資訊網——每日最新資訊28at.com

  實現三大躍升naK28資訊網——每日最新資訊28at.com

  “DeepSeek出圈,很好地證明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。naK28資訊網——每日最新資訊28at.com

  算力封鎖下的有力破局,得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。naK28資訊網——每日最新資訊28at.com

  ——技術架構:重新定義參數效率naK28資訊網——每日最新資訊28at.com

  大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。naK28資訊網——每日最新資訊28at.com

  傳統大模型Transformer架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。naK28資訊網——每日最新資訊28at.com

  ——數據策略:質量驅動的成本控制naK28資訊網——每日最新資訊28at.com

  DeepSeek研發團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。naK28資訊網——每日最新資訊28at.com

  傳統的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而DeepSeek創新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升3.2倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。naK28資訊網——每日最新資訊28at.com

  ——工程實踐:架起“超級工廠”流水線naK28資訊網——每日最新資訊28at.com

  大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數據分塊處理),另一方面通過張量并行,把發動機拆成零件,分給10個工廠同時生產(模型分片計算)。naK28資訊網——每日最新資訊28at.com

  至于推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek采用的INT4量化,能把復雜菜品提前做成預制菜,加熱(計算)時間減半,口味損失不到5%,實現了大模型的低成本工業化。naK28資訊網——每日最新資訊28at.com

  超越技術的啟示naK28資訊網——每日最新資訊28at.com

  拆解DeepSeek的成功公式不難發現,通過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。naK28資訊網——每日最新資訊28at.com

  一直以來,驅動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。naK28資訊網——每日最新資訊28at.com

  一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的局限很難扭轉。DeepSeek這種類型的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。naK28資訊網——每日最新資訊28at.com

  據不具名人士透露,其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣,經過研判后DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線,領先于其他機構實現了近似o1的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。naK28資訊網——每日最新資訊28at.com

  “我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。naK28資訊網——每日最新資訊28at.com

  在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創新成功率與人才留存率。naK28資訊網——每日最新資訊28at.com

  不同于先發者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力。naK28資訊網——每日最新資訊28at.com

  “在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實并不會失去什么。對于技術人員來說,被follow(追隨模仿)是很有成就感的事。”naK28資訊網——每日最新資訊28at.com

  從技術到愿景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本革命打破大模型競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。naK28資訊網——每日最新資訊28at.com

  北京時間2月1日凌晨,在OpenAI發布其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。naK28資訊網——每日最新資訊28at.com

  正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”(記者 張漫子)naK28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-16-129144-0.htmlDeepSeek顛覆了什么?——大模型“國產之光”破局的啟示

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英媒: DeepSeek打破美對AI話語權壟斷

下一篇: 智啟荊楚春!湖北人形機器人展現人工智能新成果

標簽:
  • 熱門焦點
  • 鴻蒙OS 4.0公測機型公布:甚至連nova6都支持

    華為全新的HarmonyOS 4.0操作系統將于今天下午正式登場,官方在發布會之前也已經正式給出了可升級的機型產品,這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
  • 得物寵物生意「狂飆」,發力“它經濟”

    作者|花花小萌主近日,得物宣布正式上線寵物鑒別,通過得物App內的“在線鑒別”,可找到鑒別寵物的選項。通過上傳自家寵物的部位細節,就能收獲擁有專業資質認證的得物鑒
  • 一條抖音4億人圍觀 ! 這家MCN比無憂傳媒還野

    作者:Hiu 來源:互聯網品牌官01 擦邊少女空降熱搜,幕后推手曝光被網友譽為“純欲天花板”的女網紅井川里予,近期因為一組哥特風照片登上熱搜,引發了一場互聯網世界關于
  • 品牌洞察丨服務本地,美團直播成效幾何?

    來源:17PR7月11日,美團App首頁推薦位出現“美團直播”的固定入口。在直播聚合頁面,外賣“神槍手”直播間、美團旅行直播間、美團買菜直播間等均已上線,同時
  • 阿里大調整

    來源:產品劉有媒體報道稱,近期淘寶天貓集團啟動了近年來最大的人力制度改革,涉及員工績效、層級體系等多個核心事項,目前已形成一個初步的“征求意見版”:1、取消P序列
  • Android 14發布:首批適配機型公布

    5月11日消息,谷歌在今天凌晨舉行了I/O大會,本次發布會谷歌帶來了自家的AI語言模型PaLM 2、谷歌Pixel Fold折疊屏、谷歌Pixel 7a手機,同時發布了Androi
  • OPPO K11評測:旗艦級IMX890加持 2000元檔最強影像手機

    【Techweb評測】中端機型用戶群體巨大,占了中國目前手機市場的大頭,一直以來都是各手機品牌的“必爭之地”,其中OPPO K系列機型一直以來都以高品質、
  • 上海舉辦人工智能大會活動,建設人工智能新高地

    人工智能大會在上海浦江兩岸隆重拉開帷幕,人工智能新技術、新產品、新應用、新理念集中亮相。8月30日晚,作為大會的特色活動之一的上海人工智能發展盛典人工
  • 榮耀Magic4 至臻版 首創智慧隱私通話 強勁影音系統

    2022年第一季度臨近尾聲,在該季度內,許多品牌陸續發布自己的最新產品,讓大家從全新的角度來了解當今的手機技術。手機是電子設備中,更新迭代十分迅速的一款產品,基
Top