當前位置：首頁 > 元宇宙 > AI

能思考會搜索的國產(chǎn)大模型，全網(wǎng)瘋測的 DeepSeek 牛在哪？

來源：責編：時間：2025-02-01 10:04:41 71觀看

導(dǎo)讀的家友們，蛇年吉祥！在這個農(nóng)歷新年期間，科技界卻并不平靜...距離 OpenAI 發(fā)布由 GPT-3.5 模型驅(qū)動的 ChatGPT 聊天機器人，已經(jīng)過去了兩年多的時間。在這兩年間，不管是微軟、谷歌這樣的科技巨頭，還是如雨后春筍般出

的家友們，蛇年吉祥！

在這個農(nóng)歷新年期間，科技界卻并不平靜...

距離 OpenAI 發(fā)布由 GPT-3.5 模型驅(qū)動的 ChatGPT 聊天機器人，已經(jīng)過去了兩年多的時間。

在這兩年間，不管是微軟、谷歌這樣的科技巨頭，還是如雨后春筍般出現(xiàn)的初創(chuàng)企業(yè)，都在 AI 大模型領(lǐng)域，投入了巨額的資源。

算力逐漸膨脹，大模型的訓(xùn)練及推理成本也同樣水漲船高。

OpenAI 去年推出的 ChatGPT Pro 會員，價格已經(jīng)來到了每月 200 美元。

“屠龍者終成惡龍”，每月 20 美元的 ChatGPT Plus 會員，包含的 o1 模型使用次數(shù)，可以說僅僅只夠“玩一玩”，很難真的應(yīng)用于自己的工作之中。

如果未來成本進一步上漲，難道 AI 的未來，是每月 2000 美元的“ChatGPT Pro Max 會員”嗎？

然而，一家來自杭州的“小公司” DeepSeek，卻給整個 AI 行業(yè)帶來了新思路，這兩天可以說是火遍了全網(wǎng)。這就來跟大家一起看看是怎么回事。

01.用起來怎么樣？

去年年底，DeepSeek-V3 模型發(fā)布，其多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型，并在性能上和閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

作為一款開源的 MoE 混合專家模型，DeepSeek-V3 當時獲得了業(yè)內(nèi)人士不少的關(guān)注，但是還并沒有“出圈”。

不過，在 DeepSeek 官方的手機應(yīng)用 1 月上旬上線之前，已經(jīng)有一些山寨 App 準備湊熱度了。

▲極速推出的的山寨應(yīng)用

而 1 月 20 日發(fā)布的推理模型 DeepSeek-R1，則在性能上實現(xiàn)了對 OpenAI-o1 正式版的對標。

此外，DeepSeek 也并沒有藏著掖著，同期公開了 DeepSeek-R1 的訓(xùn)練技術(shù)，并且開源了模型權(quán)重。

而且對我們普通用戶來說，DeepSeek-R1 直接在其官網(wǎng)免費開放使用。

而且，DeepSeek-R1 還可以聯(lián)網(wǎng)搜索信息，增加了不少使用上的靈活性。

要知道，去年 10 月 31 號上線的 ChatGPT Search 搜索功能目前還不支持與 ChatGPT o1 模型協(xié)同使用，我們只能退而求其次選擇 4o 模型。

此外，作為一款采用 CoT 思維鏈技術(shù)的推理模型，DeepSeek-R1 直接把其思考過程顯示給用戶，這一點令我們可以直觀感受到目前大模型技術(shù)的實力。

在海內(nèi)外全網(wǎng)爆火的同時，DeepSeek 也承受了非常大的壓力，相信我們不少家友都對下面這句話非常熟悉。

除了大量用戶的涌入，DeepSeek 甚至還承受了大規(guī)模的惡意攻擊。

要知道，即便是 ChatGPT，也經(jīng)常出現(xiàn)宿機事件，這方面也希望大家可以“理解萬歲”。

除了 671B 參數(shù)的完整模型，DeepSeek 還蒸餾了好幾款小模型，32B 和 70B 模型也在多項能力上實現(xiàn)了對標 OpenAI o1-mini 的效果。

而這些蒸餾后的模型，我們已經(jīng)可以嘗試在自己的設(shè)備上，本地進行運行。

02.兩把殺手锏- MoE混合專家模型

DeepSeek-R1 的成本優(yōu)勢，便在其官方 API 服務(wù)定價中體現(xiàn)了出來：

每百萬輸入 tokens：1 元（緩存命中）/ 4 元（緩存未命中）

每百萬輸出 tokens：16 元

其輸出 API 價格，甚至只是 ChatGPT o1 的約 3%，這就要聊到 MoE 混合專家模型了。

前面提到，DeepSeek-R1 是一款 671B 參數(shù)的模型，從傳統(tǒng)的角度來看，運行起來絕不會輕松。

而 MoE 架構(gòu)的核心思想，其實就是將一個復(fù)雜的問題分解成多個更小、更易于管理的子問題，并由不同的專家網(wǎng)絡(luò)分別處理。

這樣，當我們向 MoE 模型輸入提示時，查詢不會激活整個 AI，而只會激活生成響應(yīng)所需的特定神經(jīng)網(wǎng)絡(luò)。

因此，R1 和 R1-Zero 在回答提示時激活的參數(shù)僅為 37B，不到其總參數(shù)量的十分之一，“讓專業(yè)的人干專業(yè)的事”，推理成本大大降低。

其實，MoE 并不是一個新概念，最早起源于 1991 年的論文《Adaptive Mixture of Local Experts》。

不過這一思路的“起飛”，還要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。

外界普遍認為GPT-4 就使用了 MoE 模型，但對于已經(jīng)變成“CloseAI”的 OpenAI 來說，其旗艦?zāi)Ｐ偷脑S多技術(shù)細節(jié)，我們無從得知......

- RL 強化學(xué)習

傳統(tǒng)的 AI 大模型訓(xùn)練，使用的是 SFT 監(jiān)督微調(diào)過程，在精心策劃的數(shù)據(jù)集上訓(xùn)練模型，教會它們逐步推理。

而 DeepSeek-R1 則使用 RL 強化學(xué)習的方法，完全依賴環(huán)境反饋（如如問題的正確性）來優(yōu)化模型行為。

它也第一次證明了通過純 RL 訓(xùn)練，即可提升模型的推理能力。模型在 RL 訓(xùn)練中自主發(fā)展出自我驗證、反思推理等復(fù)雜行為，達到 ChatGPT o1 級別的能力。

這項技術(shù)，說明我們未來在訓(xùn)練的過程中，可能不再需要付出極為高昂的成本，獲取大量經(jīng)過詳細標注的高質(zhì)量數(shù)據(jù)。

03.多模態(tài)，補短板

盡管 DeepSeek-V3 和 DeepSeek-R1 十分強大，但他們還都是名副其實的“大語言模型”，并不具有多模態(tài)的能力。

也就是說，我們目前還沒發(fā)把圖片、音頻等信息丟給他們，他們也不具備生成圖片的能力，只能通過文字的方式來進行信息交流。

目前 DeepSeek 官方提供的文件上傳能力，其實只是走了一遍文字 OCR 識別。

不過，就在 1 月 28 日凌晨，DeepSeek 開源了全新的視覺多模態(tài)模型 Janus-Pro-7B。

與以往的方法不同，Janus-Pro 通過將視覺編碼過程拆分為多個獨立的路徑，解決了以往框架中的一些局限性，同時仍采用單一的統(tǒng)一變換器架構(gòu)進行處理。

這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現(xiàn)的沖突，還提升了框架的靈活性。

Janus 的表現(xiàn)超越了傳統(tǒng)的統(tǒng)一模型，并且在與任務(wù)特定模型的比較中也同樣表現(xiàn)出色。憑借其簡潔、高靈活性和高效性的特點，Janus-Pro 成為下一代統(tǒng)一多模態(tài)模型的有力競爭者。

其在 GenEval 和 DPG-Bench 基準測試中擊敗了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

不過作為一款僅有 7B 參數(shù)的“小”模型，Janus-Pro 目前只能處理 384 x 384 分辨率的圖像。

但我們相信，這只是一道開胃菜，我們期待在新思路下，DeepSeek 未來多模態(tài)大模型的表現(xiàn)。

04.除夕不眠夜

DeepSeek 的爆火，讓不少 AI 大模型領(lǐng)域的“友商”，都沒法無視這樣一家“小公司”。

今天（1 月 29 日）凌晨，農(nóng)歷新年的鐘聲剛剛敲響，阿里通義團隊帶來了他們的“新年禮物”—— Qwen2.5-Max 模型。

通義千問團隊，也在 Qwen2.5-Max 模型的介紹中提到了 DeepSeek-V3。

近期，DeepSeek V3 的發(fā)布讓大家了解到超大規(guī)模 MoE 模型的效果及實現(xiàn)方法，而同期，Qwen 也在研發(fā)超大規(guī)模的 MoE 模型 Qwen2.5-Max，使用超過 20 萬億 token 的預(yù)訓(xùn)練數(shù)據(jù)及精心設(shè)計的后訓(xùn)練方案進行訓(xùn)練。

與業(yè)界領(lǐng)先的模型（包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet）相比，Qwen2.5-Max 的性能表現(xiàn)也相當有競爭能力。

在基座模型的對比中，與目前領(lǐng)先的開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B 相比，Qwen2.5-Max 在大多數(shù)基準測試中都展現(xiàn)出了優(yōu)勢。

目前 Qwen2.5-Max 已經(jīng)面向用戶開放，不過作為“Max”定位的模型，Qwen2.5-Max 暫未開源。

而與 DeepSeek-R1 的直接對決，我們可能要等到未來新版的 QwQ、QVQ 模型。

OpenAI 的 CEO 阿爾特曼也對 DeepSeek-R1 進行了評價：

▲很“官方”的標準回答

面對大家價格上的抱怨，阿爾特曼也表示未來的 ChatGPT o3-mini 模型將會開放給免費用戶使用，Plus 會員則每天有 100 條請求的額度。

此外，新的 ChatGPT Operator 功能也將盡快向 Plus 會員開放，而 OpenAI 的下一款模型也不會由每月 200 美元的 Pro 會員獨占，Plus 會員就能用

這究竟是來自于 DeepSeek 等競爭對手的壓力，還是 OpenAI 自身的成本優(yōu)化，我們不得而知。

我們期待著在 2025 年，還會有哪些關(guān)鍵領(lǐng)域的突破，AGI通用人工智能是不是也離我們越來越近了。

本文鏈接：http://www.tebozhan.com/showinfo-45-10330-0.html能思考會搜索的國產(chǎn)大模型，全網(wǎng)瘋測的 DeepSeek 牛在哪？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：阿斯麥 CEO：DeepSeek 的出現(xiàn)是好消息

下一篇：春晚小品“遠程施法”，昨晚至今喚醒全球小米小愛同學(xué)超億次

標簽：

熱門焦點

虛擬人再升級，企業(yè)可以解放雙手了？

來源：伯虎財經(jīng)今天想跟大家來嘮嘮AI，其實聊到這個話題很多人都不陌生了。在ChatGPT和AIGC大熱背后，還有一位低調(diào)的“大佬”——虛擬人。比如咱們熟知的虛
茅臺的元宇宙App火了，也被罵慘了

元宇宙從概念走向大眾生活，并不是一件簡單的事情。技術(shù)、世界觀、填充內(nèi)容、載體形式，每一個環(huán)節(jié)都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
NFT的未來：傳統(tǒng)企業(yè)與去中心化機構(gòu)之間的競賽

傳統(tǒng)企業(yè)和去中心化機構(gòu)一直存在分歧，但最近NFT的爆炸式增長讓他們產(chǎn)生了共同的興趣，雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問，NFT 市場正在增長。
“元宇宙第一股”Roblox首份年報未達預(yù)期，摩根大通成為首家進入元宇宙的銀行

今日《元宇宙新鮮事》有：“元宇宙第一股”Roblox首份年報未達預(yù)期致盤后股價暴跌15.28%；YouTube宣布進軍區(qū)塊鏈和元宇宙；摩根大通成為首家進入元宇宙的銀行。【中
從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節(jié)有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數(shù)字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數(shù)
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產(chǎn)價格主要取決于使用它的人數(shù)，以及為所有者創(chuàng)造收益的能力。專注于數(shù)字資產(chǎn)的投資公司LedgerPr
Meta 在衰落嗎？

扎克伯格已經(jīng)很久沒有出現(xiàn)在公眾視野里了，近日，他罕見的接受播客采訪，在兩個小時的時間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點：是的阿倫·達
利用元宇宙平臺10天收入160萬，風口還是虎口？

美國Meta平臺有限公司，也就是原來的臉書公司，9日宣布，公司旗下的虛擬現(xiàn)實應(yīng)用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象
76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設(shè)立的專欄，主要面向那些深挖元宇宙產(chǎn)業(yè)或者在元宇宙進行“淘金”的從業(yè)者，分享這些企業(yè)或者創(chuàng)業(yè)者們的故事，以獨特

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

能思考會搜索的國產(chǎn)大模型，全網(wǎng)瘋測的 DeepSeek 牛在哪？

虛擬人再升級，企業(yè)可以解放雙手了？

茅臺的元宇宙App火了，也被罵慘了

NFT的未來：傳統(tǒng)企業(yè)與去中心化機構(gòu)之間的競賽

“元宇宙第一股”Roblox首份年報未達預(yù)期，摩根大通成為首家進入元宇宙的銀行

從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

影響元宇宙土地價格的五個因素

Meta 在衰落嗎？

利用元宇宙平臺10天收入160萬，風口還是虎口？

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

最新推薦

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

搶先推出“元宇宙”飲料，可口可樂贏麻了

吸金31億美元，誰在催火2021年的鏈游？

2022年去中心化交易所會崛起嗎？

就業(yè)年齡歧視如何解決？來Web3看看

NFT領(lǐng)域，我們是否應(yīng)該遵守版權(quán)法

猜你喜歡

熱門推薦

相關(guān)資訊