AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

能思考會搜索的國產(chǎn)大模型,全網(wǎng)瘋測的 DeepSeek 牛在哪?

來源: 責編: 時間:2025-02-01 10:04:41 71觀看
導(dǎo)讀 的家友們,蛇年吉祥!在這個農(nóng)歷新年期間,科技界卻并不平靜...距離 OpenAI 發(fā)布由 GPT-3.5 模型驅(qū)動的 ChatGPT 聊天機器人,已經(jīng)過去了兩年多的時間。在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出

的家友們,蛇年吉祥!X8o28資訊網(wǎng)——每日最新資訊28at.com

在這個農(nóng)歷新年期間,科技界卻并不平靜...X8o28資訊網(wǎng)——每日最新資訊28at.com

距離 OpenAI 發(fā)布由 GPT-3.5 模型驅(qū)動的 ChatGPT 聊天機器人,已經(jīng)過去了兩年多的時間。X8o28資訊網(wǎng)——每日最新資訊28at.com

在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出現(xiàn)的初創(chuàng)企業(yè),都在 AI 大模型領(lǐng)域,投入了巨額的資源。X8o28資訊網(wǎng)——每日最新資訊28at.com

算力逐漸膨脹,大模型的訓(xùn)練及推理成本也同樣水漲船高。X8o28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 去年推出的 ChatGPT Pro 會員,價格已經(jīng)來到了每月 200 美元。X8o28資訊網(wǎng)——每日最新資訊28at.com

“屠龍者終成惡龍”,每月 20 美元的 ChatGPT Plus 會員,包含的 o1 模型使用次數(shù),可以說僅僅只夠“玩一玩”,很難真的應(yīng)用于自己的工作之中。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

如果未來成本進一步上漲,難道 AI 的未來,是每月 2000 美元的“ChatGPT Pro Max 會員”嗎?X8o28資訊網(wǎng)——每日最新資訊28at.com

然而,一家來自杭州的“小公司” DeepSeek,卻給整個 AI 行業(yè)帶來了新思路,這兩天可以說是火遍了全網(wǎng)。這就來跟大家一起看看是怎么回事。X8o28資訊網(wǎng)——每日最新資訊28at.com

01.用起來怎么樣?

去年年底,DeepSeek-V3 模型發(fā)布,其多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

作為一款開源的 MoE 混合專家模型,DeepSeek-V3 當時獲得了業(yè)內(nèi)人士不少的關(guān)注,但是還并沒有“出圈”。X8o28資訊網(wǎng)——每日最新資訊28at.com

不過,在 DeepSeek 官方的手機應(yīng)用 1 月上旬上線之前,已經(jīng)有一些山寨 App 準備湊熱度了。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

▲極速推出的的山寨應(yīng)用

而 1 月 20 日發(fā)布的推理模型 DeepSeek-R1,則在性能上實現(xiàn)了對 OpenAI-o1 正式版的對標。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

此外,DeepSeek 也并沒有藏著掖著,同期公開了 DeepSeek-R1 的訓(xùn)練技術(shù),并且開源了模型權(quán)重。X8o28資訊網(wǎng)——每日最新資訊28at.com

而且對我們普通用戶來說,DeepSeek-R1 直接在其官網(wǎng)免費開放使用。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

而且,DeepSeek-R1 還可以聯(lián)網(wǎng)搜索信息,增加了不少使用上的靈活性。X8o28資訊網(wǎng)——每日最新資訊28at.com

要知道,去年 10 月 31 號上線的 ChatGPT Search 搜索功能目前還不支持與 ChatGPT o1 模型協(xié)同使用,我們只能退而求其次選擇 4o 模型。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

此外,作為一款采用 CoT 思維鏈技術(shù)的推理模型,DeepSeek-R1 直接把其思考過程顯示給用戶,這一點令我們可以直觀感受到目前大模型技術(shù)的實力。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

在海內(nèi)外全網(wǎng)爆火的同時,DeepSeek 也承受了非常大的壓力,相信我們不少家友都對下面這句話非常熟悉。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

除了大量用戶的涌入,DeepSeek 甚至還承受了大規(guī)模的惡意攻擊。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

要知道,即便是 ChatGPT,也經(jīng)常出現(xiàn)宿機事件,這方面也希望大家可以“理解萬歲”。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

除了 671B 參數(shù)的完整模型,DeepSeek 還蒸餾了好幾款小模型,32B 和 70B 模型也在多項能力上實現(xiàn)了對標 OpenAI o1-mini 的效果。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

而這些蒸餾后的模型,我們已經(jīng)可以嘗試在自己的設(shè)備上,本地進行運行。X8o28資訊網(wǎng)——每日最新資訊28at.com

02.兩把殺手锏- MoE混合專家模型

DeepSeek-R1 的成本優(yōu)勢,便在其官方 API 服務(wù)定價中體現(xiàn)了出來:X8o28資訊網(wǎng)——每日最新資訊28at.com

每百萬輸入 tokens:1 元(緩存命中)/ 4 元(緩存未命中)X8o28資訊網(wǎng)——每日最新資訊28at.com

每百萬輸出 tokens:16 元X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

其輸出 API 價格,甚至只是 ChatGPT o1 的約 3%,這就要聊到 MoE 混合專家模型了。X8o28資訊網(wǎng)——每日最新資訊28at.com

前面提到,DeepSeek-R1 是一款 671B 參數(shù)的模型,從傳統(tǒng)的角度來看,運行起來絕不會輕松。X8o28資訊網(wǎng)——每日最新資訊28at.com

而 MoE 架構(gòu)的核心思想,其實就是將一個復(fù)雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網(wǎng)絡(luò)分別處理。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

這樣,當我們向 MoE 模型輸入提示時,查詢不會激活整個 AI,而只會激活生成響應(yīng)所需的特定神經(jīng)網(wǎng)絡(luò)。X8o28資訊網(wǎng)——每日最新資訊28at.com

因此,R1 和 R1-Zero 在回答提示時激活的參數(shù)僅為 37B,不到其總參數(shù)量的十分之一,“讓專業(yè)的人干專業(yè)的事”,推理成本大大降低。X8o28資訊網(wǎng)——每日最新資訊28at.com

其實,MoE 并不是一個新概念,最早起源于 1991 年的論文《Adaptive Mixture of Local Experts》。X8o28資訊網(wǎng)——每日最新資訊28at.com

不過這一思路的“起飛”,還要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。X8o28資訊網(wǎng)——每日最新資訊28at.com

外界普遍認為GPT-4 就使用了 MoE 模型,但對于已經(jīng)變成“CloseAI”的 OpenAI 來說,其旗艦?zāi)P偷脑S多技術(shù)細節(jié),我們無從得知......X8o28資訊網(wǎng)——每日最新資訊28at.com

- RL 強化學(xué)習

傳統(tǒng)的 AI 大模型訓(xùn)練,使用的是 SFT 監(jiān)督微調(diào)過程,在精心策劃的數(shù)據(jù)集上訓(xùn)練模型,教會它們逐步推理。X8o28資訊網(wǎng)——每日最新資訊28at.com

而 DeepSeek-R1 則使用 RL 強化學(xué)習的方法,完全依賴環(huán)境反饋(如如問題的正確性)來優(yōu)化模型行為。X8o28資訊網(wǎng)——每日最新資訊28at.com

它也第一次證明了通過純 RL 訓(xùn)練,即可提升模型的推理能力。模型在 RL 訓(xùn)練中自主發(fā)展出自我驗證、反思推理等復(fù)雜行為,達到 ChatGPT o1 級別的能力。X8o28資訊網(wǎng)——每日最新資訊28at.com

這項技術(shù),說明我們未來在訓(xùn)練的過程中,可能不再需要付出極為高昂的成本,獲取大量經(jīng)過詳細標注的高質(zhì)量數(shù)據(jù)。X8o28資訊網(wǎng)——每日最新資訊28at.com

03.多模態(tài),補短板

盡管 DeepSeek-V3 和 DeepSeek-R1 十分強大,但他們還都是名副其實的“大語言模型”,并不具有多模態(tài)的能力。X8o28資訊網(wǎng)——每日最新資訊28at.com

也就是說,我們目前還沒發(fā)把圖片、音頻等信息丟給他們,他們也不具備生成圖片的能力,只能通過文字的方式來進行信息交流。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

目前 DeepSeek 官方提供的文件上傳能力,其實只是走了一遍文字 OCR 識別。X8o28資訊網(wǎng)——每日最新資訊28at.com

不過,就在 1 月 28 日凌晨,DeepSeek 開源了全新的視覺多模態(tài)模型 Janus-Pro-7B。X8o28資訊網(wǎng)——每日最新資訊28at.com

與以往的方法不同,Janus-Pro 通過將視覺編碼過程拆分為多個獨立的路徑,解決了以往框架中的一些局限性,同時仍采用單一的統(tǒng)一變換器架構(gòu)進行處理。X8o28資訊網(wǎng)——每日最新資訊28at.com

這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現(xiàn)的沖突,還提升了框架的靈活性。X8o28資訊網(wǎng)——每日最新資訊28at.com

Janus 的表現(xiàn)超越了傳統(tǒng)的統(tǒng)一模型,并且在與任務(wù)特定模型的比較中也同樣表現(xiàn)出色。憑借其簡潔、高靈活性和高效性的特點,Janus-Pro 成為下一代統(tǒng)一多模態(tài)模型的有力競爭者。X8o28資訊網(wǎng)——每日最新資訊28at.com

其在 GenEval 和 DPG-Bench 基準測試中擊敗了 Stable Diffusion 和 OpenAI 的 DALL-E 3。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

不過作為一款僅有 7B 參數(shù)的“小”模型,Janus-Pro 目前只能處理 384 x 384 分辨率的圖像。X8o28資訊網(wǎng)——每日最新資訊28at.com

但我們相信,這只是一道開胃菜,我們期待在新思路下,DeepSeek 未來多模態(tài)大模型的表現(xiàn)。X8o28資訊網(wǎng)——每日最新資訊28at.com

04.除夕不眠夜

DeepSeek 的爆火,讓不少 AI 大模型領(lǐng)域的“友商”,都沒法無視這樣一家“小公司”。X8o28資訊網(wǎng)——每日最新資訊28at.com

今天(1 月 29 日)凌晨,農(nóng)歷新年的鐘聲剛剛敲響,阿里通義團隊帶來了他們的“新年禮物”—— Qwen2.5-Max 模型。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

通義千問團隊,也在 Qwen2.5-Max 模型的介紹中提到了 DeepSeek-V3。X8o28資訊網(wǎng)——每日最新資訊28at.com

近期,DeepSeek V3 的發(fā)布讓大家了解到超大規(guī)模 MoE 模型的效果及實現(xiàn)方法,而同期,Qwen 也在研發(fā)超大規(guī)模的 MoE 模型 Qwen2.5-Max,使用超過 20 萬億 token 的預(yù)訓(xùn)練數(shù)據(jù)及精心設(shè)計的后訓(xùn)練方案進行訓(xùn)練。X8o28資訊網(wǎng)——每日最新資訊28at.com

與業(yè)界領(lǐng)先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)相比,Qwen2.5-Max 的性能表現(xiàn)也相當有競爭能力。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

在基座模型的對比中,與目前領(lǐng)先的開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B 相比,Qwen2.5-Max 在大多數(shù)基準測試中都展現(xiàn)出了優(yōu)勢。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

目前 Qwen2.5-Max 已經(jīng)面向用戶開放,不過作為“Max”定位的模型,Qwen2.5-Max 暫未開源。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

而與 DeepSeek-R1 的直接對決,我們可能要等到未來新版的 QwQ、QVQ 模型。X8o28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 的 CEO 阿爾特曼也對 DeepSeek-R1 進行了評價:X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

▲很“官方”的標準回答

面對大家價格上的抱怨,阿爾特曼也表示未來的 ChatGPT o3-mini 模型將會開放給免費用戶使用,Plus 會員則每天有 100 條請求的額度。X8o28資訊網(wǎng)——每日最新資訊28at.com

此外,新的 ChatGPT Operator 功能也將盡快向 Plus 會員開放,而 OpenAI 的下一款模型也不會由每月 200 美元的 Pro 會員獨占,Plus 會員就能用X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

這究竟是來自于 DeepSeek 等競爭對手的壓力,還是 OpenAI 自身的成本優(yōu)化,我們不得而知。X8o28資訊網(wǎng)——每日最新資訊28at.com

我們期待著在 2025 年,還會有哪些關(guān)鍵領(lǐng)域的突破,AGI通用人工智能是不是也離我們越來越近了。X8o28資訊網(wǎng)——每日最新資訊28at.com

X8o28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10330-0.html能思考會搜索的國產(chǎn)大模型,全網(wǎng)瘋測的 DeepSeek 牛在哪?

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 阿斯麥 CEO:DeepSeek 的出現(xiàn)是好消息

下一篇: 春晚小品“遠程施法”,昨晚至今喚醒全球小米小愛同學(xué)超億次

標簽:
  • 熱門焦點
Top