AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

能思考會搜索的國產大模型,全網瘋測的 DeepSeek 牛在哪?

來源: 責編: 時間:2025-02-01 10:04:41 31觀看
導讀 的家友們,蛇年吉祥!在這個農歷新年期間,科技界卻并不平靜...距離 OpenAI 發布由 GPT-3.5 模型驅動的 ChatGPT 聊天機器人,已經過去了兩年多的時間。在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出

的家友們,蛇年吉祥!cvG28資訊網——每日最新資訊28at.com

在這個農歷新年期間,科技界卻并不平靜...cvG28資訊網——每日最新資訊28at.com

距離 OpenAI 發布由 GPT-3.5 模型驅動的 ChatGPT 聊天機器人,已經過去了兩年多的時間。cvG28資訊網——每日最新資訊28at.com

在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出現的初創企業,都在 AI 大模型領域,投入了巨額的資源。cvG28資訊網——每日最新資訊28at.com

算力逐漸膨脹,大模型的訓練及推理成本也同樣水漲船高。cvG28資訊網——每日最新資訊28at.com

OpenAI 去年推出的 ChatGPT Pro 會員,價格已經來到了每月 200 美元。cvG28資訊網——每日最新資訊28at.com

“屠龍者終成惡龍”,每月 20 美元的 ChatGPT Plus 會員,包含的 o1 模型使用次數,可以說僅僅只夠“玩一玩”,很難真的應用于自己的工作之中。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

如果未來成本進一步上漲,難道 AI 的未來,是每月 2000 美元的“ChatGPT Pro Max 會員”嗎?cvG28資訊網——每日最新資訊28at.com

然而,一家來自杭州的“小公司” DeepSeek,卻給整個 AI 行業帶來了新思路,這兩天可以說是火遍了全網。這就來跟大家一起看看是怎么回事。cvG28資訊網——每日最新資訊28at.com

01.用起來怎么樣?

去年年底,DeepSeek-V3 模型發布,其多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

作為一款開源的 MoE 混合專家模型,DeepSeek-V3 當時獲得了業內人士不少的關注,但是還并沒有“出圈”。cvG28資訊網——每日最新資訊28at.com

不過,在 DeepSeek 官方的手機應用 1 月上旬上線之前,已經有一些山寨 App 準備湊熱度了。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

▲極速推出的的山寨應用

而 1 月 20 日發布的推理模型 DeepSeek-R1,則在性能上實現了對 OpenAI-o1 正式版的對標。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

此外,DeepSeek 也并沒有藏著掖著,同期公開了 DeepSeek-R1 的訓練技術,并且開源了模型權重。cvG28資訊網——每日最新資訊28at.com

而且對我們普通用戶來說,DeepSeek-R1 直接在其官網免費開放使用。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

而且,DeepSeek-R1 還可以聯網搜索信息,增加了不少使用上的靈活性。cvG28資訊網——每日最新資訊28at.com

要知道,去年 10 月 31 號上線的 ChatGPT Search 搜索功能目前還不支持與 ChatGPT o1 模型協同使用,我們只能退而求其次選擇 4o 模型。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

此外,作為一款采用 CoT 思維鏈技術的推理模型,DeepSeek-R1 直接把其思考過程顯示給用戶,這一點令我們可以直觀感受到目前大模型技術的實力。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

在海內外全網爆火的同時,DeepSeek 也承受了非常大的壓力,相信我們不少家友都對下面這句話非常熟悉。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

除了大量用戶的涌入,DeepSeek 甚至還承受了大規模的惡意攻擊。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

要知道,即便是 ChatGPT,也經常出現宿機事件,這方面也希望大家可以“理解萬歲”。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

除了 671B 參數的完整模型,DeepSeek 還蒸餾了好幾款小模型,32B 和 70B 模型也在多項能力上實現了對標 OpenAI o1-mini 的效果。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

而這些蒸餾后的模型,我們已經可以嘗試在自己的設備上,本地進行運行。cvG28資訊網——每日最新資訊28at.com

02.兩把殺手锏- MoE混合專家模型

DeepSeek-R1 的成本優勢,便在其官方 API 服務定價中體現了出來:cvG28資訊網——每日最新資訊28at.com

每百萬輸入 tokens:1 元(緩存命中)/ 4 元(緩存未命中)cvG28資訊網——每日最新資訊28at.com

每百萬輸出 tokens:16 元cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

其輸出 API 價格,甚至只是 ChatGPT o1 的約 3%,這就要聊到 MoE 混合專家模型了。cvG28資訊網——每日最新資訊28at.com

前面提到,DeepSeek-R1 是一款 671B 參數的模型,從傳統的角度來看,運行起來絕不會輕松。cvG28資訊網——每日最新資訊28at.com

而 MoE 架構的核心思想,其實就是將一個復雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網絡分別處理。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

這樣,當我們向 MoE 模型輸入提示時,查詢不會激活整個 AI,而只會激活生成響應所需的特定神經網絡。cvG28資訊網——每日最新資訊28at.com

因此,R1 和 R1-Zero 在回答提示時激活的參數僅為 37B,不到其總參數量的十分之一,“讓專業的人干專業的事”,推理成本大大降低。cvG28資訊網——每日最新資訊28at.com

其實,MoE 并不是一個新概念,最早起源于 1991 年的論文《Adaptive Mixture of Local Experts》。cvG28資訊網——每日最新資訊28at.com

不過這一思路的“起飛”,還要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。cvG28資訊網——每日最新資訊28at.com

外界普遍認為GPT-4 就使用了 MoE 模型,但對于已經變成“CloseAI”的 OpenAI 來說,其旗艦模型的許多技術細節,我們無從得知......cvG28資訊網——每日最新資訊28at.com

- RL 強化學習

傳統的 AI 大模型訓練,使用的是 SFT 監督微調過程,在精心策劃的數據集上訓練模型,教會它們逐步推理。cvG28資訊網——每日最新資訊28at.com

而 DeepSeek-R1 則使用 RL 強化學習的方法,完全依賴環境反饋(如如問題的正確性)來優化模型行為。cvG28資訊網——每日最新資訊28at.com

它也第一次證明了通過純 RL 訓練,即可提升模型的推理能力。模型在 RL 訓練中自主發展出自我驗證、反思推理等復雜行為,達到 ChatGPT o1 級別的能力。cvG28資訊網——每日最新資訊28at.com

這項技術,說明我們未來在訓練的過程中,可能不再需要付出極為高昂的成本,獲取大量經過詳細標注的高質量數據。cvG28資訊網——每日最新資訊28at.com

03.多模態,補短板

盡管 DeepSeek-V3 和 DeepSeek-R1 十分強大,但他們還都是名副其實的“大語言模型”,并不具有多模態的能力。cvG28資訊網——每日最新資訊28at.com

也就是說,我們目前還沒發把圖片、音頻等信息丟給他們,他們也不具備生成圖片的能力,只能通過文字的方式來進行信息交流。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

目前 DeepSeek 官方提供的文件上傳能力,其實只是走了一遍文字 OCR 識別。cvG28資訊網——每日最新資訊28at.com

不過,就在 1 月 28 日凌晨,DeepSeek 開源了全新的視覺多模態模型 Janus-Pro-7B。cvG28資訊網——每日最新資訊28at.com

與以往的方法不同,Janus-Pro 通過將視覺編碼過程拆分為多個獨立的路徑,解決了以往框架中的一些局限性,同時仍采用單一的統一變換器架構進行處理。cvG28資訊網——每日最新資訊28at.com

這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現的沖突,還提升了框架的靈活性。cvG28資訊網——每日最新資訊28at.com

Janus 的表現超越了傳統的統一模型,并且在與任務特定模型的比較中也同樣表現出色。憑借其簡潔、高靈活性和高效性的特點,Janus-Pro 成為下一代統一多模態模型的有力競爭者。cvG28資訊網——每日最新資訊28at.com

其在 GenEval 和 DPG-Bench 基準測試中擊敗了 Stable Diffusion 和 OpenAI 的 DALL-E 3。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

不過作為一款僅有 7B 參數的“小”模型,Janus-Pro 目前只能處理 384 x 384 分辨率的圖像。cvG28資訊網——每日最新資訊28at.com

但我們相信,這只是一道開胃菜,我們期待在新思路下,DeepSeek 未來多模態大模型的表現。cvG28資訊網——每日最新資訊28at.com

04.除夕不眠夜

DeepSeek 的爆火,讓不少 AI 大模型領域的“友商”,都沒法無視這樣一家“小公司”。cvG28資訊網——每日最新資訊28at.com

今天(1 月 29 日)凌晨,農歷新年的鐘聲剛剛敲響,阿里通義團隊帶來了他們的“新年禮物”—— Qwen2.5-Max 模型。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

通義千問團隊,也在 Qwen2.5-Max 模型的介紹中提到了 DeepSeek-V3。cvG28資訊網——每日最新資訊28at.com

近期,DeepSeek V3 的發布讓大家了解到超大規模 MoE 模型的效果及實現方法,而同期,Qwen 也在研發超大規模的 MoE 模型 Qwen2.5-Max,使用超過 20 萬億 token 的預訓練數據及精心設計的后訓練方案進行訓練。cvG28資訊網——每日最新資訊28at.com

與業界領先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)相比,Qwen2.5-Max 的性能表現也相當有競爭能力。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

在基座模型的對比中,與目前領先的開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B 相比,Qwen2.5-Max 在大多數基準測試中都展現出了優勢。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

目前 Qwen2.5-Max 已經面向用戶開放,不過作為“Max”定位的模型,Qwen2.5-Max 暫未開源。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

而與 DeepSeek-R1 的直接對決,我們可能要等到未來新版的 QwQ、QVQ 模型。cvG28資訊網——每日最新資訊28at.com

OpenAI 的 CEO 阿爾特曼也對 DeepSeek-R1 進行了評價:cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

▲很“官方”的標準回答

面對大家價格上的抱怨,阿爾特曼也表示未來的 ChatGPT o3-mini 模型將會開放給免費用戶使用,Plus 會員則每天有 100 條請求的額度。cvG28資訊網——每日最新資訊28at.com

此外,新的 ChatGPT Operator 功能也將盡快向 Plus 會員開放,而 OpenAI 的下一款模型也不會由每月 200 美元的 Pro 會員獨占,Plus 會員就能用cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

這究竟是來自于 DeepSeek 等競爭對手的壓力,還是 OpenAI 自身的成本優化,我們不得而知。cvG28資訊網——每日最新資訊28at.com

我們期待著在 2025 年,還會有哪些關鍵領域的突破,AGI通用人工智能是不是也離我們越來越近了。cvG28資訊網——每日最新資訊28at.com

cvG28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10330-0.html能思考會搜索的國產大模型,全網瘋測的 DeepSeek 牛在哪?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 阿斯麥 CEO:DeepSeek 的出現是好消息

下一篇: 春晚小品“遠程施法”,昨晚至今喚醒全球小米小愛同學超億次

標簽:
  • 熱門焦點
  • ChatGPT訪問量增速下滑,AI真的是一場泡沫嗎?

    來源:首席商業評論2023年,最火的莫過于ChatGPT,席卷全球的同時也引發了生成式AI(人工智能)的投資熱潮。在美股,ChatGPT相關概念股飆漲,以AI算力龍頭英偉達為例,其股價年內一度累計上
  • 元宇宙的文旅賽道,還能如何發力?

    來源:X增強現實蘋果推出Vision Pro,為XR行業注入一劑強心針。而在蘋果開發者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達成合作,其Disney+流媒體服務將于Vision Pro
  • 文心一言排名墊底,卻成為百度業績增長杠桿

    文/侯煜編輯/羅卿知識增強大預言模式文心一言發布后,百度公司熱度大幅提升,文心一言到底能為百度的業績帶來多大的增益成為業內關注焦點。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • 冰墩墩還能火多久?

    作者:田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰,冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推,以及日
  • 美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

    No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息,俄羅斯財政部長安東·西盧安諾夫(Anton Siluanov)表示,在俄羅斯禁止加密貨幣就跟禁止互
  • 下一個黃金賽道?NFT的碎片化!

    碎片化可能是我們一生中最重要的一個投資趨勢,碎片化本身并不新鮮。它已經存在了400年之久。早在1602年,荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
  • Interface正大光明的“跑路”,社區成員贊格局大

    今日凌晨,一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營,后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈,大多數人完全不明
  • 多位全國政協委員提交元宇宙提案,國金證券稱元宇宙仍處初期投資階段

    財聯社|區塊鏈日報2日訊 今日《元宇宙新鮮事》有:全國政協委員劉偉建議出臺“元宇宙中國”的頂層設計方案;國金證券稱元宇宙仍處初期投資龐大獲利不易階段;阿聯酋
Top