AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 科技  > 測評

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

來源: 責(zé)編: 時間:2024-08-08 16:17:37 130觀看
導(dǎo)讀 國產(chǎn)大模型,多模態(tài)能力都開始超越GPT-4-Turbo了??權(quán)威榜單,中文多模態(tài)大模型測評基準(zhǔn)SuperCLUE-V,新鮮出爐:特別是騰訊的hunyuan-vision、上海AI Lab的InternVL2-40B,分別成為國內(nèi)閉源和開源界兩大領(lǐng)跑

國產(chǎn)大模型,多模態(tài)能力都開始超越GPT-4-Turbo了??32828資訊網(wǎng)——每日最新資訊28at.com

權(quán)威榜單,中文多模態(tài)大模型測評基準(zhǔn)SuperCLUE-V,新鮮出爐:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

特別是騰訊的hunyuan-vision、上海AI Lab的InternVL2-40B,分別成為國內(nèi)閉源和開源界兩大領(lǐng)跑者,甚至超過Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。32828資訊網(wǎng)——每日最新資訊28at.com

雖然這次都還是被GPT-4o壓過,差距也確確實實縮小了很多。32828資訊網(wǎng)——每日最新資訊28at.com

(這個榜單旨在為中文領(lǐng)域提供一個多模態(tài)大模型多維度能力評估參考,GPT-4o等國外模型僅作對比參考,不參與排名哦)32828資訊網(wǎng)——每日最新資訊28at.com

hunyuan-vision也就是騰訊混元大模型的多模態(tài)版本了,除了開發(fā)者調(diào)用API之外,其實在騰訊元寶APP里免費就能體驗到。32828資訊網(wǎng)——每日最新資訊28at.com

一直以來,元寶主打“實用AI搭子”,似乎著重強調(diào)的是實用易用性;沒想到背著咱們偷偷拿模型去測評,還捧回來個國內(nèi)第一,emmm……有點意思。32828資訊網(wǎng)——每日最新資訊28at.com

所以國產(chǎn)多模態(tài)大模型進化成什么樣了,光看分?jǐn)?shù)還是不夠直觀,下面就拉出來溜溜。32828資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)能力第一?這就上手玩32828資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)測試,說實話有點不嘻嘻:還沒有出現(xiàn)“弱智吧”一樣公認(rèn)效果拔群的“民間benchmark”。32828資訊網(wǎng)——每日最新資訊28at.com

但又嘻嘻:根本不耽誤我們碳基生物用千奇百怪的圖片來為難大模型。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

那就開始吧!32828資訊網(wǎng)——每日最新資訊28at.com

Round 1.1:梗圖表情包理解32828資訊網(wǎng)——每日最新資訊28at.com

時間過得好快!昨兒已經(jīng)立秋了。32828資訊網(wǎng)——每日最新資訊28at.com

夏天夏天悄悄過去,只留下可以用這張meme圖概括的心情:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

問元寶,這張圖什么意思?得到的答案是:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

隨手測試的程序員祖?zhèn)黝},元寶也輕松應(yīng)對。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

Round 1.2:照片內(nèi)容識別32828資訊網(wǎng)——每日最新資訊28at.com

上來就是一道不走尋常路的“超前”題——編輯部好幾個人對著這張圖皺眉。32828資訊網(wǎng)——每日最新資訊28at.com

太黑暗了,不知是何物。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

答案揭曉,這是最近一個分享貼中,“南京本地人應(yīng)該也受不了”的黑金榴蓮紫薯披薩。32828資訊網(wǎng)——每日最新資訊28at.com

元寶不僅能正確get到圖中“太超前”的含義,同時還根據(jù)圖片猜中了食物拿紫薯當(dāng)原料。32828資訊網(wǎng)——每日最新資訊28at.com

至于沒有猜出榴蓮成分,也不能怪它,人類的黑暗料理不管是對AI還是對人類都真的太超前……32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

再來一道經(jīng)典題目,數(shù)吉娃娃。32828資訊網(wǎng)——每日最新資訊28at.com

可以看到,混元元寶先是分析了題目中“吉娃娃”的外貌特征,然后分別告訴了九張圖中哪些是吉娃娃的照片。32828資訊網(wǎng)——每日最新資訊28at.com

不僅答得全對,還看出了圖中另一個物種是藍莓松餅。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

Round 1.3:視覺錯覺挑戰(zhàn)32828資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)大模型的視覺幻覺問題,是這兩年的熱門研究方向。32828資訊網(wǎng)——每日最新資訊28at.com

這些測試題真的很有迷惑性,別說大模型了,連人類也常常踩坑沒商量。32828資訊網(wǎng)——每日最新資訊28at.com

但騰訊元寶,就這么水靈靈地答對了!32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

當(dāng)初難道一種大模型的“哪一棵樹更亮”,也謹(jǐn)慎地回答:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

不過更難的錯覺挑戰(zhàn)它就不行了。讀圖片中隱藏信息的傻傻看不出,怎么問都說“沒有啊”:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

不過講道理,這些題GPT-4V也答不上來,大約目前多模態(tài)大模型的階段性能力還沒邁過這道坎。32828資訊網(wǎng)——每日最新資訊28at.com

玩耍一番過后,接下來要動真格的!32828資訊網(wǎng)——每日最新資訊28at.com

測試元寶背后hunyuan-vision在實用場景下,表現(xiàn)如何。32828資訊網(wǎng)——每日最新資訊28at.com

Round 2.1:財報表現(xiàn)摘要讀取32828資訊網(wǎng)——每日最新資訊28at.com

每個季度、半年、年終的財報,打工人看了真的是腦闊痛。32828資訊網(wǎng)——每日最新資訊28at.com

這就把騰訊一季度財報表現(xiàn)摘要截圖扔給元寶,讓它幫忙淺做分析:32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

元寶讀取了圖標(biāo)中的數(shù)據(jù),還在最后還小小總結(jié)了一把:32828資訊網(wǎng)——每日最新資訊28at.com

總體來看,該公司在2024年3月31日的財務(wù)表現(xiàn)顯著優(yōu)于2023年3月31日,各項指標(biāo)均有不同程度的增長,尤其是毛利、經(jīng)營盈利和期內(nèi)盈利的增長幅度較大。32828資訊網(wǎng)——每日最新資訊28at.com

Round 2.2:讀取(學(xué)術(shù))圖表32828資訊網(wǎng)——每日最新資訊28at.com

先來一道沒那么學(xué)術(shù)的圖表識別題。32828資訊網(wǎng)——每日最新資訊28at.com

問,一張圖中的數(shù)字序列,缺少了哪一個?32828資訊網(wǎng)——每日最新資訊28at.com

元寶很好地讀圖,并正確填補了缺的那個數(shù)字:29。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

然后隨機從一篇關(guān)于大模型數(shù)據(jù)的論文中,截圖喂過去。32828資訊網(wǎng)——每日最新資訊28at.com

它也能理解并給出詳細(xì)解釋,最后還來幾句總結(jié)。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

Round 2.3:行測找規(guī)律題32828資訊網(wǎng)——每日最新資訊28at.com

這一回合的最后上大招——萬千人頭疼不已的行測找規(guī)律題。32828資訊網(wǎng)——每日最新資訊28at.com

題是下面這一道,prompt輸入:請從所給的四個選項中,選擇最合適的一個填入問號處,使之呈現(xiàn)一定的規(guī)律性。32828資訊網(wǎng)——每日最新資訊28at.com

先提前透露正確答案,選C。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

在公布自己的最終答案之前,元寶嘰里呱啦進行了很長的過程分析(講真,看得人很緊張)。32828資訊網(wǎng)——每日最新資訊28at.com

最后堅定地選了C選項,答對。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

一道GPT-4V沒做對的附加題32828資訊網(wǎng)——每日最新資訊28at.com

先做個前情提要,此前研究人員們發(fā)現(xiàn),GPT-4V更擅長解釋西方文化背景的圖像or帶有英文文字的圖像。32828資訊網(wǎng)——每日最新資訊28at.com

比如給AI看《白雪公主》,知道是有7個小矮人。換成《葫蘆娃》,7個就數(shù)成了10個,葫蘆山七彩峰也說成了冰山。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

那么純國產(chǎn)大模型,總該表現(xiàn)好點了吧?直接原題譯中,丟過去。32828資訊網(wǎng)——每日最新資訊28at.com

好家伙,不僅數(shù)對了數(shù)量,還在追問中成功辨別這是《葫蘆兄弟》的截圖。32828資訊網(wǎng)——每日最新資訊28at.com

Nice!32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

騰訊元寶,真·AI實用搭子32828資訊網(wǎng)——每日最新資訊28at.com

看過這么多實測案例,是時候整體介紹一下背后的模型和整個APP了。32828資訊網(wǎng)——每日最新資訊28at.com

騰訊混元大模型,可以說是一位老朋友了。32828資訊網(wǎng)——每日最新資訊28at.com

去年9月首次對外亮相,之后一直保持著快速迭代。目前已擴展至萬億參數(shù)規(guī)模,由7萬億tokens的預(yù)訓(xùn)練語料訓(xùn)練而來,能力已覆蓋了文本、多模態(tài)理解及生成等。32828資訊網(wǎng)——每日最新資訊28at.com

在國內(nèi)大模型中,騰訊混元率先完成MoE(Mix of Experts,專家混合)架構(gòu)升級,也就是從單個稠密模型升級到多個專家組成的稀疏模型。32828資訊網(wǎng)——每日最新資訊28at.com

今年7月,還解鎖了一個單日調(diào)用tokens數(shù)達千億級的成就。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

騰訊元寶,今年5月底剛剛上線,可能對很多人來說還是新朋友。32828資訊網(wǎng)——每日最新資訊28at.com

值得一提的是,在前一陣“9.11和9.9哪個大”的風(fēng)波中,騰訊元寶表現(xiàn)不錯,無需額外提示自己就能答對。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

騰訊元寶主打一個“實用AI搭子”,其中一個特色是APP、小程序和網(wǎng)頁都能訪問,聊天記錄多端同步。32828資訊網(wǎng)——每日最新資訊28at.com

比如在微信聊天中接收到的工作文檔,不用轉(zhuǎn)存到手機目錄,就可以直接到小程序選擇對話直接發(fā)給AI了,接下來是總結(jié)也好、生成也好都非常方便。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

再拿多模態(tài)理解能力來說,無論是文檔截圖、人像風(fēng)景、收銀小票,還是任意一張隨手拍的照片,元寶都能基于圖中內(nèi)容給出自己的理解和分析。32828資訊網(wǎng)——每日最新資訊28at.com

背后的一個思考是不光要識別、理解,還要生成滿足用戶需求的內(nèi)容。32828資訊網(wǎng)——每日最新資訊28at.com

從前面的測試中也可以看出,丟一個表情包給它,回答也會簡短,換成學(xué)術(shù)圖表,回答就會盡量詳盡、并且主動附加總結(jié)段落。32828資訊網(wǎng)——每日最新資訊28at.com

據(jù)騰訊介紹,混元大模型系列中的多模態(tài)理解模型,在視覺編碼、語言模型、訓(xùn)練數(shù)據(jù)三方面做了深度的優(yōu)化,能處理最高達7k分辨率最大16:1長寬比圖片,也是國內(nèi)首個基于MoE的多模態(tài)大模型。32828資訊網(wǎng)——每日最新資訊28at.com

把Transformer開山之作,經(jīng)典論文《Attention is all you need》拼成一個長圖,對騰訊元寶來說也完全不是難事,從引言到結(jié)論全文覆蓋。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

而且騰訊元寶團隊這次特別透露,接下來會把更多精力放在融合模型多模態(tài)能力上。32828資訊網(wǎng)——每日最新資訊28at.com

反正騰訊嘛大家都熟悉,是國內(nèi)大廠里最重產(chǎn)品,重視打磨用戶體驗的。32828資訊網(wǎng)——每日最新資訊28at.com

比如最近騰訊元寶開始往“深度”發(fā)展,先更新了“深度搜索”,又剛剛上線“深度長文閱讀”。32828資訊網(wǎng)——每日最新資訊28at.com

這些功能都是隱藏了技術(shù)細(xì)節(jié)、盡量減少對提示工程的需要,很多功能都是自動識別,一鍵觸發(fā),不需要什么學(xué)習(xí)成本。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

深度閱讀功能就初步整合了多模態(tài)理解能力,上傳一個論文PDF進去,生成的“精度”頁面中不僅有文字總結(jié),還能把相應(yīng)的圖表從文檔里拽出來。32828資訊網(wǎng)——每日最新資訊28at.com

在很多情況下,都不用來回翻原文對照了。32828資訊網(wǎng)——每日最新資訊28at.com

最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了32828資訊網(wǎng)——每日最新資訊28at.com

而且這一次,中文多模態(tài)大模型測評基準(zhǔn)SuperCLUE-V榜單成績,也說明騰訊不只搞好了產(chǎn)品體驗,也非常看中背后模型基礎(chǔ)能力。32828資訊網(wǎng)——每日最新資訊28at.com

所以說,在多模態(tài)“圖生文”場景下,騰訊又能整出什么實用好活,就非常值得期待了。32828資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-25-106429-0.html最強國產(chǎn)多模態(tài)剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OPPO:今年將讓約5千萬用戶手機搭載生成式AI功能 包含F(xiàn)ind X系列

下一篇: 用了兩個月蘋果iOS 18后 這是我最滿意的幾個地方

標(biāo)簽:
  • 熱門焦點
  • 6月iOS設(shè)備好評榜:第一蟬聯(lián)榜首近一年

    作為安兔兔各種榜單里變化最小的那個,2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化,僅僅是部分設(shè)備好評率的下降,長年累月的用戶評價和逐漸退出市場的老款機器讓這
  • 5月iOS設(shè)備好評榜:iPhone 14僅排第43?

    來到新的一月,安兔兔的各個榜單又重新匯總了數(shù)據(jù),像安卓陣營的榜單都有著比較大的變動,不過iOS由于設(shè)備的更新?lián)Q代并沒有那么快,所以相對來說變化并不大,特別是iOS好評榜,老款設(shè)
  • 28個SpringBoot項目中常用注解,日常開發(fā)、求職面試不再懵圈

    前言在使用SpringBoot開發(fā)中或者在求職面試中都會使用到很多注解或者問到注解相關(guān)的知識。本文主要對一些常用的注解進行了總結(jié),同時也會舉出具體例子,供大家學(xué)習(xí)和參考。注解
  • 量化指標(biāo)是與非:挽救被量化指標(biāo)扼殺的技術(shù)團隊

    作者 | 劉新翠整理 | 徐杰承本文整理自快狗打車技術(shù)總監(jiān)劉新翠在WOT2023大會上的主題分享,更多精彩內(nèi)容及現(xiàn)場PPT,請關(guān)注51CTO技術(shù)棧公眾號,發(fā)消息【W(wǎng)OT2023PPT】即可直接領(lǐng)取
  • 之家push系統(tǒng)迭代之路

    前言在這個信息爆炸的互聯(lián)網(wǎng)時代,能夠及時準(zhǔn)確獲取信息是當(dāng)今社會要解決的關(guān)鍵問題之一。隨著之家用戶體量和內(nèi)容規(guī)模的不斷增大,傳統(tǒng)的靠"主動拉"獲取信息的方式已不能滿足用
  • 大廠卷向扁平化

    來源:新熵作者丨南枝 編輯丨月見大廠職級不香了。俗話說,兵無常勢,水無常形,互聯(lián)網(wǎng)企業(yè)調(diào)整職級體系并不稀奇。7月13日,淘寶天貓集團啟動了近年來最大的人力制度改革,目前已形成一
  • iQOO 11S或7月上市:搭載“雞血版”驍龍8Gen2 史上最強5G Soc

    去年底,iQOO推出了“電競旗艦”iQOO 11系列,作為一款性能強機,iQOO 11不僅全球首發(fā)2K 144Hz E6全感屏,搭載了第二代驍龍8平臺及144Hz電競屏,同時在快充
  • OPPO K11搭載高性能石墨散熱系統(tǒng):旗艦同款 性能涼爽釋放

    日前OPPO官方宣布,將于7月25日14:30舉辦新品發(fā)布會,屆時全新的OPPO K11將正式與大家見面,將主打旗艦影像,和同檔位競品相比,其最大的賣點就是將配備索尼
  • OPPO K11采用全方位護眼屏:三大護眼能力減輕視覺疲勞

    日前OPPO官方宣布,全新的OPPO K11將于7月25日正式發(fā)布,將主打旗艦影像,和同檔位競品相比,其最大的賣點就是將配備索尼IMX890主攝,堪稱是2000檔位影像表
Top