當(dāng)前位置：首頁(yè) > 元宇宙 > AI

Meta 推 WebSSL 模型：探索 AI 無(wú)語(yǔ)言視覺(jué)學(xué)習(xí)，純圖訓(xùn)練媲美 OpenAI CLIP

來(lái)源：責(zé)編：時(shí)間：2025-04-28 07:34:04 102觀看

導(dǎo)讀 4 月 25 日消息，科技媒體 marktechpost 昨日（4 月 24 日）發(fā)布博文，報(bào)道稱(chēng) Meta 公司發(fā)布 WebSSL 系列模型，參數(shù)規(guī)模從 3 億到 70 億，基于純圖像數(shù)據(jù)訓(xùn)練，旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)（SSL）的潛力。以 OpenAI 的

4 月 25 日消息，科技媒體 marktechpost 昨日（4 月 24 日）發(fā)布博文，報(bào)道稱(chēng) Meta 公司發(fā)布 WebSSL 系列模型，參數(shù)規(guī)模從 3 億到 70 億，基于純圖像數(shù)據(jù)訓(xùn)練，旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)（SSL）的潛力。

以 OpenAI 的 CLIP 為代表，對(duì)比語(yǔ)言-圖像模型已成為學(xué)習(xí)視覺(jué)表征的默認(rèn)選擇，在視覺(jué)問(wèn)答（VQA）和文檔理解等多模態(tài)任務(wù)中表現(xiàn)突出。不過(guò)受到數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制，語(yǔ)言依賴面臨諸多挑戰(zhàn)。

Meta 公司針對(duì)上述痛點(diǎn)，在在 Hugging Face 平臺(tái)上發(fā)布了 WebSSL 系列模型，涵蓋 DINO 和 Vision Transformer（ViT）架構(gòu)，參數(shù)規(guī)模從 3 億到 70 億不等。

這些模型僅使用 MetaCLIP 數(shù)據(jù)集（MC-2B）中的 20 億張圖像子集進(jìn)行訓(xùn)練，排除了語(yǔ)言監(jiān)督的影響。Meta 的目標(biāo)并非取代 CLIP，而是通過(guò)控制變量，深入評(píng)估在不受數(shù)據(jù)和模型規(guī)模限制下，純視覺(jué)自監(jiān)督學(xué)習(xí)（SSL）的表現(xiàn)潛力。

WebSSL 模型采用兩種視覺(jué)自監(jiān)督學(xué)習(xí)范式：聯(lián)合嵌入學(xué)習(xí)（DINOv2）和掩碼建模（MAE）。訓(xùn)練統(tǒng)一使用 224×224 分辨率圖像，并凍結(jié)視覺(jué)編碼器以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。

模型在五個(gè)容量層級(jí)（ViT-1B 至 ViT-7B）上訓(xùn)練，評(píng)估基于 Cambrian-1 基準(zhǔn)測(cè)試，覆蓋通用視覺(jué)理解、知識(shí)推理、OCR 和圖表解讀等 16 個(gè) VQA 任務(wù)。此外，模型無(wú)縫集成于 Hugging Face 的 transformers 庫(kù)，便于研究和應(yīng)用。

實(shí)驗(yàn)揭示了多項(xiàng)關(guān)鍵發(fā)現(xiàn)：隨著參數(shù)規(guī)模增加，WebSSL 模型在 VQA 任務(wù)上的表現(xiàn)接近對(duì)數(shù)線性提升，而 CLIP 在超過(guò) 30 億參數(shù)后性能趨于飽和。

WebSSL 在 OCR 和圖表任務(wù)中表現(xiàn)尤為突出，尤其在數(shù)據(jù)篩選后，僅用 1.3% 的富文本圖像訓(xùn)練即超越 CLIP，在 OCRBench 和 ChartQA 任務(wù)中提升高達(dá) 13.6%。

此外，高分辨率（518px）微調(diào)進(jìn)一步縮小了與 SigLIP 等高分辨率模型的差距，在文檔任務(wù)中表現(xiàn)尤為出色。

WebSSL 模型在無(wú)語(yǔ)言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語(yǔ)言模型（如 LLaMA-3）的良好對(duì)齊性，表明大規(guī)模視覺(jué)模型能隱式學(xué)習(xí)與文本語(yǔ)義相關(guān)的特征。

同時(shí)，WebSSL 在傳統(tǒng)基準(zhǔn)測(cè)試（如 ImageNet-1k 分類(lèi)、ADE20K 分割）上保持強(qiáng)勁表現(xiàn)，部分場(chǎng)景甚至優(yōu)于 MetaCLIP 和 DINOv2。

附上參考地址

Scaling Language-Free Visual Representation Learning

Hugging Face

GitHub

本文鏈接：http://www.tebozhan.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型：探索 AI 無(wú)語(yǔ)言視覺(jué)學(xué)習(xí)，純圖訓(xùn)練媲美 OpenAI CLIP

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： AI 會(huì)有意識(shí)嗎？Anthropic 啟動(dòng)新項(xiàng)目，探索尋求答案

下一篇：黑洞超輻射：顛覆認(rèn)知的量子奇觀，開(kāi)啟宇宙探索新視角！

標(biāo)簽：

熱門(mén)焦點(diǎn)

三院士三教授熱聊元宇宙&——AIGC，學(xué)術(shù)界怎么看？

來(lái)源：清元宇宙在近日舉辦的中國(guó)江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會(huì)上，中國(guó)工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三大院士，還有清華
星展銀行(DBS)計(jì)劃推出零售數(shù)字資產(chǎn)交易服務(wù)

2月14日消息，新加坡星展銀行CEO Piyush Gupta在財(cái)報(bào)會(huì)議上表示，計(jì)劃于2022年年底前推出零售數(shù)字資產(chǎn)交易服務(wù)。據(jù)悉，DBS于2021年初開(kāi)設(shè)了機(jī)構(gòu)數(shù)字資產(chǎn)交易平臺(tái)，全
多地釋放積極信號(hào)，元宇宙正成為地方爭(zhēng)先競(jìng)逐的主戰(zhàn)場(chǎng)？

2月21日，2022中國(guó)·金魚(yú)嘴元宇宙生態(tài)賦能大會(huì)在南京建鄴區(qū)金魚(yú)嘴基金街區(qū)舉辦，南京建鄴區(qū)金魚(yú)嘴基金街區(qū)宣布計(jì)劃出資1億元，支持元宇宙行業(yè)發(fā)展。同時(shí)，會(huì)上發(fā)布了
韓國(guó)建立元宇宙生態(tài)系統(tǒng)，智度股份發(fā)布元宇宙社區(qū)Meta彼岸

財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會(huì)報(bào)告指出抓緊布局元宇宙等未來(lái)產(chǎn)業(yè)；韓國(guó)科學(xué)信息通信技術(shù)部宣布投資1.85億美元建立元宇宙
重溫 1602 年：DAO 是新的企業(yè)范式嗎？

作者：Andrew Singer“ 將你的選票委托給行業(yè)有能力的專(zhuān)家，將使所有者在這些公司的管理中擁有更強(qiáng)大、更清晰的話語(yǔ)權(quán) 。”1602 年，荷蘭東印度公司成立，許多人認(rèn)為
DAO登上了歷史舞臺(tái)，但是主流準(zhǔn)備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來(lái)、無(wú)領(lǐng)導(dǎo)組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰(zhàn)的反烏托邦結(jié)構(gòu)，取決于你在與誰(shuí)交談。近幾個(gè)月來(lái)， DAO已經(jīng)從Crypto
元宇宙平臺(tái)會(huì)是上世紀(jì)末的互聯(lián)網(wǎng)嗎？

“元宇宙”火了好幾個(gè)月，互聯(lián)網(wǎng)大廠忙于布局，資本市場(chǎng)熱烈追捧。然而很多人還是看不明白，更多的人覺(jué)得這是一場(chǎng)泡沫，一場(chǎng)騙局。一開(kāi)始接觸這個(gè)怪里怪氣的名詞，感覺(jué)
NFT高玩必備：NFT分析工具大盤(pán)點(diǎn)

NFT市場(chǎng)的火熱讓越來(lái)越多的投資者投身其中，但當(dāng)前的 NFT 生態(tài)系統(tǒng)存在幾個(gè)問(wèn)題卻困擾了大多數(shù)人，如難以準(zhǔn)確評(píng)估 NFT 項(xiàng)目的資產(chǎn)價(jià)格、缺乏 NFT 市場(chǎng)動(dòng)態(tài)信息、
電影工業(yè)巨頭好萊塢計(jì)劃進(jìn)軍元宇宙，將會(huì)對(duì)行業(yè)帶來(lái)什么影響？

元宇宙聽(tīng)起來(lái)像不像是科幻小說(shuō)中出現(xiàn)的術(shù)語(yǔ)？事實(shí)確實(shí)如此。小說(shuō)家尼爾·斯蒂芬森在1992年的小說(shuō)《雪崩》中首次用這個(gè)詞來(lái)定義了一個(gè)多連接的虛擬宇宙，它能夠模

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 推 WebSSL 模型：探索 AI 無(wú)語(yǔ)言視覺(jué)學(xué)習(xí)，純圖訓(xùn)練媲美 OpenAI CLIP

三院士三教授熱聊元宇宙&——AIGC，學(xué)術(shù)界怎么看？

星展銀行(DBS)計(jì)劃推出零售數(shù)字資產(chǎn)交易服務(wù)

多地釋放積極信號(hào)，元宇宙正成為地方爭(zhēng)先競(jìng)逐的主戰(zhàn)場(chǎng)？

韓國(guó)建立元宇宙生態(tài)系統(tǒng)，智度股份發(fā)布元宇宙社區(qū)Meta彼岸

重溫 1602 年：DAO 是新的企業(yè)范式嗎？

DAO登上了歷史舞臺(tái)，但是主流準(zhǔn)備好采用DAO了嗎？

元宇宙平臺(tái)會(huì)是上世紀(jì)末的互聯(lián)網(wǎng)嗎？

NFT高玩必備：NFT分析工具大盤(pán)點(diǎn)

電影工業(yè)巨頭好萊塢計(jì)劃進(jìn)軍元宇宙，將會(huì)對(duì)行業(yè)帶來(lái)什么影響？

最新推薦

新周期，誰(shuí)在堅(jiān)守窄門(mén)？

關(guān)于ChatGPT的10點(diǎn)思考

藍(lán)標(biāo)虧錢(qián)、Meta裁員：天下秀還值得砸錢(qián)元宇宙嗎？

智能人機(jī)交互技術(shù)的春晚大考

從虛擬餐廳到虛擬時(shí)裝秀，行業(yè)巨頭掀起元宇宙商標(biāo)注冊(cè)潮

多地釋放積極信號(hào)，元宇宙正成為地方爭(zhēng)先競(jìng)逐的主戰(zhàn)場(chǎng)？

猜你喜歡

熱門(mén)推薦

相關(guān)資訊