AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

Meta 推 WebSSL 模型:探索 AI 無(wú)語(yǔ)言視覺(jué)學(xué)習(xí),純圖訓(xùn)練媲美 OpenAI CLIP

來(lái)源: 責(zé)編: 時(shí)間:2025-04-28 07:34:04 102觀看
導(dǎo)讀 4 月 25 日消息,科技媒體 marktechpost 昨日(4 月 24 日)發(fā)布博文,報(bào)道稱(chēng) Meta 公司發(fā)布 WebSSL 系列模型,參數(shù)規(guī)模從 3 億到 70 億,基于純圖像數(shù)據(jù)訓(xùn)練,旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)的潛力。以 OpenAI 的

4 月 25 日消息,科技媒體 marktechpost 昨日(4 月 24 日)發(fā)布博文,報(bào)道稱(chēng) Meta 公司發(fā)布 WebSSL 系列模型,參數(shù)規(guī)模從 3 億到 70 億,基于純圖像數(shù)據(jù)訓(xùn)練,旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)的潛力。36q28資訊網(wǎng)——每日最新資訊28at.com

以 OpenAI 的 CLIP 為代表,對(duì)比語(yǔ)言-圖像模型已成為學(xué)習(xí)視覺(jué)表征的默認(rèn)選擇,在視覺(jué)問(wèn)答(VQA)和文檔理解等多模態(tài)任務(wù)中表現(xiàn)突出。不過(guò)受到數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制,語(yǔ)言依賴面臨諸多挑戰(zhàn)。36q28資訊網(wǎng)——每日最新資訊28at.com

Meta 公司針對(duì)上述痛點(diǎn),在在 Hugging Face 平臺(tái)上發(fā)布了 WebSSL 系列模型,涵蓋 DINO 和 Vision Transformer(ViT)架構(gòu),參數(shù)規(guī)模從 3 億到 70 億不等。36q28資訊網(wǎng)——每日最新資訊28at.com

36q28資訊網(wǎng)——每日最新資訊28at.com

這些模型僅使用 MetaCLIP 數(shù)據(jù)集(MC-2B)中的 20 億張圖像子集進(jìn)行訓(xùn)練,排除了語(yǔ)言監(jiān)督的影響。Meta 的目標(biāo)并非取代 CLIP,而是通過(guò)控制變量,深入評(píng)估在不受數(shù)據(jù)和模型規(guī)模限制下,純視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)的表現(xiàn)潛力。36q28資訊網(wǎng)——每日最新資訊28at.com

WebSSL 模型采用兩種視覺(jué)自監(jiān)督學(xué)習(xí)范式:聯(lián)合嵌入學(xué)習(xí)(DINOv2)和掩碼建模(MAE)。訓(xùn)練統(tǒng)一使用 224×224 分辨率圖像,并凍結(jié)視覺(jué)編碼器以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。36q28資訊網(wǎng)——每日最新資訊28at.com

模型在五個(gè)容量層級(jí)(ViT-1B 至 ViT-7B)上訓(xùn)練,評(píng)估基于 Cambrian-1 基準(zhǔn)測(cè)試,覆蓋通用視覺(jué)理解、知識(shí)推理、OCR 和圖表解讀等 16 個(gè) VQA 任務(wù)。此外,模型無(wú)縫集成于 Hugging Face 的 transformers 庫(kù),便于研究和應(yīng)用。36q28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)揭示了多項(xiàng)關(guān)鍵發(fā)現(xiàn):隨著參數(shù)規(guī)模增加,WebSSL 模型在 VQA 任務(wù)上的表現(xiàn)接近對(duì)數(shù)線性提升,而 CLIP 在超過(guò) 30 億參數(shù)后性能趨于飽和。36q28資訊網(wǎng)——每日最新資訊28at.com

WebSSL 在 OCR 和圖表任務(wù)中表現(xiàn)尤為突出,尤其在數(shù)據(jù)篩選后,僅用 1.3% 的富文本圖像訓(xùn)練即超越 CLIP,在 OCRBench 和 ChartQA 任務(wù)中提升高達(dá) 13.6%。36q28資訊網(wǎng)——每日最新資訊28at.com

36q28資訊網(wǎng)——每日最新資訊28at.com

此外,高分辨率(518px)微調(diào)進(jìn)一步縮小了與 SigLIP 等高分辨率模型的差距,在文檔任務(wù)中表現(xiàn)尤為出色。36q28資訊網(wǎng)——每日最新資訊28at.com

WebSSL 模型在無(wú)語(yǔ)言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語(yǔ)言模型(如 LLaMA-3)的良好對(duì)齊性,表明大規(guī)模視覺(jué)模型能隱式學(xué)習(xí)與文本語(yǔ)義相關(guān)的特征。36q28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),WebSSL 在傳統(tǒng)基準(zhǔn)測(cè)試(如 ImageNet-1k 分類(lèi)、ADE20K 分割)上保持強(qiáng)勁表現(xiàn),部分場(chǎng)景甚至優(yōu)于 MetaCLIP 和 DINOv2。36q28資訊網(wǎng)——每日最新資訊28at.com

附上參考地址36q28資訊網(wǎng)——每日最新資訊28at.com

Scaling Language-Free Visual Representation Learning36q28資訊網(wǎng)——每日最新資訊28at.com

Hugging Face36q28資訊網(wǎng)——每日最新資訊28at.com

GitHub36q28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型:探索 AI 無(wú)語(yǔ)言視覺(jué)學(xué)習(xí),純圖訓(xùn)練媲美 OpenAI CLIP

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: AI 會(huì)有意識(shí)嗎?Anthropic 啟動(dòng)新項(xiàng)目,探索尋求答案

下一篇: 黑洞超輻射:顛覆認(rèn)知的量子奇觀,開(kāi)啟宇宙探索新視角!

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top