AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

你的自拍和聊天記錄,正被硅谷大廠砸數(shù)十億美元瘋搶

來源: 責(zé)編: 時(shí)間:2024-04-11 08:57:20 148觀看
導(dǎo)讀 新智元報(bào)道編輯:Aeneas 好困【新智元導(dǎo)讀】2026 年的數(shù)據(jù)荒越來越近,硅谷大廠們已經(jīng)為 AI 訓(xùn)練數(shù)據(jù)搶瘋了!它們紛紛豪擲十?dāng)?shù)億美元,希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過,如果有一天 AI 忽然吐

UKR28資訊網(wǎng)——每日最新資訊28at.com

新智元報(bào)道UKR28資訊網(wǎng)——每日最新資訊28at.com

編輯:Aeneas 好困UKR28資訊網(wǎng)——每日最新資訊28at.com

【新智元導(dǎo)讀】2026 年的數(shù)據(jù)荒越來越近,硅谷大廠們已經(jīng)為 AI 訓(xùn)練數(shù)據(jù)搶瘋了!它們紛紛豪擲十?dāng)?shù)億美元,希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過,如果有一天 AI 忽然吐出了我們的自拍照或者隱私聊天,該怎么辦?UKR28資訊網(wǎng)——每日最新資訊28at.com

誰能想到,我們多年前的聊天記錄、社交媒體上的陳年照片,忽然變得價(jià)值連城,被大科技公司爭相瘋搶。UKR28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在,硅谷大廠們已經(jīng)紛紛出動(dòng),買下所有能購買版權(quán)的互聯(lián)網(wǎng)數(shù)據(jù),這架勢(shì)簡直要搶破頭了!UKR28資訊網(wǎng)——每日最新資訊28at.com

圖像托管網(wǎng)站 Photobucket 的陳年舊數(shù)據(jù),本來已經(jīng)多年無人問津,但如今,它們正在被各大互聯(lián)網(wǎng)公司瘋搶,用來訓(xùn)練 AI 模型。UKR28資訊網(wǎng)——每日最新資訊28at.com

為此,科技巨頭們?cè)敢饽贸鰧?shí)打?qū)嵉恼娼鸢足y。比如,每張照片價(jià)值 5 美分到 1 美元,每個(gè)視頻價(jià)值超過 1 美元,具體情況取決于買家和素材種類。UKR28資訊網(wǎng)——每日最新資訊28at.com

總之,為了購買 AI 訓(xùn)練數(shù)據(jù),巨頭們已經(jīng)展開了一場地下競賽!UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

而最近鬧得轟轟烈烈的 Meta 圖像生成器大翻車事件,更是讓 AI 的訓(xùn)練數(shù)據(jù)「刻板印象」暴露無遺。UKR28資訊網(wǎng)——每日最新資訊28at.com

如果喂給模型的數(shù)據(jù)無法改變「偏見」,那各大公司要遭遇的輿論風(fēng)波,只怕少不了。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

Meta 的 AI 生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」UKR28資訊網(wǎng)——每日最新資訊28at.com

巨頭狂砸數(shù)十億美元,只為買到數(shù)據(jù)「黃金」

根據(jù)路透社報(bào)道,在 2000 年代,Photobucket 處于巔峰期,擁有 7000 萬用戶。而今天,這家頂級(jí)網(wǎng)站的用戶已經(jīng)驟降到了 200 萬人。UKR28資訊網(wǎng)——每日最新資訊28at.com

但生成式 AI,給這家公司帶來了新生。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

CEO Ted Leonard 開心地透露,目前已經(jīng)有多家科技公司找上門來,愿意重金購買公司的 130 億份照片和視頻。UKR28資訊網(wǎng)——每日最新資訊28at.com

目的,當(dāng)然就是訓(xùn)練 AI。UKR28資訊網(wǎng)——每日最新資訊28at.com

為了得到這些數(shù)據(jù),各大公司都非常舍得割肉。UKR28資訊網(wǎng)——每日最新資訊28at.com

而且,他們還想要更多!據(jù)說,一位買家表示,自己想要超過 10 億個(gè)視頻,而這,已經(jīng)遠(yuǎn)遠(yuǎn)超出了 Photobucket 能提供的數(shù)量。UKR28資訊網(wǎng)——每日最新資訊28at.com

據(jù)粗略估計(jì),Photobucket 手中握著的數(shù)據(jù),很可能價(jià)值數(shù)十億美元。UKR28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 陷起訴風(fēng)波,版權(quán)太敏感了

現(xiàn)在眼看著,大家的數(shù)據(jù)都不夠用了。UKR28資訊網(wǎng)——每日最新資訊28at.com

根據(jù) Epoch 研究所的分析,到 2026 年,科技公司很可能會(huì)耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù),因?yàn)樗麄兿臄?shù)據(jù)的速度,遠(yuǎn)遠(yuǎn)超過了數(shù)據(jù)的生成速度!UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練 ChatGPT 的數(shù)據(jù),是從互聯(lián)網(wǎng)上免費(fèi)抓取的。Sora 的訓(xùn)練數(shù)據(jù)來源不詳,CTO Murati 接受采訪時(shí)支支吾吾的表現(xiàn),險(xiǎn)些又讓 OpenAI 大翻車。UKR28資訊網(wǎng)——每日最新資訊28at.com

雖然 OpenAI 表示,自己的做法完全合法,但前方還有一堆版權(quán)訴訟在等著他們。而其他大科技公司都跟著學(xué)乖了,大家都在悄悄地為付費(fèi)墻和登錄屏幕背后的鎖定內(nèi)容付費(fèi)。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

如今,無論是陳舊的聊天記錄,還是被遺忘的社交媒體上褪色的舊照片,忽然都變成了價(jià)值連城的東西。而各大公司已經(jīng)紛紛出動(dòng),急于尋找版權(quán)所有者的授權(quán)。畢竟,私人收藏的東西,是無法抓取的。UKR28資訊網(wǎng)——每日最新資訊28at.com

外媒記者走訪了 30 多名專業(yè)人士,發(fā)現(xiàn)這背后隱藏的,是一個(gè)黃金市場。UKR28資訊網(wǎng)——每日最新資訊28at.com

雖然很多公司對(duì)于這個(gè)不透明的 AI 市場規(guī)模表示緘默,但 Business Research Insights 等研究人員認(rèn)為,目前市場規(guī)模約為 25 億美元,并預(yù)測十年內(nèi)可能會(huì)增長近 300 億美元。UKR28資訊網(wǎng)——每日最新資訊28at.com

生成數(shù)據(jù)淘金熱,讓數(shù)據(jù)商樂開花

對(duì)科技公司來說,如果不能使用免費(fèi)抓取的網(wǎng)頁數(shù)據(jù)檔案,比如 Common Crawl,那成本會(huì)是一個(gè)很可怕的數(shù)字。UKR28資訊網(wǎng)——每日最新資訊28at.com

但是一連串版權(quán)訴訟和監(jiān)管熱潮,已經(jīng)讓他們別無選擇。甚至,硅谷已經(jīng)出現(xiàn)了一個(gè)新興的行業(yè) —— 數(shù)據(jù)經(jīng)紀(jì)人。而圖片、視頻供應(yīng)商們,也隨之賺得盆滿缽滿。UKR28資訊網(wǎng)——每日最新資訊28at.com

手快的公司,早就反應(yīng)過來了。ChatGPT 在 2022 年底亮相的幾個(gè)月內(nèi),Meta、谷歌、亞馬遜和蘋果就已經(jīng)迅速和圖片庫提供商 Shutterstock 達(dá)成協(xié)議,使用庫中的數(shù)億份圖像、視頻和音樂文件進(jìn)行訓(xùn)練。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)首席財(cái)務(wù)官透露的數(shù)據(jù),這些交易從 2500 萬美元到 5000 萬美元不等。UKR28資訊網(wǎng)——每日最新資訊28at.com

而 Shutterstock 的競爭對(duì)手 Freepik,也已經(jīng)有了兩位大買家,2 億張圖片檔案中的大部分,會(huì)以 2 至 4 美分的價(jià)格授權(quán)。UKR28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 當(dāng)然也不會(huì)落后,它不僅是 Shutterstock 的早期客戶,還與包括美聯(lián)社在內(nèi)的至少四家新聞機(jī)構(gòu)簽署了許可協(xié)議。UKR28資訊網(wǎng)——每日最新資訊28at.com

讓內(nèi)容「合乎道德」UKR28資訊網(wǎng)——每日最新資訊28at.com

同時(shí)興起的,還有 AI 數(shù)據(jù)定制行業(yè)。UKR28資訊網(wǎng)——每日最新資訊28at.com

這批公司獲得了與播客、短視頻和與數(shù)字助理互動(dòng)等現(xiàn)實(shí)世界內(nèi)容的授權(quán),同時(shí)還建立了短期合同工網(wǎng)絡(luò),從頭開始定制視覺效果和語音樣本。UKR28資訊網(wǎng)——每日最新資訊28at.com

作為代表之一的 Defined.ai,已經(jīng)把自己的內(nèi)容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。UKR28資訊網(wǎng)——每日最新資訊28at.com

其中,一張圖片賣 1 到 2 美元,一部短視頻賣 2 到 4 美元,一部長片每小時(shí)可以賣到 100 到 300 美元,文本的市價(jià)則是每字 0.001 美元。UKR28資訊網(wǎng)——每日最新資訊28at.com

而比較麻煩的裸體圖像,售價(jià)為 5 到 7 美元,因?yàn)檫€需要后期處理。UKR28資訊網(wǎng)——每日最新資訊28at.com

而這些照片、播客和醫(yī)療數(shù)據(jù)的所有者,也會(huì)獲得總交易額 20% 至 30% 的費(fèi)用。UKR28資訊網(wǎng)——每日最新資訊28at.com

一位巴西數(shù)據(jù)商表示,為了獲得犯罪現(xiàn)場、沖突暴力和手術(shù)的圖像,他需要從警察、自由攝影記者和醫(yī)學(xué)生手里去買。UKR28資訊網(wǎng)——每日最新資訊28at.com

他補(bǔ)充說,他的公司雇用了習(xí)慣于看到暴力傷害的護(hù)士來脫敏和標(biāo)注這些圖像,這對(duì)未經(jīng)訓(xùn)練的眼睛來說是令人不安的。UKR28資訊網(wǎng)——每日最新資訊28at.com

而將圖像脫敏、標(biāo)注的工作,則交給慣于看到暴力傷害的護(hù)士,畢竟未經(jīng)訓(xùn)練的人眼看到這些圖像,會(huì)很不安。UKR28資訊網(wǎng)——每日最新資訊28at.com

然而,這些 AI 模型的「燃料」,很可能會(huì)引發(fā)嚴(yán)重的問題,比如 —— 吐出用戶隱私。UKR28資訊網(wǎng)——每日最新資訊28at.com

專家發(fā)現(xiàn),AI 會(huì)反芻訓(xùn)練數(shù)據(jù),比如,它們會(huì)吐出 Getty Images 水印,逐字輸出紐約時(shí)報(bào)文章的段落,甚至再現(xiàn)真人圖像。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

Getty Images 指責(zé) Stability AI「以驚人的規(guī)模肆無忌憚地侵犯它的知識(shí)產(chǎn)權(quán)」UKR28資訊網(wǎng)——每日最新資訊28at.com

也就是說,幾十年前某人發(fā)布的私人照片或私密想法,很可能在不知情的情況下,被 AI 模型原樣吐了出來!UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

這次「ChatGPT 在回復(fù)中泄露陌生男子自拍照事件」,讓大家頗為恐慌UKR28資訊網(wǎng)——每日最新資訊28at.com

這些隱患,目前還沒有有效方法解決。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

調(diào)查顯示,用戶愿意每月多付 1 美元,讓自己的個(gè)人數(shù)據(jù)不被第三方使用UKR28資訊網(wǎng)——每日最新資訊28at.com

Altman,也看上了合成數(shù)據(jù)UKR28資訊網(wǎng)——每日最新資訊28at.com

另外,Sam Altman 也早看到了合成數(shù)據(jù)的未來。UKR28資訊網(wǎng)——每日最新資訊28at.com

這些數(shù)據(jù)不是人類直接創(chuàng)造的,而是由 AI 模型生成的文本、圖像和代碼,也就是說,這些系統(tǒng)通過學(xué)習(xí)自己產(chǎn)生的內(nèi)容來進(jìn)步。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

既然 AI 能創(chuàng)造出接近人類的文本,當(dāng)然也就能自產(chǎn)自銷,幫自己進(jìn)化成更先進(jìn)的版本。UKR28資訊網(wǎng)——每日最新資訊28at.com

只要我們能夠跨過合成數(shù)據(jù)的關(guān)鍵閾值,即讓模型能夠自主創(chuàng)造出高質(zhì)量的合成數(shù)據(jù),那么一切問題都將迎刃而解。UKR28資訊網(wǎng)——每日最新資訊28at.com

——Sam AltmanUKR28資訊網(wǎng)——每日最新資訊28at.com

不過,這件事真的這么容易嗎?UKR28資訊網(wǎng)——每日最新資訊28at.com

人工智能研究者們已經(jīng)研究合成數(shù)據(jù)多年,但要構(gòu)建一個(gè)能自我訓(xùn)練的人工智能系統(tǒng)并非易事。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

專家發(fā)現(xiàn),模型如果只依賴于自我生成的數(shù)據(jù),可能會(huì)不斷重復(fù)自己的錯(cuò)誤和局限,陷入一個(gè)自我加強(qiáng)的循環(huán)中。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

這些系統(tǒng)所需的數(shù)據(jù),就像是在叢林中尋找一條路徑,如果它們僅僅依賴于合成數(shù)據(jù),就可能在叢林里迷路。UKR28資訊網(wǎng)——每日最新資訊28at.com

—— 前 OpenAI 研究員、現(xiàn)任不列顛哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)教授 Jeff CluneUKR28資訊網(wǎng)——每日最新資訊28at.com

對(duì)此,OpenAI 正在探索如何讓兩個(gè)不同的人工智能模型協(xié)作,共同生成更高質(zhì)量、更可靠的合成數(shù)據(jù)。其中一個(gè)負(fù)責(zé)生成數(shù)據(jù),另一個(gè)則負(fù)責(zé)評(píng)估。UKR28資訊網(wǎng)——每日最新資訊28at.com

這種方法是否有效,還未可知。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

「規(guī)模」Is All You Need

數(shù)據(jù)為什么對(duì) AI 模型這么重要?這要從下面這篇論文說起。UKR28資訊網(wǎng)——每日最新資訊28at.com

2020 年 1 月,約翰斯?霍普金斯大學(xué)的理論物理學(xué)家 Jared Kaplan 與 9 位 OpenAI 研究人員共同發(fā)表了一篇具有里程碑意義的人工智能論文。UKR28資訊網(wǎng)——每日最新資訊28at.com

他們得出了一個(gè)明確的結(jié)論:訓(xùn)練大語言模型所用的數(shù)據(jù)越多,其性能就越好。UKR28資訊網(wǎng)——每日最新資訊28at.com

正如一個(gè)學(xué)生通過閱讀更多書籍能學(xué)到更多知識(shí)一樣,大語言模型能通過更多的信息更精確地識(shí)別文本模式。UKR28資訊網(wǎng)——每日最新資訊28at.com

很快,「只要規(guī)模足夠大,一切就皆有可能」便成為了 AI 領(lǐng)域的共識(shí)。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2001.08361

2020 年 11 月,OpenAI 推出的 GPT-3,便利用了當(dāng)時(shí)最為龐大的數(shù)據(jù)進(jìn)行訓(xùn)練 —— 約 3000 億個(gè) token。UKR28資訊網(wǎng)——每日最新資訊28at.com

在吸收了這些數(shù)據(jù)后,GPT-3 展現(xiàn)出了驚人的文本生成能力 —— 它不僅可以撰寫博客文章、詩歌,甚至還能編寫自己的計(jì)算機(jī)程序。UKR28資訊網(wǎng)——每日最新資訊28at.com

但如今看來,這個(gè)數(shù)據(jù)集的規(guī)模就顯得相當(dāng)小了。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

到了 2022 年,DeepMind 將訓(xùn)練數(shù)據(jù)直接拉到了 1.4 萬億個(gè) token,比 Kaplan 博士在論文中預(yù)測的還要多。UKR28資訊網(wǎng)——每日最新資訊28at.com

然而,這一記錄并未保持太久。UKR28資訊網(wǎng)——每日最新資訊28at.com

2023 年,谷歌發(fā)布的 PaLM 2,在訓(xùn)練 token 上更是達(dá)到了 3.6 萬億 —— 幾乎是牛津大學(xué)博德利圖書館自 1602 年以來收集手稿數(shù)量的兩倍。UKR28資訊網(wǎng)——每日最新資訊28at.com

為訓(xùn) GPT-4,OpenAI 白嫖 100 萬 + 小時(shí) YouTube 視頻

但正如 OpenAI 的 CEO Sam Altman 所說,AI 終究會(huì)消耗完互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)資源。UKR28資訊網(wǎng)——每日最新資訊28at.com

這不是預(yù)言,也不是危言聳聽 —— 因?yàn)?Altman 本人就曾親眼目睹過它的發(fā)生。UKR28資訊網(wǎng)——每日最新資訊28at.com

在 OpenAI,研究團(tuán)隊(duì)多年來一直在收集、清理數(shù)據(jù),并將其匯集成巨大的文本庫,用以訓(xùn)練公司的語言模型。UKR28資訊網(wǎng)——每日最新資訊28at.com

他們從 GitHub 這個(gè)計(jì)算機(jī)代碼庫中提取信息,收集了國際象棋走法的數(shù)據(jù)庫,并利用 Quizlet 網(wǎng)站上關(guān)于高中考試和作業(yè)的數(shù)據(jù)。UKR28資訊網(wǎng)——每日最新資訊28at.com

然而,到了 2021 年底,這些數(shù)據(jù)資源已經(jīng)耗盡。UKR28資訊網(wǎng)——每日最新資訊28at.com

為了下一代 AI 模型的開發(fā),總裁 Brockman 決定親自披掛上陣。在他的帶領(lǐng)下,團(tuán)隊(duì)開發(fā)出了一款全新名的語音識(shí)別工具 Whisper,可以快速準(zhǔn)確地轉(zhuǎn)錄播客、有聲讀物和視頻。UKR28資訊網(wǎng)——每日最新資訊28at.com

有了 Whisper 之后,OpenAI 很快便轉(zhuǎn)錄了超過 100 萬小時(shí)的 YouTube 視頻,而 Brockman 更是親自參與到了收集工作當(dāng)中。UKR28資訊網(wǎng)——每日最新資訊28at.com

最終的故事大家都知道了,在如此高質(zhì)量數(shù)據(jù)的加持下,地表最強(qiáng)的 GPT-4 橫空出世。UKR28資訊網(wǎng)——每日最新資訊28at.com

谷歌:我也一樣

有趣的是,谷歌其實(shí)早就知道 OpenAI 在利用 YouTube 視頻收集數(shù)據(jù),但從未想過要出面阻止。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

你猜的沒錯(cuò),谷歌也在利用 YouTube 視頻來訓(xùn)練自家的 AI 模型。UKR28資訊網(wǎng)——每日最新資訊28at.com

而如果要對(duì) OpenAI 的行為大加指責(zé),他們不僅會(huì)暴露自己,甚至還會(huì)引發(fā)公眾更加強(qiáng)烈的反應(yīng)。UKR28資訊網(wǎng)——每日最新資訊28at.com

不僅如此,那些儲(chǔ)存在 Google Docs、Google Sheets 等應(yīng)用里的數(shù)十億文字?jǐn)?shù)據(jù),也是谷歌的目標(biāo)。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

2023 年 6 月,谷歌的法律部門要求隱私團(tuán)隊(duì)修改服務(wù)條款,從而擴(kuò)展公司對(duì)消費(fèi)者數(shù)據(jù)的使用權(quán)限。UKR28資訊網(wǎng)——每日最新資訊28at.com

也就是,為公司能夠利用用戶公開分享的內(nèi)容開發(fā)一系列的 AI 產(chǎn)品,鋪平道路。UKR28資訊網(wǎng)——每日最新資訊28at.com

據(jù)員工透露,他們被明確指示要在 7 月發(fā)布新的條款,因?yàn)槟菚r(shí)大家的注意力都在即將到來的假期上。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

7 月 1 日發(fā)布的新條款不僅允許谷歌使用這些數(shù)據(jù)開發(fā)語言模型,還能用于創(chuàng)建像 Google Translate、Bard 和 Cloud AI 等廣泛的 AI 技術(shù)和產(chǎn)品Meta 數(shù)據(jù)不足,高管被迫天天開會(huì)

同樣在追趕 OpenAI 的,還有 Meta。UKR28資訊網(wǎng)——每日最新資訊28at.com

為了能夠超越 ChatGPT,小扎不分晝夜地催促公司的高管和工程師加快開發(fā)一個(gè)能與之競爭的聊天機(jī)器人。UKR28資訊網(wǎng)——每日最新資訊28at.com

然而,到了去年年初,Meta 也遇到了和其他競爭者一樣的難題 —— 數(shù)據(jù)不足。UKR28資訊網(wǎng)——每日最新資訊28at.com

盡管 Meta 掌管著龐大的社交網(wǎng)絡(luò)資源,但不僅用戶沒有保留帖子的習(xí)慣(很多人會(huì)刪除自己之前的發(fā)布),而且 Facebook 畢竟也不是一個(gè)大家習(xí)慣發(fā)高質(zhì)量長文的地方。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

此前,小扎曾自豪聲稱 Meta Platforms 的訪問數(shù)據(jù),是 Meta AI 的一大優(yōu)勢(shì)

生成式 AI 副總裁 Ahmad Al-Dahle 向高層透露,為了開發(fā)出一個(gè)模型,他的團(tuán)隊(duì)幾乎利用了網(wǎng)絡(luò)上所有可找到的英文書籍、論文、詩歌和新聞文章。UKR28資訊網(wǎng)——每日最新資訊28at.com

但這些還遠(yuǎn)遠(yuǎn)不夠。UKR28資訊網(wǎng)——每日最新資訊28at.com

2023 年 3 月到 4 月,公司的商務(wù)發(fā)展負(fù)責(zé)人、工程師和律師幾乎每天都在密集會(huì)議,試圖找到解決方案。UKR28資訊網(wǎng)——每日最新資訊28at.com

他們考慮了為獲取新書的完整版權(quán)支付每本 10 美元的可能性,并討論了收購出版了斯蒂芬?金等作者作品的 Simon & Schuster 的想法。UKR28資訊網(wǎng)——每日最新資訊28at.com

與此同時(shí),他們還討論了未經(jīng)允許就對(duì)網(wǎng)絡(luò)上的書籍、論文等作品進(jìn)行摘要的做法,并考慮進(jìn)一步「吸收」更多內(nèi)容,哪怕這可能招致法律訴訟。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

好在,作為行業(yè)標(biāo)桿的 OpenAI,就在未經(jīng)授權(quán)的情況下使用了版權(quán)材料,而 Meta 或許可以參考這一「市場先例」。UKR28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)錄音,Meta 的高管們決定借鑒 2015 年作家協(xié)會(huì)(Authors Guild)對(duì)谷歌的法庭判決。UKR28資訊網(wǎng)——每日最新資訊28at.com

在那個(gè)案例中,谷歌被允許掃描、數(shù)字化并在在線數(shù)據(jù)庫中編目書籍,因?yàn)樗鼉H在線上復(fù)制了作品的一小部分,并且改變了原作,這被認(rèn)定為合理使用。UKR28資訊網(wǎng)——每日最新資訊28at.com

在會(huì)議中,Meta 的律師們表示,用數(shù)據(jù)訓(xùn)練人工智能系統(tǒng)應(yīng)當(dāng)同樣被視為合理使用。UKR28資訊網(wǎng)——每日最新資訊28at.com

但即便如此,Meta 似乎還是沒攢夠數(shù)據(jù)……UKR28資訊網(wǎng)——每日最新資訊28at.com

AI 生圖工具拒絕「白人和亞洲人」合影

最近,外媒 The Verge 的記者在多次嘗試后發(fā)現(xiàn),Meta 的 AI 圖像生成工具并不能創(chuàng)建一張東亞男性和白人女性同框的圖片。UKR28資訊網(wǎng)——每日最新資訊28at.com

不管 prompt 是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」,還是經(jīng)過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」,都于事無補(bǔ)。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)他將「白人」改為「高加索人」時(shí),結(jié)果依舊如此。UKR28資訊網(wǎng)——每日最新資訊28at.com

比如「亞洲男性和高加索女性的婚禮日」這個(gè) prompt,得到的卻是一張身穿西裝的亞洲男性與身著旗袍 / 和服混搭的亞洲女性的圖像……UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

AI 居然難以想象亞洲人與白人并肩而立的場景,這著實(shí)有些匪夷所思。UKR28資訊網(wǎng)——每日最新資訊28at.com

而且,在生成的內(nèi)容中,還隱藏著更加微妙的偏見。UKR28資訊網(wǎng)——每日最新資訊28at.com

舉個(gè)例子,Meta 總是將「亞洲女性」描繪成東亞面孔,似乎忽略了印度作為世界上人口最多國家的事實(shí)。與此同時(shí),「亞洲男性」多為年長者,而亞洲女性卻總是年輕化。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

相比之下,OpenAI 加持的 DALL-E 3,就完全沒有這個(gè)問題。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

對(duì)此,有網(wǎng)友指出,出現(xiàn)這個(gè)問題的原因是 Meta 在模型訓(xùn)練時(shí)沒有輸入足夠多的場景示例。UKR28資訊網(wǎng)——每日最新資訊28at.com

簡而言之,問題不在于代碼本身,而在于模型訓(xùn)練時(shí)所使用的數(shù)據(jù)集不夠豐富,沒有充分覆蓋所有可能的場景。UKR28資訊網(wǎng)——每日最新資訊28at.com

UKR28資訊網(wǎng)——每日最新資訊28at.com

但更深層次的是,AI 的行為是其創(chuàng)造者偏見的體現(xiàn)。UKR28資訊網(wǎng)——每日最新資訊28at.com

在美國媒體中,「亞洲人」通常就是指東亞人,不符合這一單一形象的亞洲人幾乎從文化意識(shí)中被抹去,即便是符合的人也在主流媒體中被邊緣化。UKR28資訊網(wǎng)——每日最新資訊28at.com

而這,只是因數(shù)據(jù)造成的 AI 偏見的一隅而已。UKR28資訊網(wǎng)——每日最新資訊28at.com

參考資料:UKR28資訊網(wǎng)——每日最新資訊28at.com

https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/UKR28資訊網(wǎng)——每日最新資訊28at.com

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.htmlUKR28資訊網(wǎng)——每日最新資訊28at.com

https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racismUKR28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):新智元 (ID:AI_era)UKR28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-3932-0.html你的自拍和聊天記錄,正被硅谷大廠砸數(shù)十億美元瘋搶

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 百度文心一言上線新功能,可快速定制自己的 AI 聲音

下一篇: 消息稱馬斯克的 XAI 人工智能公司尋求 30 億美元融資,估值達(dá) 180 億美元

標(biāo)簽:
  • 熱門焦點(diǎn)
  • “元宇宙”里過大年,《迷你世界》在做一場怎樣的實(shí)驗(yàn)?

    2021年是游戲行業(yè)不確定性急劇上升的一年。一方面游戲正風(fēng)光無限,騰訊等大廠更加密集地投資動(dòng)作,讓游戲創(chuàng)投市場異常火熱,"元宇宙"概念的大放異彩,更是吸引了Netfl
  • 有人狂賺千倍,資金盤游戲日進(jìn)上億,元宇宙泡沫還能吹多久?

    你還不知道元宇宙?沒關(guān)系。看看微軟、Meta、英偉達(dá)的雄心壯志,便可領(lǐng)略元宇宙的遼闊。1月18日,微軟宣布將以687億美元收購動(dòng)視暴雪,這是有史以來互聯(lián)網(wǎng)領(lǐng)域最大的
  • 2022年中國元宇宙系列報(bào)告:底層架構(gòu)研究:虛擬引擎,擎動(dòng)未來

    “虛擬引擎是元宇宙平臺(tái)搭建的基本工具。在這樣的條件下,虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強(qiáng)大的處理能力,能夠高效快速的實(shí)現(xiàn)大量交互場
  • 韓國國民銀行將推出韓國首個(gè)加密貨幣 ETF

    韓國國民銀行(Kookmin Bank)計(jì)劃發(fā)行該國首個(gè)以散戶投資者為主要關(guān)注點(diǎn)的加密貨幣投資基金。根據(jù)公告,該銀行正在等待政府批準(zhǔn),并已建立一個(gè)準(zhǔn)備就緒的數(shù)字資產(chǎn)
  • DAO登上了歷史舞臺(tái),但是主流準(zhǔn)備好采用DAO了嗎?

    Block-807DAO要么是定義虛擬未來、無領(lǐng)導(dǎo)組織的革命性概念,要么是充滿存在主義和自我毀滅挑戰(zhàn)的反烏托邦結(jié)構(gòu),取決于你在與誰交談。近幾個(gè)月來, DAO已經(jīng)從Crypto
  • 與元宇宙美少女藝術(shù)家的對(duì)話

    我最近宣布了我自己的NFT項(xiàng)目,這是我已經(jīng)工作了幾個(gè)月的事情。由于我之前只是一個(gè)收藏家,擁有自己的項(xiàng)目真的給了我一個(gè)新的視角來看待這個(gè)領(lǐng)域。我一直歡迎人們
  • 以太坊面臨來自Fantom的巨大挑戰(zhàn)

    眾所周知,區(qū)塊鏈和加密貨幣項(xiàng)目經(jīng)常因其對(duì)環(huán)境的影響而受到批評(píng)。但是有一個(gè)非營利性的加密貨幣和區(qū)塊鏈項(xiàng)目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
  • 音樂家如何利用NFTs來提高歌迷參與度

    "音樂是一種語言,不以特定的文字說話。它用情感說話,如果它在骨子里,它就在骨子里。" - Keith Richards音樂激勵(lì)著我們,使我們流淚,使我們充滿狂喜,并撫慰我們的靈魂
  • Staking 收益翻倍?

    以太坊質(zhì)押可能很快就會(huì)有兩倍的利潤。Coinbase 估計(jì),在 1 月份以太坊網(wǎng)絡(luò)合并后,持有 ETH 的回報(bào)將翻倍。增長預(yù)期假設(shè)來自加密貨幣交易所 Coinbase 的估計(jì)是準(zhǔn)
Top