2 月 27 日消息,一項由路透社研究所進行的研究表明,截至 2023 年底,全球 10 個國家的熱門新聞網站中,近一半 (48%) 屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一 (24%) 屏蔽了谷歌的 AI 爬蟲。
據了解,該研究所分析了包括紐約時報、BuzzFeed 新聞、華爾街日報、華盛頓郵報、CNN 和 NPR 在內的 15 家覆蓋面最廣的網絡新聞來源的 robots.txt 文件。這些新聞機構來自德國、印度、西班牙、英國和美國等國家,涵蓋傳統印刷媒體、電視廣播公司和數字原生媒體等三種類型。
研究發現,截至 2023 年底,超過一半 (57%) 的傳統印刷媒體網站,例如《紐約時報》,屏蔽了 OpenAI 的爬蟲,相比之下,電視和廣播公司為 48%,數字原生媒體為 31%。同樣,32% 的印刷媒體網站屏蔽了谷歌的爬蟲,而廣播公司和數字原生媒體的比例分別為 19% 和 17%。
與此同時,康奈爾大學最近的一項研究發現,當新型人工智能模型僅使用先前模型而非人類輸入的數據進行訓練時,它們往往會陷入“模型崩潰”或退化,導致生成內容出現更多錯誤和誤導信息。
網站爬蟲被用于多種目的。例如,谷歌的 Googlebot 會抓取發布商網站,將其收錄到搜索結果中。而 OpenAI 的爬蟲 GPTBot 則會在互聯網上收集數據,用于訓練其大型語言模型,例如 ChatGPT。這使人工智能工具能夠生成準確、實時的內容,而新聞發布商尤其擅長提供此類內容:大型語言模型對優質出版商內容的重視程度是其他來源內容的 5 到 100 倍。
該研究還指出,全球北方(Global North,指大多位于北美、歐洲和其他地區的更富裕國家)國家的新聞機構比全球南方(Global South,一般是指包括非洲、拉丁美洲和加勒比地區、太平洋島嶼以及亞洲的發展中國家)國家更傾向于屏蔽人工智能爬蟲。例如,在美國,79% 的熱門在線新聞網站屏蔽了 OpenAI,而在墨西哥和波蘭,這一比例僅為 20%。與此同時,德國 60% 的新聞網站屏蔽了谷歌的爬蟲,而在波蘭和西班牙,這一比例僅為 7%。
研究發現,幾乎所有屏蔽谷歌爬蟲的網站也屏蔽了 OpenAI (97%)。雖然該研究沒有提供確切解釋,但這可能表明 OpenAI 比谷歌更早發布爬蟲有關。
值得注意的是,在大多數國家,一些發布商在爬蟲剛發布時就立即屏蔽了它們。OpenAI 于去年 8 月初啟動了其人工智能爬蟲,谷歌隨后于 9 月份效仿。研究還表明,一旦做出屏蔽決定后,沒有一家網站撤銷對 OpenAI 或谷歌人工智能爬蟲的屏蔽。
本文鏈接:http://www.tebozhan.com/showinfo-45-3502-0.html研究:近一半熱門新聞網站屏蔽了 OpenAI 爬蟲
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com