當前位置：首頁 > 元宇宙 > AI

大模型互相“薅羊毛”背后，行業基本操作，規范化勢在必行

來源：責編：時間：2023-12-25 09:33:48 261觀看

導讀最近，字節跳動被曝調用 OpenAI API 接口訓練大模型的爭議，以及谷歌大模型 Gemini 被曝使用百度文心一言進行中文語料訓練等事件，在行業里引發了不小的關注和討論。不明真相的網友們一邊熱情吃瓜，一邊也在感嘆 AI

最近，字節跳動被曝調用 OpenAI API 接口訓練大模型的爭議，以及谷歌大模型 Gemini 被曝使用百度文心一言進行中文語料訓練等事件，在行業里引發了不小的關注和討論。

不明真相的網友們一邊熱情吃瓜，一邊也在感嘆 AI 大廠之間互相“薅羊毛”的奇葩操作，屬實是給大家整不會了。

不過，透過現象看本質。倒認為，這幾件頗受關注的事件或許可以成為一個契機，引導行業走向 AI 大模型訓練過程中數據使用版權走向規范化的道路上。

AI 領域數據版權問題是行業通病

前面說的關于字節跳動和 OpenAI 之間的“爭議”，目前雙方都做出了回應。OpenAI 方面稱需要進一步調查字節跳動是否存在違規。而字節跳動則表示僅在初期探索階段使用 OpenAI 的 API，4 月份的時候已經停止。

而就在外媒報道字節與 OpenAI 事件后不久，谷歌的 Gemini 大模型也被曝出中文語料是使用文心一言進行訓練。

有很多用戶發現，ZAI Poe 平臺上詢問谷歌 Gemini-Pro 大模型 “你是誰”？Gemini-Pro 直接就回答：“我是百度文心大模型”，而接著問它“你的創始人是誰”，他也回答是“李彥宏”。

同時國內媒體“量子位”在 Gemini 官方的開發環境入口進行測試時，Gemini-Pro 也直接聲稱自己在中文數據的訓練上使用了百度文心一言。

截至小編發稿，谷歌方面還沒有針對這件事做出回應。

但可以看到，AI 領域數據版權侵權，其實一直是行業的共性問題，也是大模型發展早期很難避免的現象。

比如小編還注意到，今年三月，谷歌就已經被曝出旗下 Bard 聊天機器人通過 ShareGPT 網站捕獲用戶與 ChatGPT 的對話數據來訓練模型。

除了谷歌，同為科技巨頭的 Meta 最近也陷入大模型訓練的數據版權風波，根據路透社的報道，由喜劇演員 Sarah Silverman、普利策獎得主 Michael Chabon 等著名作家于今年夏天聯合發起訴訟，他們指控 Meta 未經許可使用他們的書籍作品訓練人工智能語言模型 Llama。

Meta 于今年 2 月發布了其第一版 Llama 大型語言模型，并公布了用于訓練的數據集列表，其中包括“ThePile”數據集的“Books3”部分。根據訴訟文件，該數據集的創建者曾表示，其中包含 196,640 本書籍，Meta 在明知使用其中數千本盜版書籍訓練其 AI 模型存在法律風險的情況下，仍然這么做了。

與之類似的，還有這次事件中的“受害者”OpenAI，今年 9 月，包括《權力的游戲》原著作者喬治?馬丁在內的 17 位美國著名作家指控 OpenAI 未經許可使用他們受版權保護的作品，并將這些作品用于訓練 ChatGPT 等大模型，還能生成與其作品相似的內容。

還有今年 11 月，OpenAI 和微軟又被一群非小說類作品作家對 OpenAI 和微軟提起了訴訟，指控這兩家公司在訓練其大型語言模型時，未經允許使用了他們的書籍和學術期刊，而且沒有給予任何補償。

諸多案例都顯示，在眼下這個 AI 大模型發展的早期，模型訓練過程中的數據侵權問題可以說是行業的通病，是普遍現象，并且關于 AI 訓練過程中的數據使用問題目前還存在較大的爭議性，有待行業規范的進一步完善。

大模型的“無性繁殖”，究竟是咋回事？

我們知道，AI 大模型的基本原理是根據上文的內容輸出下一個最有可能出現的 token（語素），那么它怎么保證輸出的就是我們想要的呢？答案就是靠訓練。

這里我們要先簡單介紹一些大語言模型訓練的主要階段：預訓練、有監督的精調和人類的反饋學習。

預訓練階段是不需要人工干預的，只要喂給 AI 足夠多的數據，AI 就能通過訓練獲得強大的通用語言能力。

接下來在有監督的精調這一步，就需要解決讓大模型輸出我們想要的結果的問題。

比如當我們提出“水的沸點是多少度？”這個問題，AI 可能會覺得有很多類型的回復，比如“我也很想知道”，但對人類來說，最合理的回復自然是“100 度”。

所以就需要人類引導 AI 輸出我們認為合理的標準答案，這個過程中我們會人為地喂給 AI 大量問題的標準答案，來微調它的模型參數，因此叫監督學習。類似的情況還有很多，比如我們不希望大模型輸出不符合人類價值觀的內容，所有這些，都需要對模型進行精調，換句話說，就是要對我們想要的數據進行標注。

可想而知，數據標注這件事，是個非常海量且龐大的工程，需要投入非常多的人力和時間。在商業競爭爭分奪秒的環境下，對后來進入大模型領域的企業來說，獨自且重復地去完成這些事，顯然不符合發展的需求。因此，很多大模型使用 GPT 生成標注數據其實已經是行業公開的秘密。

例如之前有些國內的 GPT 鏡像站，完全免費，就是某些公司自己花錢調用 OpenAI 的接口，然后拿用戶當勞力生成訓練數據。

例如比較知名的開源數據集 Alpaca，也是用 GPT4 生成的。這種用 GPT 的標注數據訓練小模型的方法也叫做“蒸餾”。

ChatGPT 爆火之后，不少公司能夠這么快地跟進并推出自己的 AI 大模型，其實主要就是兩個路徑。

其一是使用 Meta 的開源大型語言模型 Llama 來訓練。

其二就是 ChatGPT 里面蒸餾一些數據，再結合開源數據集和自己爬的數據，訓練自己的大模型。

因此，盡管 OpenAI 在其 API 服務條款中有給出“不可以用 Output 來開發與 OpenAI 競爭的模型”這樣的條款，但其實這一政策一直以來都很有爭議。

支持的人認為 OpenAI 為訓練模型做了大量前期投入，借助他們的服務走捷徑是不正確的。而反對的人則認為，OpenAI 的前期訓練過程吃了 AI 訓練早期外部環境無戒備的紅利，且同樣存在數據侵權的控訴，此后的模型很難獲得同樣量級和規模的訓練數據，阻止其他企業調用其模型違背“Open”的精神。

在此背景下，我們再看字節跳動的回應：

今年年初，當技術團隊剛開始進行大模型的初期探索時，有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅為測試，沒有計劃上線，也從未對外使用。在 4 月公司引入 GPT API 調用規范檢查后，這種做法已經停止。

早在今年 4 月，字節大模型團隊已經提出了明確的內部要求，不得將 GPT 模型生成的數據添加到字節大模型的訓練數據集，并培訓工程師團隊在使用 GPT 時遵守服務條款。

9 月，公司內部又進行了一輪檢查，采取措施進一步保證對 GPT 的 API 調用符合規范要求。例如分批次抽樣模型訓練數據與 GPT 的相似度，避免數據標注人員私自使用 GPT。

未來幾天里，我們會再次全面檢查，以確保嚴格遵守相關服務的使用條款。

對于字節跳動的回應，小編想提煉兩個重點，其一，字節跳動只是在探索大模型初期時，有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中，而實驗性項目并不違反服務條款。比如微軟也曾利用 OpenAI 的合成數據做微調訓練，訓練出了一個 130 億參數的模型 Orca，還達到了 chatGPT 3.5 的水平。這個和字節跳動一樣，也是實驗和研究的用途，并未將模型對外商用。

其二，就是字節跳動在回應中已經明確指出，他們已經在內部反復做出規范和限制，不能使用 GPT 生成數據訓練模型，其實，這不僅是遵守服務條款，更是技術發展的必要，因為如果一直使用 Open AI 的模型輸出，表面上是走捷徑，但實際上相當于是將自己的大模型能力天花板給鎖死了，無論模型本身、訓練數據還是輸出方式，都只是 GPT 的延續，這一點，字節跳動一定比誰都清楚。

AI 大模型訓練中的核心版權問題亟待規范和完善

其實，任何新興行業在發展初期都會存在各種各樣的亂象和不合規問題，事物的發展總是一個過程，而標準和規范的介入，也往往是在行業發展規律完全呈現后，在一個合適的契機下發生的。

因此，這次字節跳動和 OpenAI、谷歌 Gemini 和文心一言相繼發生的事件，小編認為，我們與其在爭議中過多糾結于“對或錯”，更值得關注的，應該是關于 AI 領域數據使用的行業規范是否到了進一步規范和完善的時候？

根據工業和信息化部賽迪研究院近日的數據，今年，我國生成式人工智能市場規模有望突破 10 萬億元。專家預測，2035 年生成式人工智能有望為全球貢獻近 90 萬億元的經濟價值，其中我國將突破 30 萬億元，占比超過四成。

一方面，生成式 AI 的發展勢頭可謂如火如荼，另一方面，大模型訓練的問題處于生成式 AI 生命周期的開始，如果不能從源頭上盡早規范，AIGC 大模型的研發就會始終處于侵權和不確定的狀態。這對于行業發展顯然是不利的。

同時應該注意到，傳統的授權許可以及版權法在生成式 AI 訓練的領域內會存在很多主體、條件、可行性等難以界定的問題，比如 AIGC 訓練的數據量過于龐大眾多、來源各異，如果使用事先授權許可的方式，很難將具體的作品從海量數據中進行分離提取，再加上版權界定、付費等一系列操作，幾乎不可行。也就是說，AI 時代的數據侵權問題對于現有的版權法律和規范本身就是一項挑戰，需要從頭開始一點一點完善的地方很多，但又不能不完善，因此必須盡早盡快地推進規范化體系。

好消息是，這個問題正在得到行業的重視。比如今年 6 月，就有中文在線、同方知網、中國工人出版社等 26 家單位共同發布了國內首份有關 AIGC 訓練數據版權的倡議書，就針對引導 AI 生成內容的合理使用、提升版權保護意識、優化內容授權渠道等方面提出了倡議。

同時，我們也希望這次字節跳動和 OpenAI 以及 Gemini 與文心一言的事件也能成為一個契機，推動生成式 AI 訓練數據核心版權問題的規范化，從“倡議”邁向實際的“落地”。

只有這樣，生成式 AI 才能更好的服務于人類，服務于千行百業。

本文鏈接：http://www.tebozhan.com/showinfo-45-3046-0.html大模型互相“薅羊毛”背后，行業基本操作，規范化勢在必行

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Galaxy S24 系列旗艦手機將至：發布會曝光 1 月 18 日舉行，主打 AI 功能

下一篇：美國多所高校聯合研發新型類腦晶體管，可模擬人類大腦思考、記憶

標簽：

熱門焦點

AI界地震！美國對OpenAI展開調查！監管風暴來襲！

來源：清元宇宙還記得5月OpenAI在國會山聽證會上的自信、坦誠、游刃有余的問答嗎？那時的Sam Altman可謂意氣風發，在耐心、友好的國會議員面前，就AI立法、大模型安全性問題侃侃而
虛擬人再升級，企業可以解放雙手了？

來源：伯虎財經今天想跟大家來嘮嘮AI，其實聊到這個話題很多人都不陌生了。在ChatGPT和AIGC大熱背后，還有一位低調的“大佬”——虛擬人。比如咱們熟知的虛
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
字節跳動，剛剛投了一位虛擬女生

今年第一筆虛擬人融資出爐了。投資界獲悉，杭州李未可科技有限公司顯示發生股東變更，新增字節跳動關聯公司北京量子躍動科技有限公司。今天公司方面正式確認，本輪
2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發行齊白石畫作數字藏品；Ripple成為數字歐元協會成員；Gem上線稀有度排名功能；2022 區塊鏈 50 強榜
比特幣的價格越高，使用價值越大

隔夜比特幣還是在精準地橫盤在42k上方。空頭昨日試圖發起一波小的攻勢，但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下，彰顯著市場活躍度的
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

根據市場追蹤網站 DappRadar 的數據，隨著 NFT 的“出圈”與加密貨幣的普及，NFT 市場在 2021 年的銷售額達到約 250 億美元，而 2020 年僅為 9490 萬美元，同比增超 2

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型互相“薅羊毛”背后，行業基本操作，規范化勢在必行

AI界地震！美國對OpenAI展開調查！監管風暴來襲！

虛擬人再升級，企業可以解放雙手了？

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

字節跳動，剛剛投了一位虛擬女生

2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

比特幣的價格越高，使用價值越大

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

最新推薦

《蜘蛛俠》火了，超級英雄就該這么演

【東方證券】虛擬世界照進現實，元宇宙中有什么？ | 元宇宙Meta洞見

“元宇宙第一股”Roblox緣何被資本市場看“低”？

下一個黃金賽道？NFT的碎片化!

頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

猜你喜歡

熱門推薦

相關資訊