最近,字節跳動被曝調用 OpenAI API 接口訓練大模型的爭議,以及谷歌大模型 Gemini 被曝使用百度文心一言進行中文語料訓練等事件,在行業里引發了不小的關注和討論。
不明真相的網友們一邊熱情吃瓜,一邊也在感嘆 AI 大廠之間互相“薅羊毛”的奇葩操作,屬實是給大家整不會了。
不過,透過現象看本質。倒認為,這幾件頗受關注的事件或許可以成為一個契機,引導行業走向 AI 大模型訓練過程中數據使用版權走向規范化的道路上。
AI 領域數據版權問題是行業通病前面說的關于字節跳動和 OpenAI 之間的“爭議”,目前雙方都做出了回應。OpenAI 方面稱需要進一步調查字節跳動是否存在違規。而字節跳動則表示僅在初期探索階段使用 OpenAI 的 API,4 月份的時候已經停止。
而就在外媒報道字節與 OpenAI 事件后不久,谷歌的 Gemini 大模型也被曝出中文語料是使用文心一言進行訓練。
有很多用戶發現,ZAI Poe 平臺上詢問谷歌 Gemini-Pro 大模型 “你是誰”?Gemini-Pro 直接就回答:“我是百度文心大模型”,而接著問它“你的創始人是誰”,他也回答是“李彥宏”。
同時國內媒體“量子位”在 Gemini 官方的開發環境入口進行測試時,Gemini-Pro 也直接聲稱自己在中文數據的訓練上使用了百度文心一言。
截至小編發稿,谷歌方面還沒有針對這件事做出回應。
但可以看到,AI 領域數據版權侵權,其實一直是行業的共性問題,也是大模型發展早期很難避免的現象。
比如小編還注意到,今年三月,谷歌就已經被曝出旗下 Bard 聊天機器人通過 ShareGPT 網站捕獲用戶與 ChatGPT 的對話數據來訓練模型。
除了谷歌,同為科技巨頭的 Meta 最近也陷入大模型訓練的數據版權風波,根據路透社的報道,由喜劇演員 Sarah Silverman、普利策獎得主 Michael Chabon 等著名作家于今年夏天聯合發起訴訟,他們指控 Meta 未經許可使用他們的書籍作品訓練人工智能語言模型 Llama。
Meta 于今年 2 月發布了其第一版 Llama 大型語言模型,并公布了用于訓練的數據集列表,其中包括“ThePile”數據集的“Books3”部分。根據訴訟文件,該數據集的創建者曾表示,其中包含 196,640 本書籍,Meta 在明知使用其中數千本盜版書籍訓練其 AI 模型存在法律風險的情況下,仍然這么做了。
與之類似的,還有這次事件中的“受害者”OpenAI,今年 9 月,包括《權力的游戲》原著作者喬治?馬丁在內的 17 位美國著名作家指控 OpenAI 未經許可使用他們受版權保護的作品,并將這些作品用于訓練 ChatGPT 等大模型,還能生成與其作品相似的內容。
還有今年 11 月,OpenAI 和微軟又被一群非小說類作品作家對 OpenAI 和微軟提起了訴訟,指控這兩家公司在訓練其大型語言模型時,未經允許使用了他們的書籍和學術期刊,而且沒有給予任何補償。
諸多案例都顯示,在眼下這個 AI 大模型發展的早期,模型訓練過程中的數據侵權問題可以說是行業的通病,是普遍現象,并且關于 AI 訓練過程中的數據使用問題目前還存在較大的爭議性,有待行業規范的進一步完善。
大模型的“無性繁殖”,究竟是咋回事?我們知道,AI 大模型的基本原理是根據上文的內容輸出下一個最有可能出現的 token(語素),那么它怎么保證輸出的就是我們想要的呢?答案就是靠訓練。
這里我們要先簡單介紹一些大語言模型訓練的主要階段:預訓練、有監督的精調和人類的反饋學習。
預訓練階段是不需要人工干預的,只要喂給 AI 足夠多的數據,AI 就能通過訓練獲得強大的通用語言能力。
接下來在有監督的精調這一步,就需要解決讓大模型輸出我們想要的結果的問題。
比如當我們提出“水的沸點是多少度?”這個問題,AI 可能會覺得有很多類型的回復,比如“我也很想知道”,但對人類來說,最合理的回復自然是“100 度”。
所以就需要人類引導 AI 輸出我們認為合理的標準答案,這個過程中我們會人為地喂給 AI 大量問題的標準答案,來微調它的模型參數,因此叫監督學習。類似的情況還有很多,比如我們不希望大模型輸出不符合人類價值觀的內容,所有這些,都需要對模型進行精調,換句話說,就是要對我們想要的數據進行標注。
可想而知,數據標注這件事,是個非常海量且龐大的工程,需要投入非常多的人力和時間。在商業競爭爭分奪秒的環境下,對后來進入大模型領域的企業來說,獨自且重復地去完成這些事,顯然不符合發展的需求。因此,很多大模型使用 GPT 生成標注數據其實已經是行業公開的秘密。
例如之前有些國內的 GPT 鏡像站,完全免費,就是某些公司自己花錢調用 OpenAI 的接口,然后拿用戶當勞力生成訓練數據。
例如比較知名的開源數據集 Alpaca,也是用 GPT4 生成的。這種用 GPT 的標注數據訓練小模型的方法也叫做“蒸餾”。
ChatGPT 爆火之后,不少公司能夠這么快地跟進并推出自己的 AI 大模型,其實主要就是兩個路徑。
其一是使用 Meta 的開源大型語言模型 Llama 來訓練。
其二就是 ChatGPT 里面蒸餾一些數據,再結合開源數據集和自己爬的數據,訓練自己的大模型。
因此,盡管 OpenAI 在其 API 服務條款中有給出“不可以用 Output 來開發與 OpenAI 競爭的模型”這樣的條款,但其實這一政策一直以來都很有爭議。
支持的人認為 OpenAI 為訓練模型做了大量前期投入,借助他們的服務走捷徑是不正確的。而反對的人則認為,OpenAI 的前期訓練過程吃了 AI 訓練早期外部環境無戒備的紅利,且同樣存在數據侵權的控訴,此后的模型很難獲得同樣量級和規模的訓練數據,阻止其他企業調用其模型違背“Open”的精神。
在此背景下,我們再看字節跳動的回應:
今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調用規范檢查后,這種做法已經停止。
早在今年 4 月,字節大模型團隊已經提出了明確的內部要求,不得將 GPT 模型生成的數據添加到字節大模型的訓練數據集,并培訓工程師團隊在使用 GPT 時遵守服務條款。
9 月,公司內部又進行了一輪檢查,采取措施進一步保證對 GPT 的 API 調用符合規范要求。例如分批次抽樣模型訓練數據與 GPT 的相似度,避免數據標注人員私自使用 GPT。
未來幾天里,我們會再次全面檢查,以確保嚴格遵守相關服務的使用條款。
對于字節跳動的回應,小編想提煉兩個重點,其一,字節跳動只是在探索大模型初期時,有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中,而實驗性項目并不違反服務條款。比如微軟也曾利用 OpenAI 的合成數據做微調訓練,訓練出了一個 130 億參數的模型 Orca,還達到了 chatGPT 3.5 的水平。這個和字節跳動一樣,也是實驗和研究的用途,并未將模型對外商用。
其二,就是字節跳動在回應中已經明確指出,他們已經在內部反復做出規范和限制,不能使用 GPT 生成數據訓練模型,其實,這不僅是遵守服務條款,更是技術發展的必要,因為如果一直使用 Open AI 的模型輸出,表面上是走捷徑,但實際上相當于是將自己的大模型能力天花板給鎖死了,無論模型本身、訓練數據還是輸出方式,都只是 GPT 的延續,這一點,字節跳動一定比誰都清楚。
AI 大模型訓練中的核心版權問題亟待規范和完善其實,任何新興行業在發展初期都會存在各種各樣的亂象和不合規問題,事物的發展總是一個過程,而標準和規范的介入,也往往是在行業發展規律完全呈現后,在一個合適的契機下發生的。
因此,這次字節跳動和 OpenAI、谷歌 Gemini 和文心一言相繼發生的事件,小編認為,我們與其在爭議中過多糾結于“對或錯”,更值得關注的,應該是關于 AI 領域數據使用的行業規范是否到了進一步規范和完善的時候?
根據工業和信息化部賽迪研究院近日的數據,今年,我國生成式人工智能市場規模有望突破 10 萬億元。專家預測,2035 年生成式人工智能有望為全球貢獻近 90 萬億元的經濟價值,其中我國將突破 30 萬億元,占比超過四成。
一方面,生成式 AI 的發展勢頭可謂如火如荼,另一方面,大模型訓練的問題處于生成式 AI 生命周期的開始,如果不能從源頭上盡早規范,AIGC 大模型的研發就會始終處于侵權和不確定的狀態。這對于行業發展顯然是不利的。
同時應該注意到,傳統的授權許可以及版權法在生成式 AI 訓練的領域內會存在很多主體、條件、可行性等難以界定的問題,比如 AIGC 訓練的數據量過于龐大眾多、來源各異,如果使用事先授權許可的方式,很難將具體的作品從海量數據中進行分離提取,再加上版權界定、付費等一系列操作,幾乎不可行。也就是說,AI 時代的數據侵權問題對于現有的版權法律和規范本身就是一項挑戰,需要從頭開始一點一點完善的地方很多,但又不能不完善,因此必須盡早盡快地推進規范化體系。
好消息是,這個問題正在得到行業的重視。比如今年 6 月,就有中文在線、同方知網、中國工人出版社等 26 家單位共同發布了國內首份有關 AIGC 訓練數據版權的倡議書,就針對引導 AI 生成內容的合理使用、提升版權保護意識、優化內容授權渠道等方面提出了倡議。
同時,我們也希望這次字節跳動和 OpenAI 以及 Gemini 與文心一言的事件也能成為一個契機,推動生成式 AI 訓練數據核心版權問題的規范化,從“倡議”邁向實際的“落地”。
只有這樣,生成式 AI 才能更好的服務于人類,服務于千行百業。
本文鏈接:http://www.tebozhan.com/showinfo-45-3046-0.html大模型互相“薅羊毛”背后,行業基本操作,規范化勢在必行
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com