AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

大模型互相“薅羊毛”背后,行業基本操作,規范化勢在必行

來源: 責編: 時間:2023-12-25 09:33:48 261觀看
導讀 最近,字節跳動被曝調用 OpenAI API 接口訓練大模型的爭議,以及谷歌大模型 Gemini 被曝使用百度文心一言進行中文語料訓練等事件,在行業里引發了不小的關注和討論。不明真相的網友們一邊熱情吃瓜,一邊也在感嘆 AI

最近,字節跳動被曝調用 OpenAI API 接口訓練大模型的爭議,以及谷歌大模型 Gemini 被曝使用百度文心一言進行中文語料訓練等事件,在行業里引發了不小的關注和討論。IB728資訊網——每日最新資訊28at.com

不明真相的網友們一邊熱情吃瓜,一邊也在感嘆 AI 大廠之間互相“薅羊毛”的奇葩操作,屬實是給大家整不會了。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

不過,透過現象看本質。倒認為,這幾件頗受關注的事件或許可以成為一個契機,引導行業走向 AI 大模型訓練過程中數據使用版權走向規范化的道路上。IB728資訊網——每日最新資訊28at.com

AI 領域數據版權問題是行業通病

前面說的關于字節跳動和 OpenAI 之間的“爭議”,目前雙方都做出了回應。OpenAI 方面稱需要進一步調查字節跳動是否存在違規。而字節跳動則表示僅在初期探索階段使用 OpenAI 的 API,4 月份的時候已經停止。IB728資訊網——每日最新資訊28at.com

而就在外媒報道字節與 OpenAI 事件后不久,谷歌的 Gemini 大模型也被曝出中文語料是使用文心一言進行訓練。IB728資訊網——每日最新資訊28at.com

有很多用戶發現,ZAI Poe 平臺上詢問谷歌 Gemini-Pro 大模型 “你是誰”?Gemini-Pro 直接就回答:“我是百度文心大模型”,而接著問它“你的創始人是誰”,他也回答是“李彥宏”。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

同時國內媒體“量子位”在 Gemini 官方的開發環境入口進行測試時,Gemini-Pro 也直接聲稱自己在中文數據的訓練上使用了百度文心一言。IB728資訊網——每日最新資訊28at.com

截至小編發稿,谷歌方面還沒有針對這件事做出回應。IB728資訊網——每日最新資訊28at.com

但可以看到,AI 領域數據版權侵權,其實一直是行業的共性問題,也是大模型發展早期很難避免的現象。IB728資訊網——每日最新資訊28at.com

比如小編還注意到,今年三月,谷歌就已經被曝出旗下 Bard 聊天機器人通過 ShareGPT 網站捕獲用戶與 ChatGPT 的對話數據來訓練模型。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

除了谷歌,同為科技巨頭的 Meta 最近也陷入大模型訓練的數據版權風波,根據路透社的報道,由喜劇演員 Sarah Silverman、普利策獎得主 Michael Chabon 等著名作家于今年夏天聯合發起訴訟,他們指控 Meta 未經許可使用他們的書籍作品訓練人工智能語言模型 Llama。IB728資訊網——每日最新資訊28at.com

Meta 于今年 2 月發布了其第一版 Llama 大型語言模型,并公布了用于訓練的數據集列表,其中包括“ThePile”數據集的“Books3”部分。根據訴訟文件,該數據集的創建者曾表示,其中包含 196,640 本書籍,Meta 在明知使用其中數千本盜版書籍訓練其 AI 模型存在法律風險的情況下,仍然這么做了。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

與之類似的,還有這次事件中的“受害者”OpenAI,今年 9 月,包括《權力的游戲》原著作者喬治?馬丁在內的 17 位美國著名作家指控 OpenAI 未經許可使用他們受版權保護的作品,并將這些作品用于訓練 ChatGPT 等大模型,還能生成與其作品相似的內容。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

還有今年 11 月,OpenAI 和微軟又被一群非小說類作品作家對 OpenAI 和微軟提起了訴訟,指控這兩家公司在訓練其大型語言模型時,未經允許使用了他們的書籍和學術期刊,而且沒有給予任何補償。IB728資訊網——每日最新資訊28at.com

諸多案例都顯示,在眼下這個 AI 大模型發展的早期,模型訓練過程中的數據侵權問題可以說是行業的通病,是普遍現象,并且關于 AI 訓練過程中的數據使用問題目前還存在較大的爭議性,有待行業規范的進一步完善。IB728資訊網——每日最新資訊28at.com

大模型的“無性繁殖”,究竟是咋回事?

我們知道,AI 大模型的基本原理是根據上文的內容輸出下一個最有可能出現的 token(語素),那么它怎么保證輸出的就是我們想要的呢?答案就是靠訓練。IB728資訊網——每日最新資訊28at.com

這里我們要先簡單介紹一些大語言模型訓練的主要階段:預訓練、有監督的精調和人類的反饋學習。IB728資訊網——每日最新資訊28at.com

預訓練階段是不需要人工干預的,只要喂給 AI 足夠多的數據,AI 就能通過訓練獲得強大的通用語言能力。IB728資訊網——每日最新資訊28at.com

接下來在有監督的精調這一步,就需要解決讓大模型輸出我們想要的結果的問題。IB728資訊網——每日最新資訊28at.com

比如當我們提出“水的沸點是多少度?”這個問題,AI 可能會覺得有很多類型的回復,比如“我也很想知道”,但對人類來說,最合理的回復自然是“100 度”。IB728資訊網——每日最新資訊28at.com

所以就需要人類引導 AI 輸出我們認為合理的標準答案,這個過程中我們會人為地喂給 AI 大量問題的標準答案,來微調它的模型參數,因此叫監督學習。類似的情況還有很多,比如我們不希望大模型輸出不符合人類價值觀的內容,所有這些,都需要對模型進行精調,換句話說,就是要對我們想要的數據進行標注。IB728資訊網——每日最新資訊28at.com

可想而知,數據標注這件事,是個非常海量且龐大的工程,需要投入非常多的人力和時間。在商業競爭爭分奪秒的環境下,對后來進入大模型領域的企業來說,獨自且重復地去完成這些事,顯然不符合發展的需求。因此,很多大模型使用 GPT 生成標注數據其實已經是行業公開的秘密。IB728資訊網——每日最新資訊28at.com

例如之前有些國內的 GPT 鏡像站,完全免費,就是某些公司自己花錢調用 OpenAI 的接口,然后拿用戶當勞力生成訓練數據。IB728資訊網——每日最新資訊28at.com

IB728資訊網——每日最新資訊28at.com

例如比較知名的開源數據集 Alpaca,也是用 GPT4 生成的。這種用 GPT 的標注數據訓練小模型的方法也叫做“蒸餾”。IB728資訊網——每日最新資訊28at.com

ChatGPT 爆火之后,不少公司能夠這么快地跟進并推出自己的 AI 大模型,其實主要就是兩個路徑。IB728資訊網——每日最新資訊28at.com

其一是使用 Meta 的開源大型語言模型 Llama 來訓練。IB728資訊網——每日最新資訊28at.com

其二就是 ChatGPT 里面蒸餾一些數據,再結合開源數據集和自己爬的數據,訓練自己的大模型。IB728資訊網——每日最新資訊28at.com

因此,盡管 OpenAI 在其 API 服務條款中有給出“不可以用 Output 來開發與 OpenAI 競爭的模型”這樣的條款,但其實這一政策一直以來都很有爭議。IB728資訊網——每日最新資訊28at.com

支持的人認為 OpenAI 為訓練模型做了大量前期投入,借助他們的服務走捷徑是不正確的。而反對的人則認為,OpenAI 的前期訓練過程吃了 AI 訓練早期外部環境無戒備的紅利,且同樣存在數據侵權的控訴,此后的模型很難獲得同樣量級和規模的訓練數據,阻止其他企業調用其模型違背“Open”的精神。IB728資訊網——每日最新資訊28at.com

在此背景下,我們再看字節跳動的回應:IB728資訊網——每日最新資訊28at.com

今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調用規范檢查后,這種做法已經停止。IB728資訊網——每日最新資訊28at.com

早在今年 4 月,字節大模型團隊已經提出了明確的內部要求,不得將 GPT 模型生成的數據添加到字節大模型的訓練數據集,并培訓工程師團隊在使用 GPT 時遵守服務條款。IB728資訊網——每日最新資訊28at.com

9 月,公司內部又進行了一輪檢查,采取措施進一步保證對 GPT 的 API 調用符合規范要求。例如分批次抽樣模型訓練數據與 GPT 的相似度,避免數據標注人員私自使用 GPT。IB728資訊網——每日最新資訊28at.com

未來幾天里,我們會再次全面檢查,以確保嚴格遵守相關服務的使用條款。IB728資訊網——每日最新資訊28at.com

對于字節跳動的回應,小編想提煉兩個重點,其一,字節跳動只是在探索大模型初期時,有部分工程師將 GPT 的 API 服務應用于較小模型的實驗性項目研究中,而實驗性項目并不違反服務條款。比如微軟也曾利用 OpenAI 的合成數據做微調訓練,訓練出了一個 130 億參數的模型 Orca,還達到了 chatGPT 3.5 的水平。這個和字節跳動一樣,也是實驗和研究的用途,并未將模型對外商用。IB728資訊網——每日最新資訊28at.com

其二,就是字節跳動在回應中已經明確指出,他們已經在內部反復做出規范和限制,不能使用 GPT 生成數據訓練模型,其實,這不僅是遵守服務條款,更是技術發展的必要,因為如果一直使用 Open AI 的模型輸出,表面上是走捷徑,但實際上相當于是將自己的大模型能力天花板給鎖死了,無論模型本身、訓練數據還是輸出方式,都只是 GPT 的延續,這一點,字節跳動一定比誰都清楚。IB728資訊網——每日最新資訊28at.com

AI 大模型訓練中的核心版權問題亟待規范和完善

其實,任何新興行業在發展初期都會存在各種各樣的亂象和不合規問題,事物的發展總是一個過程,而標準和規范的介入,也往往是在行業發展規律完全呈現后,在一個合適的契機下發生的。IB728資訊網——每日最新資訊28at.com

因此,這次字節跳動和 OpenAI、谷歌 Gemini 和文心一言相繼發生的事件,小編認為,我們與其在爭議中過多糾結于“對或錯”,更值得關注的,應該是關于 AI 領域數據使用的行業規范是否到了進一步規范和完善的時候?IB728資訊網——每日最新資訊28at.com

根據工業和信息化部賽迪研究院近日的數據,今年,我國生成式人工智能市場規模有望突破 10 萬億元。專家預測,2035 年生成式人工智能有望為全球貢獻近 90 萬億元的經濟價值,其中我國將突破 30 萬億元,占比超過四成。IB728資訊網——每日最新資訊28at.com

一方面,生成式 AI 的發展勢頭可謂如火如荼,另一方面,大模型訓練的問題處于生成式 AI 生命周期的開始,如果不能從源頭上盡早規范,AIGC 大模型的研發就會始終處于侵權和不確定的狀態。這對于行業發展顯然是不利的。IB728資訊網——每日最新資訊28at.com

同時應該注意到,傳統的授權許可以及版權法在生成式 AI 訓練的領域內會存在很多主體、條件、可行性等難以界定的問題,比如 AIGC 訓練的數據量過于龐大眾多、來源各異,如果使用事先授權許可的方式,很難將具體的作品從海量數據中進行分離提取,再加上版權界定、付費等一系列操作,幾乎不可行。也就是說,AI 時代的數據侵權問題對于現有的版權法律和規范本身就是一項挑戰,需要從頭開始一點一點完善的地方很多,但又不能不完善,因此必須盡早盡快地推進規范化體系。IB728資訊網——每日最新資訊28at.com

好消息是,這個問題正在得到行業的重視。比如今年 6 月,就有中文在線、同方知網、中國工人出版社等 26 家單位共同發布了國內首份有關 AIGC 訓練數據版權的倡議書,就針對引導 AI 生成內容的合理使用、提升版權保護意識、優化內容授權渠道等方面提出了倡議。IB728資訊網——每日最新資訊28at.com

同時,我們也希望這次字節跳動和 OpenAI 以及 Gemini 與文心一言的事件也能成為一個契機,推動生成式 AI 訓練數據核心版權問題的規范化,從“倡議”邁向實際的“落地”。IB728資訊網——每日最新資訊28at.com

只有這樣,生成式 AI 才能更好的服務于人類,服務于千行百業。IB728資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-3046-0.html大模型互相“薅羊毛”背后,行業基本操作,規范化勢在必行

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Galaxy S24 系列旗艦手機將至:發布會曝光 1 月 18 日舉行,主打 AI 功能

下一篇: 美國多所高校聯合研發新型類腦晶體管,可模擬人類大腦思考、記憶

標簽:
  • 熱門焦點
Top