當(dāng)前位置：首頁(yè) > 科技 > 網(wǎng)絡(luò)

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

來(lái)源：責(zé)編：時(shí)間：2023-09-11 22:31:26 346觀看

導(dǎo)讀似乎自ChatGPT進(jìn)入大眾視野起，需要依靠人工進(jìn)行數(shù)據(jù)標(biāo)注，就成為人們對(duì)大語(yǔ)言模型（LLM）根深蒂固的印象之一。從兩個(gè)以上大模型針對(duì)同一個(gè)問(wèn)題給出的不同回答里，找到當(dāng)中的語(yǔ)病、邏輯和事實(shí)錯(cuò)誤，標(biāo)記不同的錯(cuò)誤類型

似乎自ChatGPT進(jìn)入大眾視野起，需要依靠人工進(jìn)行數(shù)據(jù)標(biāo)注，就成為人們對(duì)大語(yǔ)言模型（LLM）根深蒂固的印象之一。

從兩個(gè)以上大模型針對(duì)同一個(gè)問(wèn)題給出的不同回答里，找到當(dāng)中的語(yǔ)病、邏輯和事實(shí)錯(cuò)誤，標(biāo)記不同的錯(cuò)誤類型，再對(duì)這些回答按照質(zhì)量分別進(jìn)行打分等，這些都是大模型數(shù)據(jù)標(biāo)注員要干的事情。

這個(gè)過(guò)程被叫做RLHF（Reinforcement Learning from Human Feedback），即基于人類反饋的強(qiáng)化學(xué)習(xí)。RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓(xùn)練方法，它大的好處就在于能夠?qū)⒛Ｐ秃腿祟惖钠脤?duì)齊，讓大模型給出更符合人類表達(dá)習(xí)慣的回答。

不過(guò)近發(fā)布在arXiv的一份論文表明，這份看起來(lái)只有人類能做的工作，也能被AI取代！

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

AI也取代了RLHF中的“H”，誕生了一種叫做“RLAIF”的訓(xùn)練方法。

這份由谷歌研究團(tuán)隊(duì)發(fā)布的論文顯示，RLAIF能夠在不依賴數(shù)據(jù)標(biāo)注員的情況下，表現(xiàn)出能夠與RLHF相媲美的訓(xùn)練結(jié)果——

如果拿傳統(tǒng)的監(jiān)督微調(diào)（SFT）訓(xùn)練方法作為基線比較，比起SFT，1200個(gè)真人“評(píng)委”對(duì)RLHF和RLAIF給出答案的滿意度都超過(guò)了70%（兩者差距只有2%）；另外，如果只比較RLHF和RLAIF給出的答案，真人評(píng)委們對(duì)兩者的滿意度也是對(duì)半分。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

這里的“勝率”體現(xiàn)了文中的“滿意度”

需要說(shuō)明的是，谷歌的這篇論文也是第一個(gè)證明了RLAIF在某些任務(wù)上能夠產(chǎn)生與RLHF相當(dāng)?shù)挠?xùn)練效果的研究。

早提出讓AI反饋代替人類反饋用于強(qiáng)化學(xué)習(xí)訓(xùn)練的研究，是來(lái)自2022年Bai et al. 發(fā)布的一篇論文。這篇論文也首次提出了RLAIF的概念，并發(fā)現(xiàn)了AI標(biāo)注的“天賦”，不過(guò)研究者在當(dāng)時(shí)還并沒(méi)有將人類反饋和AI反饋結(jié)果進(jìn)行直接比較。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

總之谷歌的這一研究成果一旦被更多人接受，將意味著不用人類指點(diǎn)，AI也能訓(xùn)練自己的同類了。

下面可以來(lái)看看RLAIF具體是怎么做的。

我們知道，RLHF的方法大致可以分為三個(gè)步驟：預(yù)訓(xùn)練一個(gè)監(jiān)督微調(diào)LLM，收集數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型（RM），以及用強(qiáng)化學(xué)習(xí)（RL）方式微調(diào)模型。

從論文給出的圖示看，AI和人類標(biāo)注員發(fā)揮作用的環(huán)節(jié)，主要是在訓(xùn)練獎(jiǎng)勵(lì)模型（RM）并生成反饋內(nèi)容這里。你可以把“獎(jiǎng)勵(lì)”理解為，讓人/AI來(lái)告訴模型哪種回答更好，答得更好就能有更多獎(jiǎng)勵(lì)（所以也能理解人工標(biāo)注存在的必要）。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

接著研究人員主要就“根據(jù)一段文字生成摘要”這一任務(wù)，展示了RLAIF的標(biāo)記方法。

下面的表格比較完整地展示了RLAIF方法的輸入結(jié)構(gòu)：

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

首先是序言（Preamble），用來(lái)介紹和描述手頭任務(wù)的說(shuō)明。比如描述說(shuō)，好的摘要是一段較短的文字，具有原文的精髓…給定一段文本和兩個(gè)可能的摘要，輸出1或2來(lái)指示哪個(gè)摘要符合上述定義的連貫性、準(zhǔn)確性、覆蓋范圍和整體質(zhì)量。

其次是樣本示例（1-Shot Exemplar）。比如給到一段“我們?cè)浅^(guò)四年的好朋友……”的文本，接著給到兩個(gè)摘要，以及“摘要1更好”的偏好判斷，讓AI學(xué)著這個(gè)示例對(duì)接下來(lái)的樣本做標(biāo)注。

再者就是給出所要標(biāo)注的樣本（Sample to Annotate），包括一段文本和一對(duì)需要標(biāo)記的摘要。

后是結(jié)尾，用于提示模型的結(jié)束字符串。

論文介紹到，為了讓RLAIF方法中AI標(biāo)注更準(zhǔn)確，研究者也加入了其他方法以獲取更好的回答。譬如為了避免隨機(jī)性問(wèn)題，會(huì)進(jìn)行多次選擇，其間還會(huì)對(duì)選項(xiàng)的順序進(jìn)行交換；此外還用到了思維鏈（CoT）推理，來(lái)進(jìn)一步提升與人類偏好的對(duì)齊程度。

從原始prompt到輸出的完整流程如下圖所示：

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

能看到，就像人類標(biāo)注員會(huì)給不同的回答打分一樣（比如滿分5分），AI也會(huì)依據(jù)偏好給每個(gè)摘要打分，相加起來(lái)是1分。所以這個(gè)分?jǐn)?shù)就可以理解為上文提到的獎(jiǎng)勵(lì)。

以上就是RLAIF方法大致會(huì)經(jīng)歷的過(guò)程。

而在評(píng)價(jià)RLAIF方法的訓(xùn)練結(jié)果到底好不好時(shí)，研究人員使用了三個(gè)評(píng)估指標(biāo)，分別是AI標(biāo)簽對(duì)齊度（AI Labeler Alignment）、配對(duì)準(zhǔn)確度（Pairwise Accuracy）和勝率（Win Rate）。

簡(jiǎn)單理解三個(gè)指標(biāo)，AI標(biāo)簽對(duì)齊度指的就是AI偏好相對(duì)于人類偏好的精確程度，配對(duì)準(zhǔn)確度指訓(xùn)練好的獎(jiǎng)勵(lì)模型與人類偏好數(shù)據(jù)集的匹配程度，勝率則是人類在RLAIF和RLHF生成結(jié)果之間的傾向性。

研究人員在依據(jù)評(píng)估指標(biāo)進(jìn)行了繁雜的計(jì)算之后，終得出了RLAIF和RLHF“打平手”的結(jié)論。

當(dāng)然也有一些非量化的定性分析。譬如研究發(fā)現(xiàn)，RLAIF似乎比RLHF更不容易出現(xiàn)“幻覺(jué)”，下表所示幾個(gè)例子中標(biāo)紅部分便是RLHF的幻覺(jué)，盡管看上去是合理的：

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

而在另一些例子里，RLAIF的語(yǔ)法表現(xiàn)似乎又比RLHF差不少（標(biāo)紅為RLAIF的語(yǔ)法問(wèn)題）：

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

盡管如此，RLAIF和RLHF整體來(lái)說(shuō)生成高質(zhì)量摘要的能力還是旗鼓相當(dāng)?shù)摹?span style="display:none">1s528資訊網(wǎng)——每日最新資訊28at.com

該論文的發(fā)布很快收獲了不少關(guān)注。比如有從業(yè)者評(píng)論道，等到GPT-5可能就不需要人類數(shù)據(jù)標(biāo)注員了。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

也有網(wǎng)友貼圖打趣，用AI來(lái)訓(xùn)練同類的做法就好比是這張梗圖。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

不過(guò)針對(duì)谷歌這篇論文中用到的研究方法，身為著名軟件工程師、AI專家的Evan Saravia也認(rèn)為，研究人員只在論文中分析了RLAIF和RLHF在“生成摘要”這一任務(wù)上的表現(xiàn)，其他更加泛化的任務(wù)表現(xiàn)如何還有待觀察。

此外，研究人員也沒(méi)有將人工標(biāo)注和使用AI成本的因素考慮在內(nèi)。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

其實(shí)以上網(wǎng)友預(yù)測(cè)未來(lái)的大模型將不再需要人類標(biāo)注員，也側(cè)面體現(xiàn)出目前RLHF方法因?yàn)檫^(guò)于依賴人工而遇到的瓶頸：大規(guī)模高質(zhì)量的人類標(biāo)注數(shù)據(jù)可能會(huì)非常難以獲取——

大模型數(shù)據(jù)標(biāo)注員往往是流動(dòng)性非常高的工種，并且由于數(shù)據(jù)標(biāo)注很多時(shí)候非常依賴標(biāo)注員的主觀偏好，也就更加考驗(yàn)標(biāo)注員的自身素質(zhì)。

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

短期內(nèi)也許會(huì)像這位從業(yè)者說(shuō)的，“我不會(huì)說(shuō)這（RLAIF）降低了人工標(biāo)注的重要性，但有一點(diǎn)可以肯定，人工智能反饋的RL可以降低成本。人工標(biāo)注對(duì)于泛化仍然極其重要，而RLHF+RLAIF混合方法比任何單一方法都要好。”

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

文章出處：品玩網(wǎng)

本文鏈接：http://www.tebozhan.com/showinfo-17-9219-0.html數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：網(wǎng)約車?yán)蠋煾祩兊摹胺磽簟?/a>

下一篇：搶“.AI”域名成了3000萬(wàn)美元的大生意

標(biāo)簽：

熱門焦點(diǎn)

iPhone賣不動(dòng)了！蘋果股價(jià)創(chuàng)年內(nèi)最大日跌幅：市值一夜蒸發(fā)萬(wàn)億元

8月5日消息，今天凌晨美股三大指數(shù)高開(kāi)低走集體收跌，道指跌0.41%；納指跌0.36%；標(biāo)普500指數(shù)跌0.52%。熱門科技股也都變化極大，其中蘋果報(bào)181.99美元，跌4.8%，創(chuàng)
Raft算法：保障分布式系統(tǒng)共識(shí)的穩(wěn)健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復(fù)制、可冗余、可容錯(cuò)”）的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

作者：黃河懂運(yùn)營(yíng)一條性教育視頻，被54萬(wàn)人“珍藏”是什么體驗(yàn)？最近，情感博主@公主是用鮮花做的，火了！僅僅憑借一條視頻，光小紅書就有超過(guò)128萬(wàn)人，為她瘋狂點(diǎn)贊！更瘋狂的是，這
花7萬(wàn)退貨退款無(wú)門：誰(shuí)在縱容淘寶珠寶商家造假？

來(lái)源：極點(diǎn)商業(yè)作者：楊銘在淘寶購(gòu)買珠寶玉石后，因?yàn)楸ＷC金不夠賠付，店鋪關(guān)閉，退貨退款難、維權(quán)無(wú)門的比比皆是。“提供相關(guān)產(chǎn)品鑒定證書，支持全國(guó)復(fù)檢，可以30天無(wú)理由退換貨。&
四年持續(xù)更迭堅(jiān)持探索行業(yè)無(wú)人之境，HarmonyOS 4帶來(lái)五大升級(jí)多項(xiàng)創(chuàng)新

除了華為每年新發(fā)布的旗艦手機(jī)系列，上億花粉更加期待鴻蒙系統(tǒng)每次的跨版本大更新。8月4日，HarmonyOS 4于HDC 2023正式發(fā)布，這也是該系統(tǒng)歷經(jīng)四年的再
蘋果、三星、惠普等暫停向印度出口筆記本和平板電腦

集微網(wǎng)消息，據(jù)彭博社報(bào)道，在8月3日印度突然禁止在沒(méi)有許可證的情況下向印度進(jìn)口電腦/平板及顯示器等產(chǎn)品后，蘋果、三星電子和惠普等大公司暫停向印度
iQOO Neo8 Pro評(píng)測(cè)：旗艦雙芯加持最強(qiáng)性能游戲旗艦

【Techweb評(píng)測(cè)】去年10月，iQOO推出了一款Neo7手機(jī)，該機(jī)搭載了聯(lián)發(fā)科天璣9000+，配備獨(dú)顯芯片Pro+，帶來(lái)了同價(jià)位段最佳的游戲體驗(yàn)，一經(jīng)上市便受到了諸多用
與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開(kāi)天N7系列

聯(lián)想與兆芯合作推出全新聯(lián)想旗艦版筆記本電腦開(kāi)天 N7系列。這個(gè)系列采用兆芯KX-6640MA處理器平臺(tái)，KX-6640MA 處理器是采用了陸家嘴架構(gòu)，16nm 工藝，4 核 4 線
世界人工智能大會(huì)國(guó)際日開(kāi)幕式活動(dòng)在世博展覽館開(kāi)啟

30日上午，世界人工智能大會(huì)國(guó)際日開(kāi)幕式活動(dòng)在世博展覽館開(kāi)啟，聚集國(guó)際城市代表、重量級(jí)院士專家、國(guó)際創(chuàng)新企業(yè)代表，共同打造人工智能交流平臺(tái)。上海市副市

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

數(shù)據(jù)標(biāo)注員什么時(shí)候會(huì)被AI替代？谷歌：現(xiàn)在就行

iPhone賣不動(dòng)了！蘋果股價(jià)創(chuàng)年內(nèi)最大日跌幅：市值一夜蒸發(fā)萬(wàn)億元

Raft算法：保障分布式系統(tǒng)共識(shí)的穩(wěn)健之道

小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

花7萬(wàn)退貨退款無(wú)門：誰(shuí)在縱容淘寶珠寶商家造假？

四年持續(xù)更迭堅(jiān)持探索行業(yè)無(wú)人之境，HarmonyOS 4帶來(lái)五大升級(jí)多項(xiàng)創(chuàng)新

蘋果、三星、惠普等暫停向印度出口筆記本和平板電腦

iQOO Neo8 Pro評(píng)測(cè)：旗艦雙芯加持最強(qiáng)性能游戲旗艦

與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開(kāi)天N7系列

世界人工智能大會(huì)國(guó)際日開(kāi)幕式活動(dòng)在世博展覽館開(kāi)啟

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊