AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 科技  > 網(wǎng)絡(luò)

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

來源: 責(zé)編: 時間:2023-09-11 22:31:26 282觀看
導(dǎo)讀 似乎自ChatGPT進(jìn)入大眾視野起,需要依靠人工進(jìn)行數(shù)據(jù)標(biāo)注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。從兩個以上大模型針對同一個問題給出的不同回答里,找到當(dāng)中的語病、邏輯和事實(shí)錯誤,標(biāo)記不同的錯誤類型

似乎自ChatGPT進(jìn)入大眾視野起,需要依靠人工進(jìn)行數(shù)據(jù)標(biāo)注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。mPD28資訊網(wǎng)——每日最新資訊28at.com

從兩個以上大模型針對同一個問題給出的不同回答里,找到當(dāng)中的語病、邏輯和事實(shí)錯誤,標(biāo)記不同的錯誤類型,再對這些回答按照質(zhì)量分別進(jìn)行打分等,這些都是大模型數(shù)據(jù)標(biāo)注員要干的事情。mPD28資訊網(wǎng)——每日最新資訊28at.com

這個過程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強(qiáng)化學(xué)習(xí)。RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓(xùn)練方法,它大的好處就在于能夠?qū)⒛P秃腿祟惖钠脤R,讓大模型給出更符合人類表達(dá)習(xí)慣的回答。mPD28資訊網(wǎng)——每日最新資訊28at.com

不過近發(fā)布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代!mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

AI也取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓(xùn)練方法。mPD28資訊網(wǎng)——每日最新資訊28at.com

這份由谷歌研究團(tuán)隊(duì)發(fā)布的論文顯示,RLAIF能夠在不依賴數(shù)據(jù)標(biāo)注員的情況下,表現(xiàn)出能夠與RLHF相媲美的訓(xùn)練結(jié)果——mPD28資訊網(wǎng)——每日最新資訊28at.com

如果拿傳統(tǒng)的監(jiān)督微調(diào)(SFT)訓(xùn)練方法作為基線比較,比起SFT,1200個真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

這里的“勝率”體現(xiàn)了文中的“滿意度”mPD28資訊網(wǎng)——每日最新資訊28at.com

需要說明的是,谷歌的這篇論文也是第一個證明了RLAIF在某些任務(wù)上能夠產(chǎn)生與RLHF相當(dāng)?shù)挠?xùn)練效果的研究。mPD28資訊網(wǎng)——每日最新資訊28at.com

早提出讓AI反饋代替人類反饋用于強(qiáng)化學(xué)習(xí)訓(xùn)練的研究,是來自2022年Bai et al. 發(fā)布的一篇論文。這篇論文也首次提出了RLAIF的概念,并發(fā)現(xiàn)了AI標(biāo)注的“天賦”,不過研究者在當(dāng)時還并沒有將人類反饋和AI反饋結(jié)果進(jìn)行直接比較。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

總之谷歌的這一研究成果一旦被更多人接受,將意味著不用人類指點(diǎn),AI也能訓(xùn)練自己的同類了。mPD28資訊網(wǎng)——每日最新資訊28at.com

下面可以來看看RLAIF具體是怎么做的。mPD28資訊網(wǎng)——每日最新資訊28at.com

我們知道,RLHF的方法大致可以分為三個步驟:預(yù)訓(xùn)練一個監(jiān)督微調(diào)LLM,收集數(shù)據(jù)訓(xùn)練一個獎勵模型(RM),以及用強(qiáng)化學(xué)習(xí)(RL)方式微調(diào)模型。mPD28資訊網(wǎng)——每日最新資訊28at.com

從論文給出的圖示看,AI和人類標(biāo)注員發(fā)揮作用的環(huán)節(jié),主要是在訓(xùn)練獎勵模型(RM)并生成反饋內(nèi)容這里。你可以把“獎勵”理解為,讓人/AI來告訴模型哪種回答更好,答得更好就能有更多獎勵(所以也能理解人工標(biāo)注存在的必要)。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

接著研究人員主要就“根據(jù)一段文字生成摘要”這一任務(wù),展示了RLAIF的標(biāo)記方法。mPD28資訊網(wǎng)——每日最新資訊28at.com

下面的表格比較完整地展示了RLAIF方法的輸入結(jié)構(gòu):mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

首先是序言(Preamble),用來介紹和描述手頭任務(wù)的說明。比如描述說,好的摘要是一段較短的文字,具有原文的精髓…給定一段文本和兩個可能的摘要,輸出1或2來指示哪個摘要符合上述定義的連貫性、準(zhǔn)確性、覆蓋范圍和整體質(zhì)量。mPD28資訊網(wǎng)——每日最新資訊28at.com

其次是樣本示例(1-Shot Exemplar)。比如給到一段“我們曾是超過四年的好朋友……”的文本,接著給到兩個摘要,以及“摘要1更好”的偏好判斷,讓AI學(xué)著這個示例對接下來的樣本做標(biāo)注。mPD28資訊網(wǎng)——每日最新資訊28at.com

再者就是給出所要標(biāo)注的樣本(Sample to Annotate),包括一段文本和一對需要標(biāo)記的摘要。mPD28資訊網(wǎng)——每日最新資訊28at.com

后是結(jié)尾,用于提示模型的結(jié)束字符串。mPD28資訊網(wǎng)——每日最新資訊28at.com

論文介紹到,為了讓RLAIF方法中AI標(biāo)注更準(zhǔn)確,研究者也加入了其他方法以獲取更好的回答。譬如為了避免隨機(jī)性問題,會進(jìn)行多次選擇,其間還會對選項(xiàng)的順序進(jìn)行交換;此外還用到了思維鏈(CoT)推理,來進(jìn)一步提升與人類偏好的對齊程度。mPD28資訊網(wǎng)——每日最新資訊28at.com

從原始prompt到輸出的完整流程如下圖所示:mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

能看到,就像人類標(biāo)注員會給不同的回答打分一樣(比如滿分5分),AI也會依據(jù)偏好給每個摘要打分,相加起來是1分。所以這個分?jǐn)?shù)就可以理解為上文提到的獎勵。mPD28資訊網(wǎng)——每日最新資訊28at.com

以上就是RLAIF方法大致會經(jīng)歷的過程。mPD28資訊網(wǎng)——每日最新資訊28at.com

而在評價(jià)RLAIF方法的訓(xùn)練結(jié)果到底好不好時,研究人員使用了三個評估指標(biāo),分別是AI標(biāo)簽對齊度(AI Labeler Alignment)、配對準(zhǔn)確度(Pairwise Accuracy)和勝率(Win Rate)。mPD28資訊網(wǎng)——每日最新資訊28at.com

簡單理解三個指標(biāo),AI標(biāo)簽對齊度指的就是AI偏好相對于人類偏好的精確程度,配對準(zhǔn)確度指訓(xùn)練好的獎勵模型與人類偏好數(shù)據(jù)集的匹配程度,勝率則是人類在RLAIF和RLHF生成結(jié)果之間的傾向性。mPD28資訊網(wǎng)——每日最新資訊28at.com

研究人員在依據(jù)評估指標(biāo)進(jìn)行了繁雜的計(jì)算之后,終得出了RLAIF和RLHF“打平手”的結(jié)論。mPD28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)然也有一些非量化的定性分析。譬如研究發(fā)現(xiàn),RLAIF似乎比RLHF更不容易出現(xiàn)“幻覺”,下表所示幾個例子中標(biāo)紅部分便是RLHF的幻覺,盡管看上去是合理的:mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

而在另一些例子里,RLAIF的語法表現(xiàn)似乎又比RLHF差不少(標(biāo)紅為RLAIF的語法問題):mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

盡管如此,RLAIF和RLHF整體來說生成高質(zhì)量摘要的能力還是旗鼓相當(dāng)?shù)摹?span style="display:none">mPD28資訊網(wǎng)——每日最新資訊28at.com

該論文的發(fā)布很快收獲了不少關(guān)注。比如有從業(yè)者評論道,等到GPT-5可能就不需要人類數(shù)據(jù)標(biāo)注員了。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

也有網(wǎng)友貼圖打趣,用AI來訓(xùn)練同類的做法就好比是這張梗圖。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

不過針對谷歌這篇論文中用到的研究方法,身為著名軟件工程師、AI專家的Evan Saravia也認(rèn)為,研究人員只在論文中分析了RLAIF和RLHF在“生成摘要”這一任務(wù)上的表現(xiàn),其他更加泛化的任務(wù)表現(xiàn)如何還有待觀察。mPD28資訊網(wǎng)——每日最新資訊28at.com

此外,研究人員也沒有將人工標(biāo)注和使用AI成本的因素考慮在內(nèi)。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

其實(shí)以上網(wǎng)友預(yù)測未來的大模型將不再需要人類標(biāo)注員,也側(cè)面體現(xiàn)出目前RLHF方法因?yàn)檫^于依賴人工而遇到的瓶頸:大規(guī)模高質(zhì)量的人類標(biāo)注數(shù)據(jù)可能會非常難以獲取——mPD28資訊網(wǎng)——每日最新資訊28at.com

大模型數(shù)據(jù)標(biāo)注員往往是流動性非常高的工種,并且由于數(shù)據(jù)標(biāo)注很多時候非常依賴標(biāo)注員的主觀偏好,也就更加考驗(yàn)標(biāo)注員的自身素質(zhì)。mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com

短期內(nèi)也許會像這位從業(yè)者說的,“我不會說這(RLAIF)降低了人工標(biāo)注的重要性,但有一點(diǎn)可以肯定,人工智能反饋的RL可以降低成本。人工標(biāo)注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。”mPD28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行mPD28資訊網(wǎng)——每日最新資訊28at.com


文章出處:品玩網(wǎng)

本文鏈接:http://www.tebozhan.com/showinfo-17-9219-0.html數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 網(wǎng)約車?yán)蠋煾祩兊摹胺磽簟?/a>

下一篇: 搶“.AI”域名 成了3000萬美元的大生意

標(biāo)簽:
  • 熱門焦點(diǎn)
Top