當(dāng)前位置：首頁 > 科技 > 知識百科

用自洽性提升大模型推理能力，谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題，比GPT-3提升20%

來源：責(zé)編：時間：2023-08-07 16:30:09 287觀看

導(dǎo)讀盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴(kuò)大模型規(guī)模不能解決這個問題。基于此，Wei et al. (2022) 提出了思維提示鏈（chain of though

盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴(kuò)大模型規(guī)模不能解決這個問題。基于此，Wei et al. (2022) 提出了思維提示鏈（chain of thought prompting），提示語言模型生成一系列短句，這些短句模仿一個人在解決推理任務(wù)時可能采用的推理過程。

現(xiàn)在來自 Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，它顯著提高了大型語言模型的推理準(zhǔn)確率。

論文地址：https://arxiv.org/pdf/2203.11171.pdf

該論文的作者之一、Google Brain 的創(chuàng)始成員 Quoc Le 今天在推特上發(fā)文表示：這種自洽方法能夠解決 GSM8K 基準(zhǔn)中 75% 的數(shù)學(xué)問題，大幅超越現(xiàn)有方法。

圖源：https://twitter.com/quocleix/status/1513632492124663808

簡單來說，復(fù)雜的推理任務(wù)通常有多個能得到正確答案的推理路徑，自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑，然后返回其中最自洽的答案。

該方法在一系列算術(shù)和常識推理基準(zhǔn)上評估自洽性，可以穩(wěn)健地提高各種語言模型的準(zhǔn)確性，而無需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語言模型 PaLM-540B 結(jié)合使用時，自洽方法將多個基準(zhǔn)推理任務(wù)的性能提高到 SOTA 水平。

該方法是完全無監(jiān)督的，預(yù)訓(xùn)練語言模型直接可用，不需要額外的人工注釋，也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。

該研究在三種大型語言模型上評估一系列算術(shù)推理和常識推理任務(wù)的自洽性，包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn)，對于這幾種規(guī)模不同的語言模型，自洽方法都能顯著提高其推理能力。與通過貪心解碼（Wei et al., 2022）生成單一思維鏈相比，自洽方法有助于在所有推理任務(wù)中顯著提高準(zhǔn)確性，如下圖 2 所示。

多樣化推理路徑上的自洽

人類的一個突出特征是思維方式不同。人們會很自然地假設(shè)，在需要深思熟慮的任務(wù)中，可能有幾種解決方法，所有這些方法都會得出相同的正確答案。因此，研究者建議可以通過從語言模型解碼器采樣以在語言模型中模擬這一過程。

如下表 1 所示，一個模型可以為一個數(shù)學(xué)問題生成多個可能的回答，這些回答最終得出相同的正確答案（如輸出 2、4 和 5）。由于語言模型不是完美的推理器，模型也可能產(chǎn)生錯誤的推理路徑或者在某一個推理步驟中出錯（例如輸出 1 和 3 中），這種解決方案不太可能得出相同的答案（表 1 中的 26 和 14）。

也就是說，當(dāng)假設(shè)推理過程正確，即使它們是多樣化的，在最終答案中往往比不正確的推理過程具有更高的一致性。

研究者提出通過一種自洽（self-consistency）方法來利用這種直覺。具體步驟如下：

首先，使用一組手動編寫的思維鏈?zhǔn)纠龑φZ言模型進(jìn)行提示；接著，從語言模型的解碼器中采樣一組候選輸出，生成一組不同的候選推理路徑；最后，通過在生成的答案中選擇最自洽的答案來集成結(jié)果。

在實驗調(diào)查中，研究者發(fā)現(xiàn)思維鏈提示與相結(jié)合，會比單獨(dú)使用僅考慮單一生成路徑的思維鏈產(chǎn)生好得多的結(jié)果。

實驗結(jié)果

研究者進(jìn)行了一系列實驗，以在不同的算術(shù)和常識推理基準(zhǔn)上將提出的自洽方法與現(xiàn)有方法進(jìn)行比較。結(jié)果發(fā)現(xiàn)，該方法極大地提高了每種語言模型的推理準(zhǔn)確性，涵蓋了廣泛的模型尺度。

具體地，他們評估了不同推理路徑上的自洽性，即自洽性（多路徑）（Multipath）。結(jié)果取 10 次運(yùn)行的平均值，在每次運(yùn)行中獨(dú)立于解碼器對 40 個輸出進(jìn)行采樣。比較的基線是貪心解碼單個思想鏈，稱為貪心解碼（Single-path），之前已被用于大型語言模型中的解碼。

算術(shù)推理結(jié)果如下表 2 所示。對于 LaMDA-137B，自洽性策略在每個任務(wù)上較貪心解碼（Single-path）均實現(xiàn)了顯著的性能提升，在 AddSub、ASDiv、AQuA 和 GSM8K 任務(wù)上獲得接近 10% 絕對準(zhǔn)確率提升，在 MultiArith 和 SVAMP 任務(wù)上分別提升了 23.9% 和 14.4%。

對于更大的 PaLM540B 模型，自洽性策略顯著提升性能，在 ASDiv、AQuA、SVAMP 和 GSM8K 上實現(xiàn)了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。

常識推理結(jié)果如下表 3 所示。對于 LaMDA-137B 模型，自洽性策略顯著提升所有任務(wù)的準(zhǔn)確率，其中 StrategyQA 和 CommonsenseQA 的絕對準(zhǔn)確率提升了 2%-5%，ARC easy set 和 ARC challenge set 的絕對準(zhǔn)確率分別提升了 4.0% 和 4.7%。

同樣地，更大的 PaLM540B 模型也實現(xiàn)了持續(xù)收益，StrategyQA 上提升了 6.3%，ARC-challenge 上提升了 3.5%。

下圖 3 中通過對來自解碼器的不同數(shù)量的推理路徑進(jìn)行采樣，展示了自洽性與貪心解碼（Single-path）的性能比較。可以看到，采樣更多數(shù)量（如 40 個）的推理路徑始終會產(chǎn)生更好的性能，再次強(qiáng)調(diào)了在推理路徑中引入多樣性的重要性。

該研究將自洽方法和基于集成的方法進(jìn)行小樣本學(xué)習(xí)來比較二者的性能。結(jié)果如下表 5 所示，與自洽方法相比，基于集成的方法獲得的增益要小得多。

另一種提高生成質(zhì)量的常用方法是采樣排序（sample-and-rank），其中從解碼器中采樣多個序列，然后根據(jù)每個序列的對數(shù)概率或基于額外訓(xùn)練的重排序器進(jìn)行排序。

該研究使用 GPT-3 模型得到了如下圖 4 所示的結(jié)果。雖然采樣排序方法通過額外的采樣序列和排序提高了準(zhǔn)確性，但與自洽方法相比，增益要小得多。

更多細(xì)節(jié)內(nèi)容請參閱論文原文。

本文鏈接：http://www.tebozhan.com/showinfo-119-2270-0.html用自洽性提升大模型推理能力，谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題，比GPT-3提升20%

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：飛機(jī)“黑匣子”數(shù)據(jù)緣何上云難？

下一篇：裁員、收縮、過冬，云計算怎么了？

標(biāo)簽：

熱門焦點(diǎn)

K8S | Service服務(wù)發(fā)現(xiàn)

一、背景在微服務(wù)架構(gòu)中，這里以開發(fā)環(huán)境「Dev」為基礎(chǔ)來描述，在K8S集群中通常會開放：路由網(wǎng)關(guān)、注冊中心、配置中心等相關(guān)服務(wù)，可以被集群外部訪問；圖片對于測試「Tes」環(huán)境或者
WebRTC.Net庫開發(fā)進(jìn)階，教你實現(xiàn)屏幕共享和多路復(fù)用！

WebRTC.Net庫：讓你的應(yīng)用更親民友好，實現(xiàn)視頻通話無痛接入！除了基本用法外，還有一些進(jìn)階用法可以更好地利用該庫。自定義 STUN/TURN 服務(wù)器配置WebRTC.Net 默認(rèn)使用 Google 的
中國家電海外掘金正當(dāng)時｜出海專題

作者｜吳南南編輯｜胡展嘉運(yùn)營｜陳佳慧出品｜零態(tài)LT（ID：LingTai_LT）2023年，出海市場戰(zhàn)況空前，中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌，以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外，他們依
騰訊VS網(wǎng)易，最卷游戲暑期檔，誰能笑到最后？

作者：無銹缽來源：財經(jīng)無忌7月16日晚，上海1862時尚藝術(shù)中心。伴隨著幻象的精準(zhǔn)命中，碩大的熒幕之上，比分被定格在了14：12，被寄予厚望的EDG戰(zhàn)隊以絕對的優(yōu)勢戰(zhàn)勝了BLG戰(zhàn)隊，拿下了總決
ESG的面子與里子

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之三伏大幕拉起，各地高溫預(yù)警不絕，但處于厄爾尼諾大“烤”之下的除了眾生，還有各大企業(yè)發(fā)布的ESG報告。ESG是“環(huán)境保
國行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價7499元起

2023年8月3日，三星電子舉行Galaxy新品中國發(fā)布會，正式在國內(nèi)推出了新一代折疊屏智能手機(jī)三星Galaxy Z Fold5與Galaxy Z Flip5，以及三星Galaxy Tab S9
2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

5月23日，iQOO如期舉行了新品發(fā)布會，除了首發(fā)安卓最強(qiáng)旗艦處理器的iQOO Neo8系列新機(jī)外，還在發(fā)布會上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣
最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

2022年1月份在國際消費(fèi)電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現(xiàn)在已經(jīng)可以購買了，這款筆記本電腦被譽(yù)為世界上最薄的 14 英寸游戲筆
英特爾Xe HPG游戲顯卡：擁有512EU，單風(fēng)扇版本

據(jù)10 月 30 日外媒 TheVerge 消息報道，英特爾 Xe HPG Arc Alchemist 的正面實被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風(fēng)扇版本。另外，這款顯卡 PCB

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

用自洽性提升大模型推理能力，谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題，比GPT-3提升20%

K8S | Service服務(wù)發(fā)現(xiàn)

WebRTC.Net庫開發(fā)進(jìn)階，教你實現(xiàn)屏幕共享和多路復(fù)用！

中國家電海外掘金正當(dāng)時｜出海專題

騰訊VS網(wǎng)易，最卷游戲暑期檔，誰能笑到最后？

ESG的面子與里子

國行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價7499元起

2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

英特爾Xe HPG游戲顯卡：擁有512EU，單風(fēng)扇版本

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊