當前位置：首頁 > 元宇宙 > AI

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術可糾正自己幻覺，數學 99.2 分刷爆測試集

來源：責編：時間：2024-09-11 16:25:24 75觀看

導讀開源大模型王座突然易主，居然來自一家小創業團隊，瞬間引爆業界。新模型名為 Reflection 70B，使用一種全新訓練技術，讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。比如最近流行的數 r 測試中，一開始它犯了和大多數

開源大模型王座突然易主，居然來自一家小創業團隊，瞬間引爆業界。

新模型名為 Reflection 70B，使用一種全新訓練技術，讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。

比如最近流行的數 r 測試中，一開始它犯了和大多數模型一樣的錯誤，但主動在 <反思> 標簽中糾正了自己。

在官方評測中，70B 模型全面超越最強開源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特別是數學基準 GSM8K 上直接刷爆，得分 99.2%。

這個結果也讓 OpenAI 科學家、德撲 AI 之父 Noam Brown 激情開麥：

GSM8K 得分 99%！是不是可以正式淘汰這個基準了？

模型剛剛上線網友就把試玩擠爆了，對此 Meta 還主動支援了更多算力。

在網友測試中，Reflection 70B 能回答對 GSM8K 數據集中本身答案錯誤的問題：

我向模型提供了 GSM8K 中存在的 5 個“ground_truth”本身就不正確的問題。

模型沒有重復數據集中的錯誤答案，而是全部回答對了，這很令人印象深刻，表明那 99.2% 的準確率并非來自于記憶測試集！

數各種 r 都不在話下，連生造詞“drirrrngrrrrrnnn”中有幾個 r 也能被正確數對。

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝，現在最強開源模型可以在本地運行了。

關鍵 70B 還只是個開始，官方表示下周還會發布更大的 Reflection 405B。

預計 405B 性能將大幅優于 Sonnet 和 GPT-4o。

Reflection 70B 權重已公開，API 訪問將于今天晚些時候由 Hyperbolic Labs 提供。

模型能自我反思糾正錯誤

目前關于 Reflection 70B 的更多細節如下。

Reflection 70B 能力提升的關鍵，是采用了一種名為 Reflection-Tuning 的訓練方法，它能夠讓模型反思自己生成的文本，在最終確定回應前檢測并糾正自身推理中的錯誤。

訓練中的數據來自使用 GlaiveAI 平臺生成的合成數據。

Reflection 70B 基于 Llama 3.1 70B Instruct，可以使用與其它 Llama 模型相同的代碼、pipeline 等從 Reflection Llama-3.1 70B 進行采樣。

它甚至使用了標準的 Llama 3.1 聊天格式。

不過，Reflection 70B 引入了一些特殊 tokens，結構化輸出過程。

如下面這個例子所展示的，規劃過程分為一個獨立的步驟，這樣做可以提高 CoT 效果，并保持輸出精煉：

模型將從在 <thinking> 和 </thinking> 標簽內輸出推理開始，一旦對其推理感到滿意，就會在 <output> 和 </output > 標簽內輸出最終答案。

所以它能夠將其內部思考和推理與最終答案分離。

在 <thinking> 部分，模型可能會輸出一個或多個，這表明模型發現了其推理中的錯誤，并將在提供最終答案之前嘗試糾正該錯誤。

系統提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query insidetags, and then provide your final response insidetags. If you detect that you made a mistake in your reasoning at any point, correct yourself insidetags.

（你是一個世界級人工智能系統，能夠進行復雜的推理和反思。在標簽內對查詢進行推理，然后在標簽內提供你的最終回應。如果你發現自己在任何時候推理出錯，請在標簽內糾正自己。）

此外值得一提的是，基準測試中，所有基準都已通過 LMSys 的 LLM Decontaminator 檢查污染，隔離了 <output> 部分，并單獨對這一部分進行測試。

使用 Reflection 70B 的時候，官方還分享了小 tips：

初步建議參數 temperature 為.7 ，top_p 為.95

為提高準確性，最好附加“Think carefully.”在 Prompt 末尾

官方還表示，下周會發布一份報告，詳細介紹模型訓練過程和發現。

Agent 創業團隊打造

Reflection 70B 的背后是一支小團隊，由 HyperWriteAI 的 CEO Mutt Shumer 帶領。

領英顯示，Mutt Shumer 是一位連續創業者，畢業于美國錫拉丘茲大學，現任 OthersideAI 的聯合創始人兼 CEO。

OthersideAI 是一家 AI 應用公司，致力于通過大規模 AI 系統開發全球最先進的自動補全工具，也是 HyperWrite 的幕后公司。

HyperWrite 是一個瀏覽器操作 agent，可以像人一樣操作谷歌瀏覽器來完成一系列任務，比如訂披薩：

和 gpt-llm-trainer 一樣，你只需要用文字描述目標，它就會一邊列步驟，一邊執行。

剛推出時號稱“比 AutoGPT 強”。

HyperWrite 還可以在谷歌擴展程序中安裝。

另外，Mutt Shumer 高中時期就創立了 Visos，致力于開發用于醫療用途的下一代虛擬現實軟件。

還創立了 FURI，這是一家旨在通過創造高性能產品并以公平的價格銷售它們來顛覆體育用品行業的公司。

雖然有 Meta 支持，但目前打開試玩，還是：暫時無法訪問。

感興趣的童鞋可以先碼住了～

https://reflection-playground-production.up.railway.app/

參考鏈接：

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166

[3]https://x.com/polynoamial/status/1831798985528635806

[4]https://x.com/degeneratoor/status/1831809610451448196

[5]https://x.com/kimmonismus/status/1831772661296345333

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風，原標題：《開源大模型新王干翻 GPT-4o，新技術可糾正自己幻覺，數學 99.2 分刷爆測試集》

本文鏈接：http://www.tebozhan.com/showinfo-45-6971-0.html開源大模型新王 Reflection 70B 超越 GPT-4o：新技術可糾正自己幻覺，數學 99.2 分刷爆測試集

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：業內首個 AI 大模型供應鏈安全國際標準發布，螞蟻集團、微軟、谷歌、百度等數十家單位共同編制

下一篇：重磅揭曉！中國企業500強全名單出爐，誰將登頂榜單引領風騷？

標簽：

熱門焦點

風口已至，多領域平臺融入社交元素！

在眾多領域平臺中，社交元素都扮演著重要角色，如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨，社交產品不斷升級，社交元素推動流量變現，多平臺領域融入社交
在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規模預訓GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規模預訓練模型（大模型）漸漸成為了AI算法領域的熱點。AI產業鏈：從算力到應用工作流程視角?
避坑指南：遠離具有這些特性的NFT

關于NFT，在我們的文章中一直以來都是常駐嘉賓，不止因為NFT背后隱藏的潛力，更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手，OpenSea、庫里、ERC115、視覺中國、
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
中國銀保監管委提示：謹慎投資，勿做接盤俠

中國銀保監管委，發布一則風險提示，內容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名
新款英特爾芯片將使NFT鑄造變得更加方便

科技巨頭和微處理器制造商英特爾（Intel）正在發布一款適用于 NFT 鑄造和挖礦的新芯片。新產品專注于效率、易操作性和可持續性，該公司的戰略是從加密興起與 NFT爆
NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

引言：NFT Insider由WHALE社區、BeepCrypto聯合出品，濃縮每周NFT新聞，為大家帶來關于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數據，藝術新聞類，游戲
融資千萬美元的元宇宙平臺UGC到底是什么？

據獲悉，全球化元宇宙社交平臺BUD Technologies, Inc.（以下簡稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創投領投，老股東源碼資本、GGV紀源資本、云九資

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術可糾正自己幻覺，數學 99.2 分刷爆測試集

風口已至，多領域平臺融入社交元素！

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

避坑指南：遠離具有這些特性的NFT

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

中國銀保監管委提示：謹慎投資，勿做接盤俠

新款英特爾芯片將使NFT鑄造變得更加方便

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

融資千萬美元的元宇宙平臺UGC到底是什么？

最新推薦

智能人機交互技術的春晚大考

紐約街頭出現NFT自動販賣機

與元宇宙美少女藝術家的對話

知識產權可能在元宇宙中“消失”？

從4個方面解析2022年加密行業趨勢

技術賦能，國內首家寵物元宇宙平臺“Pet Meta”開啟虛擬養寵新方式

猜你喜歡

熱門推薦

相關資訊