據南華早報和彭博(Bloomberg)報道,深度求索(DeepSeek)與清華大學研究人員合作,開發出一種新的強化學習技術。該技術能夠降低AI模型的訓練成本,同時提升其性能。
研究人員發布了一篇論文,詳細探討了如何通過延長推理時間來改善大型語言模型(LLM)的回答準確度。在減少運算資源消耗的同時,這一技術能夠提供更加貼近人類需求的答案。目前,大多數主流AI模型采用強化學習方法,通過模型與環境的交互以及獎勵機制來完成學習。
在此次研究中,DeepSeek和清華大學設計出一種名為DeepSeek-GRM(生成式獎勵模型;Generative Reward Modeling)的技術。該技術基于點狀生成式獎勵模型(pointwise generative reward modeling),能夠以統一的方式評估模型的回應。此外,研究人員還提出了一種名為SPCT(Self-Principled Critique Tuning)的訓練方法,使DeepSeek-GRM能夠針對特定查詢和回應自動提出相應原則,并依據這些原則進行評估。
研究結果顯示,DeepSeek-GRM在多項基準測試中表現出色,相較于傳統獎勵模型,其偏差更小。DeepSeek表示,DeepSeek-GRM模型將進行開源發布。
值得一提的是,DeepSeek此前推出的基礎模型V3和推理模型R1曾引發科技界的廣泛關注。據路透(Reuters)援引知情人士的消息,下一代推理模型R2可能會比原定的5月更早發布,其程序設計能力將大幅提升。
本文鏈接:http://www.tebozhan.com/showinfo-27-142479-0.htmlDeepSeek聯合清華大學推出AI模型訓練新技術,將開源發布
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: Cassava計劃在非洲部署1.2萬顆GPU,攜手NVIDIA共建AI工廠
下一篇: 漢翔首季接單超85億,積極開拓民用航空市場
標簽: