當前位置：首頁 > 科技 > 軟件

四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用

來源：責編：時間：2024-01-08 17:10:36 225觀看

導讀無需微調，只要四行代碼就能讓大模型窗口長度暴增，最高可增加3倍！而且是“即插即用”，理論上可以適配任意大模型，目前已在Mistral和Llama2上試驗成功。有了這項技術，大模型（LargeLM）就能搖身一變，成為LongLM。近日，來自得克薩斯

無需微調，只要四行代碼就能讓大模型窗口長度暴增，最高可增加3倍！

而且是“即插即用”，理論上可以適配任意大模型，目前已在Mistral和Llama2上試驗成功。

有了這項技術，大模型（LargeLM）就能搖身一變，成為LongLM。

近日，來自得克薩斯農工大學等機構的華人學者們發布了全新的大模型窗口擴展方法SelfExtended（簡稱SE）。

在Mistral上，研究者在24k長度的文本中隨機插入5位數字讓模型搜索，結果經SE處理后，呈現出了全綠（通過）的測試結果。

而未經處理的版本，在6k長度時就已經開始“見紅”了。

圖片

GitHub Copilot主創Alex Graveley也激動地宣布，在Llama2上進行的實驗同樣取得了成功。

圖片

在網友的進一步詢問之下，Alex解釋了推文中“work”的具體含義：原先在4k長度時就會出現的噪聲，現在已經消失了。

圖片

而對于SE窗口長度的極限，一位根據論文復現SE代碼的大佬表示，理論上（只要算力足夠）可以達到無限長。

圖片

那么，SE具體能達到什么樣的效果呢？

長文本能力顯著增強

在窗口長度從4096增長到16384的過程中，Llama 2的困惑度從一開始變飆升了兩個數量級。

但使用SE后，文本長度變成了原來的4倍，困惑度卻只增加了0.4。

而在Mistral上，SE比Mistral自身采用的滑動窗口（SWA）機制帶來了更低的困惑度。

圖片

△左下圖使用對數坐標

在專為長文本模型設計的LongBench數據集中，SE處理后的模型在單/多文檔問答、總結、少樣本學習、代碼等任務中，評分均相比起原始版本有所提升。

特別是在一個名為SOLAR的模型上，處理后的模型在16k長度下的表現比原始版本在4k長度下的表現還要優異。

SOLAR由兩個羊駝掐頭去尾拼接而成，這種拼接的方式，使得其注意力層結構與其他基于Transformer的模型形成了一定差異。

同時，在GSM等由考試題組成的閉域問答任務中，SE優化后的模型也都相比原始版本取得了更高的平均成績，在Mistral上稍遜于其自身的SWA方法。

圖片

而長文本能力的增強，并沒有帶來模型在短文本上的能力下降。

在HuggingFace的OpenLLM基準下，SE版Llama2的測評成績相比原版均為發生顯著降低。

圖片

目前，SE的開箱即用版支持Phi、Llama和Mistral三種模型，在這三種模型上只需4行代碼就能進行窗口擴增。

對于其他模型，則需要對代碼進行一定修改。

圖片

那么，SE是如何給模型增加窗口長度的呢？

兩種注意力機制共同作用

研究者認為，長文本能力是大模型本身就具有的，但需要通過一定方法激發才能實現。

其中最主要的問題是，大模型在處理長文本時，會遇到相對位置編碼超出訓練時所見范圍的情況。

針對這一情況，作者采用了FLOOR注意力機制作為解決策略。

FLOOR對輸入的文本序列進行分組，然后用組數對某一token的絕對位置做取整除，就可以長距離將映射到較短的范圍。

然后，對這些映射值進行注意力運算，就解決了位置編碼超限的問題，實現了長文本的處理。

圖片

而在處理中短長度文本時，仍然使用模型原有的注意力機制，從而確保了模型不會“顧此失彼”，避免因長文本能力的增長導致短文本能力損失。

此外，在Mistral上復現SE的作者還坦言，目前該模型并不完美，可能存在計算量暴增的問題。

圖片

同時，SE的原作者也說，目前SE方法的確還沒有做過效率方面的優化，未來計劃通過引入FlashAttention機制等策略來解決這一問題。

論文地址：https://arxiv.org/abs/2401.01325

本文鏈接：http://www.tebozhan.com/showinfo-26-58903-0.html四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：在Rust中編寫自動化測試

下一篇：在 Flutter 中創建圓角圖像和圓形圖像有多少種方法？

標簽：

熱門焦點

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

疫情帶來了網課，網課盤活了安卓平板，安卓平板市場雖然中途停滯了幾年，但好的一點就是停滯的這幾年行業又有了新的發展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
學習JavaScript的10個理由...

作者 | Simplilearn編譯 | 王瑞平當你決心學習一門語言的時候，很難選擇到底應該學習哪一門，常用的語言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
JVM優化：實戰OutOfMemoryError異常

一、Java堆溢出堆內存中主要存放對象、數組等，只要不斷地創建這些對象，并且保證 GC Roots 到對象之間有可達路徑來避免垃圾收集回收機制清除這些對象，當這些對象所占空間超過
阿里瓴羊One推出背后，零售企業迎數字化新解

作者:劉曠近年來隨著數字經濟的高速發展，各式各樣的SaaS應用服務更是層出不窮，但本質上SaaS大多局限于單一業務流層面，對用戶核心關切的增長問題等則沒有提供更好的解法。在Saa
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
回歸OPPO兩年，一加贏了銷量，輸了品牌

成為OPPO旗下主打性能的先鋒品牌后，一加屢創佳績。今年618期間，一加手機全渠道銷量同比增長362%，憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
OPPO K11樣張首曝：千元機影像“卷”得真不錯！

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有
利用職權私自解除被封帳號 Meta開除20多名員工

11月18日消息，據外媒援引知情人士表示，過去一年時間內，Facebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內部系統以不當方式重置用戶帳號，其

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用

長文本能力顯著增強

△左下圖使用對數坐標

兩種注意力機制共同作用

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

學習JavaScript的10個理由...

JVM優化：實戰OutOfMemoryError異常

阿里瓴羊One推出背后，零售企業迎數字化新解

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

回歸OPPO兩年，一加贏了銷量，輸了品牌

OPPO K11樣張首曝：千元機影像“卷”得真不錯！

利用職權私自解除被封帳號 Meta開除20多名員工

最新推薦

猜你喜歡

熱門推薦

相關資訊