金融領域為自然語言處理(NLP)模型帶來了獨特的挑戰和機遇。當前,金融文本和數據的信息量和復雜性呈現爆炸式增長,一個強大、可靠的智慧金融系統可以滿足多種不同用戶群體的金融需要,例如輔助金融從業者完成行業分析、時事解讀、金融計算、統計分析工作,為金融科技開發者完成情感分析、信息抽取任務,幫助學生解答金融問題等,從而有效地提高金融領域工作和學習的效率。
金融領域本身具有高度的專業性,語言模型一方面要處理復雜的金融語言,另一方面要保證知識儲備的實時性和對金融文本內數據計算的準確性,故而過往的模型通常無法在該領域提供令人滿意的服務。金融領域迫切需要準確、高效的人工智能解決方案來有效處理金融行業的各種任務。而最新出現的大語言模型(LLM)在語言交互及各類 NLP 任務展現出的出色能力,為智慧金融系統的進一步發展和普及提供了新的思路。
復旦大學數據智能與社會計算實驗室(FudanDISC)發布金融領域的大語言模型 ——DISC-FinLLM。該模型是由面向不同金融場景的 4 個模組:金融咨詢、金融文本分析、金融計算、金融知識檢索問答構成的多專家智慧金融系統。這些模組在金融 NLP 任務、人類試題、資料分析和時事分析等四個評測中展現出明顯優勢,證明了 DISC-FinLLM 能為廣泛的金融領域提供強有力的支持。課題組開源了模型參數,并且提供了翔實的技術報告和數據構建樣例。
圖1 金融咨詢示例
用戶可以通過金融咨詢模組詢問金融專業知識,提高學習效率,或是與模型展開金融主題的多輪對話,拓寬金融視野。
圖2 金融文本分析示例
金融文本分析模組可以幫助金融科技領域中的開發者們高效完成各類 NLP 任務,如抽取金融文本中的投資關系、金融實體等信息,以及分析金融新聞、行業評論中的情緒傾向等。
圖3 金融計算示例
金融計算模組可以幫助用戶完成各類金融領域中的計算任務,如增長率、利率、平均值、BS 公式等,提高金融領域的數據分析效率。
圖4 金融檢索知識問答示例
在金融知識檢索問答模組中,模型將根據用戶問題檢索最新的新聞、研報、政策文件,緊跟時事熱點和政策變動,給出符合國內外的形勢發展變化的行業分析、時事分析、政策解讀。
DISC-FinLLM 是基于我們構建的高質量金融數據集 DISC-Fin-SFT 在通用領域中文大模型 Baichuan-13B-Chat 上進行 LoRA 指令微調得到的金融大模型。值得注意的是,我們的訓練數據和方法也可以被適配到任何基座大模型之上。
DISC-FinLLM 包含四個 LoRA 模組,它們分別用于實現不同的功能:
1. 金融咨詢:該模組可以在中國金融語境下,與用戶展開關于金融話題的多輪對話,或是為用戶解釋金融專業的相關知識,是由數據集中的金融咨詢指令部分訓練而來。
2. 金融文本分析:該模組可以幫助用戶在金融文本上完成信息抽取、情感分析、文本分類、文本生成等 NLP 任務,是由數據集中的金融任務指令部分訓練而來。
3. 金融計算:該模組可以幫助用戶完成與數學計算相關的任務,除了利率、增長率等基本計算,它還支持統計分析和包括 Black-Scholes 期權定價模型、EDF 預期違約概率模型在內的金融模型計算。這一模組是由數據集中的金融計算指令部分訓練而來。
4. 金融知識檢索問答:該模組可以檢索與用戶問題相關的金融新聞、研報和相關政策文件,結合這些檢索文檔,為用戶提供投資建議、時事分析、政策解讀。它是由數據集中的檢索增強指令部分訓練而來。
模型的整體功能框架如圖 5 所示。
圖5 模型在各種金融場景下服務于不同的用戶群體
圖6 DISC-Fin-SFT數據集的構造過程
DISC-Fin-SFT 數據集總共包含約 25 萬條數據,分為四個子數據集,它們分別是金融咨詢指令、金融任務指令、金融計算指令、檢索增強指令。圖 6 展示了數據集的整體構造過程,每個子數據集各有不同的構造方法和提示詞(prompt)。表 1 展示了每個部分的構造的數據量和數據長度信息,其中輸入和輸出長度指的是輸入和輸出的文本經過分詞后的平均詞數。
表1 DISC-Fin-SFT數據統計
3.1 金融咨詢指令
金融咨詢指令數據來源于三部分:
1. FiQA。這是一個英文的金融問答數據集,其中答案部分的質量參差不齊。因此我們將 FiQA 中的所有問題翻譯成中文后,使用 ChatGPT 重新生成問題的答案,來提高這一數據集的質量,提示詞如圖 7 所示,上下文可根據需要選填。
圖7 用于構造金融問答指令的零樣本提示模板
2. 金融名詞解釋。我們在網上收集了 200 多個金融領域的專業術語(如:杠桿收購),然后使用圖 8 中的提示詞,令 ChatGPT 為這些專業詞匯生成相應的問答對,用以訓練模型對金融用語的理解。
圖8 用于構造金融名詞問答的小樣本提示模板
3. 經管之家論壇上的公開發帖。我們采用自聊天提示(Self-chat Prompting)方法,按照圖 9 中的提示詞,引導 ChatGPT 圍繞帖子主題生成多輪的問答。
圖9 用于構造多輪對話指令的零樣本提示模板
在以上過程中,我們精心設計的提示詞使得 ChatGPT 可以生成符合中國國情、立場、態度和語言風格的問答,這確保 DISC-FinLLM 能夠提供符合中國金融語境的咨詢服務。
金融任務指令數據分為兩個部分:
1. 金融 NLP 數據集。該部分是通過手動提示(Manually Prompting)方法,從已有的金融 NLP 數據集改編而來的,圖 10 就是一個改編的例子。我們搜集了十余個開源的 NLP 中文數據集,任務上可以分為情緒分析、信息抽取、文本生成、文本分類和翻譯等幾類。具體的 NLP 數據集信息參看表 2。
圖10 用于構造NLP任務指令的零樣本和小樣本提示模板
表2 金融NLP數據集統計
2. 金融無標簽文本數據集。這是一個金融文本的閱讀理解數據集。首先,我們從東方財富網收集了共 87k 個文章,包括金融新聞和研報摘要。然后,基于這些無標簽文本中的段落,我們通過圖 11 的提示詞生成(段落、問題、答案)三元組。最后,將三元組套入不同的指令模板,得到 “輸入 - 輸出” 指令對。
圖11 根據無標簽金融文本構造任務指令的提示模板
在金融計算中,表達式計算器、方程求解器、概率表、計數器四種工具可以幫助模型完成大多數的計算任務。四種工具的定義如表 3 所示,它們各有不同的調用命令、輸入和輸出。例如,計算器的命令是 [Calculator (expression)→result]。在這一部分,構建金融計算指令的目的就是訓練模型在合適的時候調用這些工具解決數學問題。
表3 計算工具的定義
我們首先構建了一個種子任務庫,其中的種子任務由三部分組成:根據金融考試人工改寫的計算題、帶有研報上下文的數據計算題、BELLE 數據集中校園數學部分的通用數學題。特別地,根據 Toolformer 的方法,這些問題的答案中插入著上述四個工具的調用命令,它們代表著調用工具的方法和時機。隨后,為了增加數據的數量和多樣性,我們通過小樣本思維鏈提示(Few-shot Chain-of-Thought Prompting)方法,讓 ChatGPT 在圖 12 中提示詞的引導下,根據種子任務生成超過 5 萬個新問答對,其中的答案也帶有插件命令。
圖12 用于構造金融計算指令的提示模板
3.4 檢索增強指令
圖13 檢索增強指令的構造過程
如圖 13 所示,檢索增強指令的構造分為三步。第一步,我們根據新聞和研報等金融文本構造金融分析問題。第二步,我們在知識庫中檢索與問題有關的若干文檔,并隨機加入一些無關文檔,以訓練模型對有效信息的甄別能力,這些參考文檔源于我們構建金融知識庫,包含 18k 研報和 69k 金融新聞。第三步,我們將問題和參考資料結合在一起,生成問題的答案。在這個過程中,問題和答案是由 ChatGPT 通過檢索鏈提示(Chain-of-Retrieval Prompting)方法生成的。
最終我們構建了一個包含 20k 條檢索增強指令的數據集,其中的指令涵蓋了金融領域中主要的分析形式,包括行業分析、政策分析、投資建議、公司戰略規劃等。
針對金融領域的不同功能,我們采用了多專家微調的訓練策略。我們在特定的子數據集上訓練模型的各個模組,使它們彼此互不干擾,獨立完成不同任務。為此,我們使用 DDP 技術的 Low-rank adaption(LoRA)方法高效地進行參數微調。
圖14 DISC-FinLLM的多專家微調框架
具體來說,我們以 Baichuan-13B 為基座模型,通過數據集的四個部分,分別訓練 4 個 LoRA 專家模組,如圖 14 所示。部署時,用戶只需更換在當前基座上的 LoRA 參數就可以切換功能。因此用戶能夠根據使用需求激活 / 停用模型的不同模組,而無需重新加載整個模型。4 個 LoRA 專家模組分別如下:
1. 金融顧問:該模型用于多輪對話。由于我們的金融咨詢指令數據十分豐富,該模型可以在中國的金融語境下做出高質量的回答,為用戶解答金融領域的專業問題,提供優質的咨詢服務。
2. 文件分析師:該模型主要用于處理金融自然語言處理領域內的各種任務,包括但不限于金融文本中的信息抽取、情緒分析等。
3. 財務會計師:DISC-FinLLM 支持四種工具,即表達式計算器、方程求解器、計數器和概率表。這些工具支持我們的模型完成金融領域的大多數的計算任務,如金融數學建模、統計分析等。當模型需要使用工具時,它可以生成工具調用命令,然后中斷解碼,并將工具調用結果添加到生成的文本中。這樣,DISC-FinLLM 就可以借助工具提供的準確計算結果,回答金融中的計算問題。
4. 時事分析師:我們在第四個 LoRA 中引入檢索插件。DISC-FinLLM 主要參考了三類金融文本:新聞、報告和政策。當用戶問及時事、行業趨勢或金融政策等常見金融話題時,我們的模型可以檢索相關文件,并像金融專家一樣展開分析并提供建議。
我們建立了一個全面的評估框架,從各個角度嚴格評估我們的模型。該評估框架包括四個不同的組成部分,即:金融 NLP 任務、人類試題、資料分析和時事分析。這一評估框架全面地證明了我們模型能力和訓練數據的有效性。
4.2.1 金融 NLP 任務評測
我們使用 FinCUGE 評估基準測試模型處理金融 NLP 任務的能力。我們評估了其中的六項任務,包括情感分析、關系抽取、文本摘要、文本分類、事件抽取和其他任務,它們分別對應著 FinFE、FinQA、FinCQA、FinNA、FinRE 和 FinESE 六個數據集。我們通過提示模板將這個數據集改造為小樣本(few-shot)形式,然后使用常用的準確度(Accuracy)、F1 和 Rouge 指標評價模型的表現,來衡量模型在金融領域中理解文本和生成相關回答的能力。
表4 BBT-FIN基準上的實驗結果
表 4 中展示的是,使用我們的金融任務指令數據微調不同基線模型前后的評測結果。從 Baichuan-13B-Chat、ChatGLM1 和 ChatGLM2 模型上不難看出,微調后模型的平均成績比未經訓練的基座模型高 2~9 分不等,表現顯然更加出色。特別地,我們的數據集沒有涵蓋評估集中包含的某些 NLP 任務,這更說明我們構建的數據可以有效增強模型金融領域任務中的表現,即使是面對沒有訓練過的任務的時候。
4.2.2 人類試題評測
我們使用了 FIN-Eval 基準評估模型在回答真人生成問題上的能力,這個基準涵蓋了金融、經濟、會計、證書等學科的高質量多項選擇題。我們以準確度為指標,來衡量模型的表現。
表5 FIN-Eval基準上的實驗結果
我們對四個 LoRA 微調模型,和使用 DISC-Fin-SFT 全體數據微調的模型都進行了測試,比較模型包括 ChatGPT、GPT-4、Baichuan、ChatGLM2、FinGPT-v3 等。表 5 展示了各個模型在人類試題評測中的結果。相比之下,我們模型的平均結果僅次于 ChatGPT 和 GPT-4。與未經訓練的 Baichuan-13B-Chat 模型相比較看,DISC-Fin-SFT 中的每一類指令,都有助于提高模型在人類試題評測上能力。從 FinGPT 的測評結果看,我們也比其他的金融大模型表現要好。從消融實驗看,在 Baichuan-13B-Chat 模型上使用全部數據集微調后,獲得的評測結果顯著下降,這體現了對每個任務使用特定數據的 LoRA 微調的必要性。
4.2.3 資料分析評測
我們手動構造了一個由 100 個財經計算題組成的數據集,用于評估模型在計算任務中的能力。這些測評問題改編自中國行政職業能力測驗中的材料分析計算題,包括計算同比增長率和產值比例等。我們根據模型給出計算公式和計算結果的正確率來評估模型的表現。
表6 計算插件的評估結果
表 6 展示了我們模型在計算任務方面取得的顯著改進。與基線模型相比,我們的模型中添加了計算插件,顯著提高了性能,評測結果超過 ChatGPT 0.09 分,突出了我們的方法在解決金融計算問題上的有效性。
4.2.4 時事分析評測
此方法基于 GPT-3.5 模型作出評估。我們構建了一個金融問題數據集,其中的問題需要模型使用最新信息來獲得準確答案。然后我們在谷歌等搜索引擎中手動搜索與每個問題相關的多個參考文段。該數據集旨在評估出模型在回答金融問題時檢索信息的相關性和準確性,我們用四個指標評價模型的表現:
1. 準確性:提供的建議或分析是準確的,沒有事實錯誤(假設參考文本是正確的),結論不是隨意給出的。
2. 實用性:模型可以結合參考文本,對金融領域的問題提供清楚、實用的分析。
3. 語言質量:模型可以正確理解問題,并在金融領域產生簡潔、專業的答案。
4. 思考性:模型根據參考文獻,由自己的思考分析得出結論,而不是簡單地抄襲原文。
表7 檢索插件的評估結果
表 7 表明我們模型的評測結果在所有指標上都明顯更高,證明了檢索增強指令數據訓練為模型帶來了明顯的優勢。
我們基于多專家微調框架構建了一個強大的中文智慧金融系統 ——DISC-FinLLM。我們根據四種特定任務的指令數據微調我們的模型,分別訓練了四個面向不同金融場景的專家模組:金融咨詢、金融文本分析、金融計算、金融知識檢索問答,以提高其在金融 NLP 任務、人類試題、計算任務和檢索任務中的性能。同時,我們的評估結果證明了我們模型在金融領域的可靠性。DISC-FinLLM 為大語言模型在金融咨詢、投資分析和風險評估上的應用開辟了可能性,將為更為廣泛的用戶群體帶來高效、可靠的金融服務支持。
本文鏈接:http://www.tebozhan.com/showinfo-26-14808-0.htmlDISC-FinLLM:復旦大學團隊發布中文智慧金融系統,采用多專家微調框架
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com