【新智元導讀】GPT-4 在為人類選股時,表現竟然超越了大部分人類分析師,和針對金融訓練的專業模型?在沒有任何上下文的情況下,它們直接就成功分析了財務報表,這一發現讓許多業內大咖震驚了。然而好景不長,有 AI 大牛指出研究中的 bug:之所以會這樣,很可能是訓練數據被污染了。
最近,各位業內大咖都被芝大的一篇論文震驚了。
研究者發現,由 GPT-4 幫忙選擇的股票,直接擊敗了人類!同時也 pk 掉了許多其他針對金融訓練的機器學習模型。
最讓他們震驚的是,LLM 可以在沒有任何敘述上下文的情況下,就成功分析財務報表中的數字!
論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
具體來說,在預測收益的變化上,LLM 比經驗豐富的金融分析師都更出色。尤其是在選股時,人類分析師會面臨一些難以應對的場景,導致預測結果存在偏見、效率低下,這時 LLM 就表現出了巨大的優勢。
并且,LLM 做出的預測,不僅僅是回憶訓練數據,比如 GPT-4 提供的有洞察力的分析,甚至能揭示一家公司未來潛在的表現。
GPT-4 的表現一騎絕塵,直接比其他模型實現了更高的夏普比率(Sharpe ratio)和阿爾法(alpha)。
沃頓商學院教授 Ethan Mollick 盛贊:這是一篇眾人翹首以盼的論文。
也有網友感慨道:以后在股市中操盤的,是人還是 AI 都不好說了……
然而,就在大家激動之時,有細心的研究人員給這項研究潑了冷水:之所以能取得這個結果,很可能是由于訓練數據的污染造成的。
AI 大牛田淵棟也表示,GPT-4 的優異表現,不排除是訓練數據集中包括了未來的股票價格,因此 GPT-4 直接開了掛,據此對 2021 年起的股票樣本進行了選擇。
至于測試 GPT-4 是否開了掛,理論上并不復雜:只要獲取股票的歷史記錄,將其重命名為某個新代碼,將其輸入來測試就可以了。
怎樣衡量 LLM 在未來決策中的作用?在這項研究中,研究者衡量的標準,就是讓 LLM 進行財務報表分析(FSA)。
之所以進行 FSA,主要是為了了解公司的財務健康狀況,并確定其業績是否可持續。
FSA 并不簡單,它是一個定量任務,需要大量分析趨勢和比率,還涉及批判性思維、推理能力和復雜判斷。通常,這個任務是由金融分析師和投資專業人士來完成的。
在研究中,研究者會將兩份標準的財務報表 —— 資產負債表和損益表扔給 GPT-4 Turbo,它的任務是:分析公司接下來的收益是會增長還是下降。
注意,這項研究中有一個關鍵的設計,就是絕不向 LLM 提供任何文本信息,LLM 能參考的,只有純粹的報表。
研究者預測,LLM 的表現,大概率會比專業的人類分析師差。
原因在于,分析財務報表這項任務,非常復雜,涉及許多模糊性的東西,需要很大常識、直覺和人類思維的靈活性。
而且,LLM 目前的推理和判斷能力還很不足,并且也缺乏對于行業和宏觀經濟的理解。
另外,研究者還預測 LLM 的表現也會弱于專用的機器學習應用,比如為收益預測的人工神經網絡(ANN)。
因為,ANN 允許模型學習深層次的交互,這些交互中包含了重要線索,通用模型是很難獲取這些線索的。除非,通用模型能基于不完整的信息,或從未見過的情景,進行直覺推理、形成假設。
實驗結果卻令他們大吃一驚:LLM 竟然 pk 掉了許多人類分析師和專用的神經網絡,表現出了更優異的成績!
實驗步驟評測 LLM 的具體表現如何,需要從以下兩個步驟展開。
首先,研究人員對公司的財務報表進行匿名化和標準化處理,防止 LLM 記住公司的潛在可能。
特別是,他們從資產負債表和損益表中,省去了公司的名稱,并用標簽(如 t 和 t-1)替換年份。
此外,研究者還按照 Compustat 的平衡模型,標準化資產負債表和損益表的格式。
這種方法,可以確保財務報表的格式,在所有公司年度統計中都是相同的,因此 LLM 也不知道其分析對應的是哪家公司或哪個時間段。
在第二階段中,研究人員設計了一個指令,指導 LLM 進行財務報表分析,并確定未來收益方向。
除了簡單的指令外,他們還開發了一個 CoT 指令,實際上是「教」LLM 以人類金融分析師的思維過程進行分析。
具體來說,金融分析師在分析中會識別財務報表中顯著的趨勢,計算關鍵財務比率(如經營效率、流動性和杠桿比率),綜合這些信息,并形成對未來收益的預期。
研究人員創建的 CoT 指令,便是通過一系列步驟,來實現這個思維過程。
在數據集選用上,研究人員使用 Compustat 數據庫來測試模型的表現,并在必要時與 IBES 數據庫交叉使用。
樣本涵蓋了從 1968-2021 年之間,15401 家公司的 150678 個公司的年度數據。
分析師的樣本涵蓋了 1983-2021 年期間,包含 3152 家公司的 39533 個觀察數據。
對于這個結果,研究者提出了兩種假設。
第一種假設是,GPT 的表現完全是由近乎完美的記憶驅動的。
GPT 很可能是從數據中推斷出了公司的身份和年份,然后將這些信息與新聞中學到的關于該公司的情感相匹配。
為此,研究者試圖排除這種可能。并且,也使用了 GPT-4 訓練期以外的全新數據,復制了結果。
第二種假設是,GPT 之所以能推斷出未來收益的方向,是因為生成了有用的見解模型。
比如,模型經常會計算金融分析師計算的標注比率,然后根據 CoT 提示生成分析這些比率的敘述。
為此,研究者將模型為給定公司年度生成的所有敘述匯總,并使用 BERT 將它們編碼成 768 維向量(嵌入),然后將這些向量輸入到 ANN 中,并訓練它預測未來收益的方向。
結果,基于 GPT 敘述見解訓練的 ANN 達到了 59% 的準確率,這幾乎與 GPT 的預測準確率(60%)一樣高。
這一結果直接證明,模型生成的敘述見解對未來表現具有信息性。
另外可以觀察到,GPT 的預測與基于 GPT 敘述的 ANN 預測之間,有 94% 的相關性,這就表明,這些敘述編碼的信息是 GPT 預測的基礎。而在解釋未來收益方向上,與比率分析相關的敘述最為重要。
總之,模型之所以表現優越,原因就是基于 CoT 推理生成的敘述。
實驗結果最新研究中的實驗評估結果,可以總結為以下三大亮點。
GPT 勝過人類金融分析師為了評估分析師的預測準確性,研究者計算了「共識預測」(即財務報表發布后一個月內各個分析師預測的中位數),并將其作為下一年收益的預期。
這確保了分析師預測和模型預測結果的可比性。
此外,作者還使用了使用未來三個月和六個月的「共識預測」作為可替代的預期基準。
這些基準對 LLM 不利,因為它們整合了一年中所獲得的信息。不過,考慮到分析師可能在將新信息納入預測時較為遲緩,研究者選擇報告這些基準以供比較。
研究人員首先對 GPT 在預測未來「收益方向」方面的表現進行了分析,并將其與證券分析師的表現進行了比較。
他們注意到預測每股收益(EPS)變化是一項高度復雜的任務,因為 EPS 時間序列近似于「Random Walk」(隨機游走)并且包含大量不可預測的成分。
隨機游走反映了,僅根據當前收益與之前收益相比的變化的預測。
下圖展示的是 GPT 和人類金融分析師的預測性能對比結果。
結果顯示,第一個月分析師的預測,在預測未來收益方向方面的準確率為 53%,這超過了簡單模型(將前一年的變化外推)的 49% 準確率。
而分析師三個月和六個月后的預測準確率,分別為 56% 和 57%,這是合理的,因其包含了更及時的信息。
基于「簡單」非 CoT 提示的 GPT 預測表現為 52%,低于人類分析師基準,這與研究者預期一致。
然而,當使用 CoT 模擬人類推理時,他們發現 GPT 的準確率達到了 60%,顯著高于分析師的表現。
如果再去核查 F1-score(F1 評分),這是一種評估模型預測能力的替代指標(基于其精確度和召回率的組合),也會得出類似的結論。
這表明,在分析財務報表以確定公司發展 方向方面,GPT 明顯擊敗了中位數金融分析師的表現。
坦白講,人類分析師可能依賴于模型無法獲得的軟信息或更廣泛的背景,從而增加了價值。
確實,研究人員還發現分析師的預測包含了 GPT 未捕捉到的,關于未來表現的有用見解。
此外,研究顯示,當人類難以做出未來預測時,GPT 的見解更有價值。
同樣,在人類預測容易出現偏見或效率低(即未合理納入信息)的情況下,GPT 的預測在預測未來收益方向方面更有用。
研究人員還比較了 GPT 和各種 ML 模型的預測精度。
他們選用了三種預測模型。
第一個模型「Stepwise Logistic」(逐步回歸),遵循 Ou and Penman 框架,使用了 59 個財務指標預測變量。
第二個模型是,使用相同 59 個預測變量的 ANN 但也利用了它們之間的非線性和交互。
第三,為了確保 GPT 和 ANN 之間的一致性,研究人員還使用了,基于提供給 GPT 的相同信息集(損益表和資產負債表)訓練的 ANN 模型。
重要的是,研究者基于每五年的歷史數據使用 Compustat 的觀察數據來訓練這些模型。所有預測都是樣本外的(out of sample)。
使用整個 Compustat 樣本,研究發現「逐步回歸」的準確率(F1 評分)為 52.94%(57.23%),這與人類分析師的表現相當,并且與之前的研究一致。
相比之下,使用相同數據訓練的 ANN 達到了更高的準確率 60.45%(F1 評分 61.62%),這處于最先進的收益預測模型的范圍。
當使用 GPT(with CoT)預測時,發現模型在整個樣本上的準確率為 60.31%,這與 ANN 的準確率非常接近。
事實上,GPT 的 F1 評分顯著高于 ANN(63.45% vs. 61.6%)。
此外,當研究人員僅使用兩份財務報表的數據(輸入到 GPT 中)訓練 ANN 時,發現 ANN 的預測能力略低,準確率(F1 評分)為 59.02%(60.66%)。
總體而言,這些結果表明 GPT 的準確率與最先進的專用機器學習模型的準確率相當(甚至略高)。
ANN 和 GPT 預測互補
研究人員進一步觀察到,ANN 和 GPT 的預測具有互補性,因為它們都包含有用的增量信息。
并且有跡象表明,當 ANN 表現不佳時,GPT 往往表現良好。
特別是,ANN 基于其在過去數據中看到的訓練示例來預測收益。并且,鑒于許多示例非常復雜且高度多維,其學習能力可能受到限制。
相比之下,GPT 在預測小型或虧損公司的盈利時,犯的錯誤相對較少,可能得益于其類似人類的推理和廣泛的知識。
除此以外,研究者還進行了幾項額外的實驗,基于 GPT 對其答案的置信度對樣本進行分區,并使用了不同的 LLM 家族。
當 GPT 以更高的置信度回答時,預測往往比置信度較低的預測更準確。
與此同時,研究證明了這一結果可以推廣到其他大模型上。特別是,谷歌最近發布的 Gemini Pro,其準確率與 GPT-4 不相上下。
下圖顯示了,GPT 響應中,雙詞(bigram)和單詞(monogram)的頻率統計。
這里,雙詞指的是由兩個連續的單詞組成,在文本中一起使用;單詞指的是一個單詞。
圖左展現的是「雙詞」的結果,GPT 關于財務比率分析的答案中發現的十個最常見的「雙詞」。
圖右列出的是,GPT 對二元盈利預測(binary earnings predictions)中,出現頻率最高的十個單詞。
之所以做這項分析,是為了確定 GPT 在不同財務分析環境中,使用最常見的術語和短語。
有趣的是,「營業利潤率」(Operating Margin)和「增長」(Growth)這兩個詞的預測力最高。
看來,GPT 似乎已經內化了「40 法則」。
總之,所有結果表明,AI 加速發展,金融分析師的角色將會改變。
不可否認,人類專業知識和判斷力不太可能在短期內被完全取代。
但像 GPT-4 這樣強大的 AI 工具可能會極大地增強和簡化分析師的工作,甚至可能在未來幾年里,重塑財務報表分析這一領域。
參考資料:
https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with
https://x.com/tydsh/status/1794137012532081112
https://x.com/emollick/status/1794056462349861273
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-4466-0.html芝大論文證明 GPT-4 選股準確率高達 60%,人類股票分析師要下崗?AI 大牛質疑數據污染
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com