AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

芝大論文證明 GPT-4 選股準確率高達 60%,人類股票分析師要下崗?AI 大牛質疑數據污染

來源: 責編: 時間:2024-05-30 09:07:01 183觀看
導讀 【新智元導讀】GPT-4 在為人類選股時,表現竟然超越了大部分人類分析師,和針對金融訓練的專業模型?在沒有任何上下文的情況下,它們直接就成功分析了財務報表,這一發現讓許多業內大咖震驚了。然而好景不長,有 AI 大牛

【新智元導讀】GPT-4 在為人類選股時,表現竟然超越了大部分人類分析師,和針對金融訓練的專業模型?在沒有任何上下文的情況下,它們直接就成功分析了財務報表,這一發現讓許多業內大咖震驚了。然而好景不長,有 AI 大牛指出研究中的 bug:之所以會這樣,很可能是訓練數據被污染了。SnK28資訊網——每日最新資訊28at.com

最近,各位業內大咖都被芝大的一篇論文震驚了。SnK28資訊網——每日最新資訊28at.com

研究者發現,由 GPT-4 幫忙選擇的股票,直接擊敗了人類!同時也 pk 掉了許多其他針對金融訓練的機器學習模型。SnK28資訊網——每日最新資訊28at.com

最讓他們震驚的是,LLM 可以在沒有任何敘述上下文的情況下,就成功分析財務報表中的數字!SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311SnK28資訊網——每日最新資訊28at.com

具體來說,在預測收益的變化上,LLM 比經驗豐富的金融分析師都更出色。尤其是在選股時,人類分析師會面臨一些難以應對的場景,導致預測結果存在偏見、效率低下,這時 LLM 就表現出了巨大的優勢。SnK28資訊網——每日最新資訊28at.com

并且,LLM 做出的預測,不僅僅是回憶訓練數據,比如 GPT-4 提供的有洞察力的分析,甚至能揭示一家公司未來潛在的表現。SnK28資訊網——每日最新資訊28at.com

GPT-4 的表現一騎絕塵,直接比其他模型實現了更高的夏普比率(Sharpe ratio)和阿爾法(alpha)。SnK28資訊網——每日最新資訊28at.com

沃頓商學院教授 Ethan Mollick 盛贊:這是一篇眾人翹首以盼的論文。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

也有網友感慨道:以后在股市中操盤的,是人還是 AI 都不好說了……SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

然而,就在大家激動之時,有細心的研究人員給這項研究潑了冷水:之所以能取得這個結果,很可能是由于訓練數據的污染造成的。SnK28資訊網——每日最新資訊28at.com

AI 大牛田淵棟也表示,GPT-4 的優異表現,不排除是訓練數據集中包括了未來的股票價格,因此 GPT-4 直接開了掛,據此對 2021 年起的股票樣本進行了選擇。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

至于測試 GPT-4 是否開了掛,理論上并不復雜:只要獲取股票的歷史記錄,將其重命名為某個新代碼,將其輸入來測試就可以了。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

研究內容

怎樣衡量 LLM 在未來決策中的作用?在這項研究中,研究者衡量的標準,就是讓 LLM 進行財務報表分析(FSA)。SnK28資訊網——每日最新資訊28at.com

之所以進行 FSA,主要是為了了解公司的財務健康狀況,并確定其業績是否可持續。SnK28資訊網——每日最新資訊28at.com

FSA 并不簡單,它是一個定量任務,需要大量分析趨勢和比率,還涉及批判性思維、推理能力和復雜判斷。通常,這個任務是由金融分析師和投資專業人士來完成的。SnK28資訊網——每日最新資訊28at.com

在研究中,研究者會將兩份標準的財務報表 —— 資產負債表和損益表扔給 GPT-4 Turbo,它的任務是:分析公司接下來的收益是會增長還是下降。SnK28資訊網——每日最新資訊28at.com

注意,這項研究中有一個關鍵的設計,就是絕不向 LLM 提供任何文本信息,LLM 能參考的,只有純粹的報表。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

研究者預測,LLM 的表現,大概率會比專業的人類分析師差。SnK28資訊網——每日最新資訊28at.com

原因在于,分析財務報表這項任務,非常復雜,涉及許多模糊性的東西,需要很大常識、直覺和人類思維的靈活性。SnK28資訊網——每日最新資訊28at.com

而且,LLM 目前的推理和判斷能力還很不足,并且也缺乏對于行業和宏觀經濟的理解。SnK28資訊網——每日最新資訊28at.com

另外,研究者還預測 LLM 的表現也會弱于專用的機器學習應用,比如為收益預測的人工神經網絡(ANN)。SnK28資訊網——每日最新資訊28at.com

因為,ANN 允許模型學習深層次的交互,這些交互中包含了重要線索,通用模型是很難獲取這些線索的。除非,通用模型能基于不完整的信息,或從未見過的情景,進行直覺推理、形成假設。SnK28資訊網——每日最新資訊28at.com

實驗結果卻令他們大吃一驚:LLM 竟然 pk 掉了許多人類分析師和專用的神經網絡,表現出了更優異的成績!SnK28資訊網——每日最新資訊28at.com

實驗步驟

評測 LLM 的具體表現如何,需要從以下兩個步驟展開。SnK28資訊網——每日最新資訊28at.com

首先,研究人員對公司的財務報表進行匿名化和標準化處理,防止 LLM 記住公司的潛在可能。SnK28資訊網——每日最新資訊28at.com

特別是,他們從資產負債表和損益表中,省去了公司的名稱,并用標簽(如 t 和 t-1)替換年份。SnK28資訊網——每日最新資訊28at.com

此外,研究者還按照 Compustat 的平衡模型,標準化資產負債表和損益表的格式。SnK28資訊網——每日最新資訊28at.com

這種方法,可以確保財務報表的格式,在所有公司年度統計中都是相同的,因此 LLM 也不知道其分析對應的是哪家公司或哪個時間段。SnK28資訊網——每日最新資訊28at.com

在第二階段中,研究人員設計了一個指令,指導 LLM 進行財務報表分析,并確定未來收益方向。SnK28資訊網——每日最新資訊28at.com

除了簡單的指令外,他們還開發了一個 CoT 指令,實際上是「教」LLM 以人類金融分析師的思維過程進行分析。SnK28資訊網——每日最新資訊28at.com

具體來說,金融分析師在分析中會識別財務報表中顯著的趨勢,計算關鍵財務比率(如經營效率、流動性和杠桿比率),綜合這些信息,并形成對未來收益的預期。SnK28資訊網——每日最新資訊28at.com

研究人員創建的 CoT 指令,便是通過一系列步驟,來實現這個思維過程。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

在數據集選用上,研究人員使用 Compustat 數據庫來測試模型的表現,并在必要時與 IBES 數據庫交叉使用。SnK28資訊網——每日最新資訊28at.com

樣本涵蓋了從 1968-2021 年之間,15401 家公司的 150678 個公司的年度數據。SnK28資訊網——每日最新資訊28at.com

分析師的樣本涵蓋了 1983-2021 年期間,包含 3152 家公司的 39533 個觀察數據。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

LLM 為何如此成功

對于這個結果,研究者提出了兩種假設。SnK28資訊網——每日最新資訊28at.com

第一種假設是,GPT 的表現完全是由近乎完美的記憶驅動的。SnK28資訊網——每日最新資訊28at.com

GPT 很可能是從數據中推斷出了公司的身份和年份,然后將這些信息與新聞中學到的關于該公司的情感相匹配。SnK28資訊網——每日最新資訊28at.com

為此,研究者試圖排除這種可能。并且,也使用了 GPT-4 訓練期以外的全新數據,復制了結果。SnK28資訊網——每日最新資訊28at.com

第二種假設是,GPT 之所以能推斷出未來收益的方向,是因為生成了有用的見解模型。SnK28資訊網——每日最新資訊28at.com

比如,模型經常會計算金融分析師計算的標注比率,然后根據 CoT 提示生成分析這些比率的敘述。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

為此,研究者將模型為給定公司年度生成的所有敘述匯總,并使用 BERT 將它們編碼成 768 維向量(嵌入),然后將這些向量輸入到 ANN 中,并訓練它預測未來收益的方向。SnK28資訊網——每日最新資訊28at.com

結果,基于 GPT 敘述見解訓練的 ANN 達到了 59% 的準確率,這幾乎與 GPT 的預測準確率(60%)一樣高。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

這一結果直接證明,模型生成的敘述見解對未來表現具有信息性。SnK28資訊網——每日最新資訊28at.com

另外可以觀察到,GPT 的預測與基于 GPT 敘述的 ANN 預測之間,有 94% 的相關性,這就表明,這些敘述編碼的信息是 GPT 預測的基礎。而在解釋未來收益方向上,與比率分析相關的敘述最為重要。SnK28資訊網——每日最新資訊28at.com

總之,模型之所以表現優越,原因就是基于 CoT 推理生成的敘述。SnK28資訊網——每日最新資訊28at.com

實驗結果

最新研究中的實驗評估結果,可以總結為以下三大亮點。SnK28資訊網——每日最新資訊28at.com

GPT 勝過人類金融分析師

為了評估分析師的預測準確性,研究者計算了「共識預測」(即財務報表發布后一個月內各個分析師預測的中位數),并將其作為下一年收益的預期。SnK28資訊網——每日最新資訊28at.com

這確保了分析師預測和模型預測結果的可比性。SnK28資訊網——每日最新資訊28at.com

此外,作者還使用了使用未來三個月和六個月的「共識預測」作為可替代的預期基準。SnK28資訊網——每日最新資訊28at.com

這些基準對 LLM 不利,因為它們整合了一年中所獲得的信息。不過,考慮到分析師可能在將新信息納入預測時較為遲緩,研究者選擇報告這些基準以供比較。SnK28資訊網——每日最新資訊28at.com

研究人員首先對 GPT 在預測未來「收益方向」方面的表現進行了分析,并將其與證券分析師的表現進行了比較。SnK28資訊網——每日最新資訊28at.com

他們注意到預測每股收益(EPS)變化是一項高度復雜的任務,因為 EPS 時間序列近似于「Random Walk」(隨機游走)并且包含大量不可預測的成分。SnK28資訊網——每日最新資訊28at.com

隨機游走反映了,僅根據當前收益與之前收益相比的變化的預測。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

下圖展示的是 GPT 和人類金融分析師的預測性能對比結果。SnK28資訊網——每日最新資訊28at.com

結果顯示,第一個月分析師的預測,在預測未來收益方向方面的準確率為 53%,這超過了簡單模型(將前一年的變化外推)的 49% 準確率。SnK28資訊網——每日最新資訊28at.com

而分析師三個月和六個月后的預測準確率,分別為 56% 和 57%,這是合理的,因其包含了更及時的信息。SnK28資訊網——每日最新資訊28at.com

基于「簡單」非 CoT 提示的 GPT 預測表現為 52%,低于人類分析師基準,這與研究者預期一致。SnK28資訊網——每日最新資訊28at.com

然而,當使用 CoT 模擬人類推理時,他們發現 GPT 的準確率達到了 60%,顯著高于分析師的表現。SnK28資訊網——每日最新資訊28at.com

如果再去核查 F1-score(F1 評分),這是一種評估模型預測能力的替代指標(基于其精確度和召回率的組合),也會得出類似的結論。SnK28資訊網——每日最新資訊28at.com

這表明,在分析財務報表以確定公司發展 方向方面,GPT 明顯擊敗了中位數金融分析師的表現。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

坦白講,人類分析師可能依賴于模型無法獲得的軟信息或更廣泛的背景,從而增加了價值。SnK28資訊網——每日最新資訊28at.com

確實,研究人員還發現分析師的預測包含了 GPT 未捕捉到的,關于未來表現的有用見解。SnK28資訊網——每日最新資訊28at.com

此外,研究顯示,當人類難以做出未來預測時,GPT 的見解更有價值。SnK28資訊網——每日最新資訊28at.com

同樣,在人類預測容易出現偏見或效率低(即未合理納入信息)的情況下,GPT 的預測在預測未來收益方向方面更有用。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

GPT 與專用神經網絡不相上下

研究人員還比較了 GPT 和各種 ML 模型的預測精度。SnK28資訊網——每日最新資訊28at.com

他們選用了三種預測模型。SnK28資訊網——每日最新資訊28at.com

第一個模型「Stepwise Logistic」(逐步回歸),遵循 Ou and Penman 框架,使用了 59 個財務指標預測變量。SnK28資訊網——每日最新資訊28at.com

第二個模型是,使用相同 59 個預測變量的 ANN 但也利用了它們之間的非線性和交互。SnK28資訊網——每日最新資訊28at.com

第三,為了確保 GPT 和 ANN 之間的一致性,研究人員還使用了,基于提供給 GPT 的相同信息集(損益表和資產負債表)訓練的 ANN 模型。SnK28資訊網——每日最新資訊28at.com

重要的是,研究者基于每五年的歷史數據使用 Compustat 的觀察數據來訓練這些模型。所有預測都是樣本外的(out of sample)。SnK28資訊網——每日最新資訊28at.com

使用整個 Compustat 樣本,研究發現「逐步回歸」的準確率(F1 評分)為 52.94%(57.23%),這與人類分析師的表現相當,并且與之前的研究一致。SnK28資訊網——每日最新資訊28at.com

相比之下,使用相同數據訓練的 ANN 達到了更高的準確率 60.45%(F1 評分 61.62%),這處于最先進的收益預測模型的范圍。SnK28資訊網——每日最新資訊28at.com

當使用 GPT(with CoT)預測時,發現模型在整個樣本上的準確率為 60.31%,這與 ANN 的準確率非常接近。SnK28資訊網——每日最新資訊28at.com

事實上,GPT 的 F1 評分顯著高于 ANN(63.45% vs. 61.6%)。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

此外,當研究人員僅使用兩份財務報表的數據(輸入到 GPT 中)訓練 ANN 時,發現 ANN 的預測能力略低,準確率(F1 評分)為 59.02%(60.66%)。SnK28資訊網——每日最新資訊28at.com

總體而言,這些結果表明 GPT 的準確率與最先進的專用機器學習模型的準確率相當(甚至略高)。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

ANN 和 GPT 預測互補SnK28資訊網——每日最新資訊28at.com

研究人員進一步觀察到,ANN 和 GPT 的預測具有互補性,因為它們都包含有用的增量信息。SnK28資訊網——每日最新資訊28at.com

并且有跡象表明,當 ANN 表現不佳時,GPT 往往表現良好。SnK28資訊網——每日最新資訊28at.com

特別是,ANN 基于其在過去數據中看到的訓練示例來預測收益。并且,鑒于許多示例非常復雜且高度多維,其學習能力可能受到限制。SnK28資訊網——每日最新資訊28at.com

相比之下,GPT 在預測小型或虧損公司的盈利時,犯的錯誤相對較少,可能得益于其類似人類的推理和廣泛的知識。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

除此以外,研究者還進行了幾項額外的實驗,基于 GPT 對其答案的置信度對樣本進行分區,并使用了不同的 LLM 家族。SnK28資訊網——每日最新資訊28at.com

當 GPT 以更高的置信度回答時,預測往往比置信度較低的預測更準確。SnK28資訊網——每日最新資訊28at.com

與此同時,研究證明了這一結果可以推廣到其他大模型上。特別是,谷歌最近發布的 Gemini Pro,其準確率與 GPT-4 不相上下。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

預測來源:增長和營業利潤率

下圖顯示了,GPT 響應中,雙詞(bigram)和單詞(monogram)的頻率統計。SnK28資訊網——每日最新資訊28at.com

這里,雙詞指的是由兩個連續的單詞組成,在文本中一起使用;單詞指的是一個單詞。SnK28資訊網——每日最新資訊28at.com

圖左展現的是「雙詞」的結果,GPT 關于財務比率分析的答案中發現的十個最常見的「雙詞」。SnK28資訊網——每日最新資訊28at.com

圖右列出的是,GPT 對二元盈利預測(binary earnings predictions)中,出現頻率最高的十個單詞。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

之所以做這項分析,是為了確定 GPT 在不同財務分析環境中,使用最常見的術語和短語。SnK28資訊網——每日最新資訊28at.com

有趣的是,「營業利潤率」(Operating Margin)和「增長」(Growth)這兩個詞的預測力最高。SnK28資訊網——每日最新資訊28at.com

看來,GPT 似乎已經內化了「40 法則」。SnK28資訊網——每日最新資訊28at.com

SnK28資訊網——每日最新資訊28at.com

總之,所有結果表明,AI 加速發展,金融分析師的角色將會改變。SnK28資訊網——每日最新資訊28at.com

不可否認,人類專業知識和判斷力不太可能在短期內被完全取代。SnK28資訊網——每日最新資訊28at.com

但像 GPT-4 這樣強大的 AI 工具可能會極大地增強和簡化分析師的工作,甚至可能在未來幾年里,重塑財務報表分析這一領域。SnK28資訊網——每日最新資訊28at.com

參考資料:SnK28資訊網——每日最新資訊28at.com

https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-withSnK28資訊網——每日最新資訊28at.com

https://x.com/tydsh/status/1794137012532081112SnK28資訊網——每日最新資訊28at.com

https://x.com/emollick/status/1794056462349861273SnK28資訊網——每日最新資訊28at.com

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311SnK28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)SnK28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4466-0.html芝大論文證明 GPT-4 選股準確率高達 60%,人類股票分析師要下崗?AI 大牛質疑數據污染

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: ChatGPT 開啟 macOS 公測版本下載:快捷鍵啟動、支持識屏答疑

下一篇: 振興鄉村發展 助力青少年教育 中國三星連續十一年蟬聯企業社會責任榜外企第一

標簽:
  • 熱門焦點
Top