當前位置：首頁 > 科技 > 軟件

使用Python從頭開始構建決策樹算法

來源：責編：時間：2023-08-14 22:01:22 357觀看

導讀決策樹(Decision Tree)是一種常見的機器學習算法，被廣泛應用于分類和回歸任務中。并且再其之上的隨機森林和提升樹等算法一直是表格領域的最佳模型，所以本文將介紹理解其數學概念，并在Python中動手實現，這可以作為了解這

決策樹(Decision Tree)是一種常見的機器學習算法，被廣泛應用于分類和回歸任務中。并且再其之上的隨機森林和提升樹等算法一直是表格領域的最佳模型，所以本文將介紹理解其數學概念，并在Python中動手實現，這可以作為了解這類算法的基礎知識。

在深入研究代碼之前，我們先要了解支撐決策樹的數學概念:熵和信息增益

熵：雜質的量度

熵作為度量來量化數據集中的雜質或無序。特別是對于決策樹，熵有助于衡量與一組標簽相關的不確定性。數學上，數據集S的熵用以下公式計算:

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數據集中正標簽的比例，P_neg表示數據集中負標簽的比例。

更高的熵意味著更大的不確定性或雜質，而更低的熵意味著更均勻的數據集。

信息增益：通過拆分提升知識

信息增益是評估通過基于特定屬性劃分數據集所獲得的熵的減少。也就是說它衡量的是執行分割后標簽確定性的增加。

數學上，對數據集S中屬性a進行分割的信息增益計算如下:

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數據集，A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。

目標是通過選擇使信息增益最大化的屬性，在決策樹中創建信息量最大的分割。

在Python中實現決策樹算法

有了以上的基礎，就可以使用Python從頭開始編寫Decision Tree算法。

首先導入基本的numpy庫，它將有助于我們的算法實現。

import numpy as np

創建DecisionTree類

class DecisionTree:    def __init__(self, max_depth=None):        self.max_depth = max_depth

定義了DecisionTree類來封裝決策樹。max_depth參數是樹的最大深度，以防止過擬合。

def fit(self, X, y, depth=0):        n_samples, n_features = X.shape        unique_classes = np.unique(y)                 # Base cases        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

擬合方法是決策樹算法的核心。它需要訓練數據X和相應的標簽，以及一個可選的深度參數來跟蹤樹的深度。我們以最簡單的方式處理樹的生長：達到最大深度或者遇到純類。

確定最佳分割屬性，循環遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計算每個屬性的信息增益。

best_attribute = None best_info_gain = -1 for feature in range(n_features):            info_gain = self._information_gain(X, y, feature)            if info_gain > best_info_gain:                best_info_gain = info_gain                best_attribute = feature

處理不分割屬性，如果沒有屬性產生正的信息增益，則將類標簽分配為節點的標簽。

if best_attribute is None:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

分割和遞歸調用，下面代碼確定了分割的最佳屬性，并創建兩個子節點。根據屬性的閾值將數據集劃分為左右兩個子集。

self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold    right_indices = ~left_indices     self.left = DecisionTree(max_depth=self.max_depth)    self.right = DecisionTree(max_depth=self.max_depth)     self.left.fit(X[left_indices], y[left_indices], depth + 1)    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過遞歸調用左子集和右子集的fit方法來構建子樹。

預測方法使用訓練好的決策樹進行預測。如果到達一個葉節點(帶有標簽的節點)，它將葉節點的標簽分配給X中的所有數據點。

def predict(self, X):        if hasattr(self, 'label'):            return np.array([self.label] * X.shape[0])

當遇到非葉節點時，predict方法根據屬性閾值遞歸遍歷樹的左子樹和右子樹。來自雙方的預測被連接起來形成最終的預測數組。

is_left = X[:, self.attribute] <= self.threshold        left_predictions = self.left.predict(X[is_left])        right_predictions = self.right.predict(X[~is_left])                 return np.concatenate((left_predictions, right_predictions))

下面兩個方法是決策樹的核心代碼，并且可以使用不同的算法來進行計算，比如ID3 算法使用信息增益作為特征選擇的標準，該標準度量了將某特征用于劃分數據后，對分類結果的不確定性減少的程度。算法通過遞歸地選擇信息增益最大的特征來構建決策樹，也就是我們現在要演示的算法。

_information_gain方法計算給定屬性的信息增益。它計算分裂后子熵的加權平均值，并從父熵中減去它。

def _information_gain(self, X, y, feature):        parent_entropy = self._entropy(y)                 unique_values = np.unique(X[:, feature])        weighted_child_entropy = 0                 for value in unique_values:            is_value = X[:, feature] == value            child_entropy = self._entropy(y[is_value])            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                 return parent_entropy - weighted_child_entropy

熵的計算

def _entropy(self, y):        _, counts = np.unique(y, return_counts=True)        probabilities = counts / len(y)        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計算數據集y的熵，它計算每個類的概率，然后使用前面提到的公式計算熵。

常見的算法還有：

C4.5 是 ID3 的改進版本，C4.5 算法在特征選擇時使用信息增益比，這是對信息增益的一種歸一化，用于解決信息增益在選擇特征時偏向于取值較多的特征的問題。

CART 與 ID3 和 C4.5 算法不同，CART(Classification And Regression Tree)又被稱為分類回歸樹，算法采用基尼不純度(Gini impurity)來度量節點的不確定性，該不純度度量了從節點中隨機選取兩個樣本，它們屬于不同類別的概率。

ID3、C4.5 和 CART 算法都是基于決策樹的經典算法，像Xgboost就是使用的CART 作為基礎模型。

總結

以上就是使用Python中構造了一個完整的決策樹算法的全部。決策樹的核心思想是根據數據的特征逐步進行劃分，使得每個子集內的數據盡量屬于同一類別或具有相似的數值。在構建決策樹時，通常會使用一些算法來選擇最佳的特征和分割點，以達到更好的分類或預測效果。

本文鏈接：http://www.tebozhan.com/showinfo-26-5736-0.html使用Python從頭開始構建決策樹算法

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：九個實用的 JavaScript 技巧

下一篇：五個 AI API 可自動解決你的日常問題

標簽：

熱門焦點

K60至尊版剛預熱一加Ace2 Pro正面硬剛

Redmi這邊剛如火如荼的宣傳了K60 Ultra的各種技術和硬件配置，作為競品的一加也坐不住了。一加中國區總裁李杰發布了兩條微博，表示在自家的一加Ace2上早就已經采用了和PixelWo
6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年6月1日至6月30日，僅限國內市場。第一名：魅族20 Pro好評率：95%5月份的時候魅族20 Pro就是
一篇聊聊Go錯誤封裝機制

%w 是用于錯誤包裝（Error Wrapping）的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞，用于將一個錯誤（或其他可打印的值）包裝在一個新的錯誤中。使
之家push系統迭代之路

前言在這個信息爆炸的互聯網時代，能夠及時準確獲取信息是當今社會要解決的關鍵問題之一。隨著之家用戶體量和內容規模的不斷增大，傳統的靠"主動拉"獲取信息的方式已不能滿足用
花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

來源：極點商業作者：楊銘在淘寶購買珠寶玉石后，因為保證金不夠賠付，店鋪關閉，退貨退款難、維權無門的比比皆是。“提供相關產品鑒定證書，支持全國復檢，可以30天無理由退換貨。&
大廠卷向扁平化

來源：新熵作者丨南枝編輯丨月見大廠職級不香了。俗話說，兵無常勢，水無常形，互聯網企業調整職級體系并不稀奇。7月13日，淘寶天貓集團啟動了近年來最大的人力制度改革，目前已形成一
三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

7月27日消息，據外媒報道，從三星電子所發布的財報來看，他們主要利潤來源的存儲芯片業務在今年二季度仍不樂觀，營收同比仍在大幅下滑，所在的設備解決方案
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
半導體需求下滑三星電子DS業務部門今年營業虧損預計超10萬億韓元

7月17日消息，據外媒報道，去年下半年開始的半導體需求下滑，影響到了三星電子、SK海力士、英特爾等諸多廠商，營收明顯下滑，部分廠商甚至出現了虧損。作為

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

使用Python從頭開始構建決策樹算法

熵：雜質的量度

信息增益：通過拆分提升知識

在Python中實現決策樹算法

總結

K60至尊版剛預熱一加Ace2 Pro正面硬剛

6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

一篇聊聊Go錯誤封裝機制

之家push系統迭代之路

花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

大廠卷向扁平化

三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

半導體需求下滑三星電子DS業務部門今年營業虧損預計超10萬億韓元

最新推薦

猜你喜歡

熱門推薦

相關資訊