AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 軟件

使用Python從頭開始構建決策樹算法

來源: 責編: 時間:2023-08-14 22:01:22 323觀看
導讀決策樹(Decision Tree)是一種常見的機器學習算法,被廣泛應用于分類和回歸任務中。并且再其之上的隨機森林和提升樹等算法一直是表格領域的最佳模型,所以本文將介紹理解其數(shù)學概念,并在Python中動手實現(xiàn),這可以作為了解這

決策樹(Decision Tree)是一種常見的機器學習算法,被廣泛應用于分類和回歸任務中。并且再其之上的隨機森林和提升樹等算法一直是表格領域的最佳模型,所以本文將介紹理解其數(shù)學概念,并在Python中動手實現(xiàn),這可以作為了解這類算法的基礎知識。zNi28資訊網——每日最新資訊28at.com

zNi28資訊網——每日最新資訊28at.com

在深入研究代碼之前,我們先要了解支撐決策樹的數(shù)學概念:熵和信息增益zNi28資訊網——每日最新資訊28at.com

熵:雜質的量度

熵作為度量來量化數(shù)據(jù)集中的雜質或無序。特別是對于決策樹,熵有助于衡量與一組標簽相關的不確定性。數(shù)學上,數(shù)據(jù)集S的熵用以下公式計算:zNi28資訊網——每日最新資訊28at.com

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數(shù)據(jù)集中正標簽的比例,P_neg表示數(shù)據(jù)集中負標簽的比例。zNi28資訊網——每日最新資訊28at.com

更高的熵意味著更大的不確定性或雜質,而更低的熵意味著更均勻的數(shù)據(jù)集。zNi28資訊網——每日最新資訊28at.com

信息增益:通過拆分提升知識

信息增益是評估通過基于特定屬性劃分數(shù)據(jù)集所獲得的熵的減少。也就是說它衡量的是執(zhí)行分割后標簽確定性的增加。zNi28資訊網——每日最新資訊28at.com

數(shù)學上,對數(shù)據(jù)集S中屬性a進行分割的信息增益計算如下:zNi28資訊網——每日最新資訊28at.com

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數(shù)據(jù)集,A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。zNi28資訊網——每日最新資訊28at.com

目標是通過選擇使信息增益最大化的屬性,在決策樹中創(chuàng)建信息量最大的分割。zNi28資訊網——每日最新資訊28at.com

在Python中實現(xiàn)決策樹算法

有了以上的基礎,就可以使用Python從頭開始編寫Decision Tree算法。zNi28資訊網——每日最新資訊28at.com

首先導入基本的numpy庫,它將有助于我們的算法實現(xiàn)。zNi28資訊網——每日最新資訊28at.com

import numpy as np

創(chuàng)建DecisionTree類zNi28資訊網——每日最新資訊28at.com

class DecisionTree:    def __init__(self, max_depth=None):        self.max_depth = max_depth

定義了DecisionTree類來封裝決策樹。max_depth參數(shù)是樹的最大深度,以防止過擬合。zNi28資訊網——每日最新資訊28at.com

def fit(self, X, y, depth=0):        n_samples, n_features = X.shape        unique_classes = np.unique(y)                 # Base cases        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

擬合方法是決策樹算法的核心。它需要訓練數(shù)據(jù)X和相應的標簽,以及一個可選的深度參數(shù)來跟蹤樹的深度。我們以最簡單的方式處理樹的生長:達到最大深度或者遇到純類。zNi28資訊網——每日最新資訊28at.com

確定最佳分割屬性,循環(huán)遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計算每個屬性的信息增益。zNi28資訊網——每日最新資訊28at.com

best_attribute = None best_info_gain = -1 for feature in range(n_features):            info_gain = self._information_gain(X, y, feature)            if info_gain > best_info_gain:                best_info_gain = info_gain                best_attribute = feature

處理不分割屬性,如果沒有屬性產生正的信息增益,則將類標簽分配為節(jié)點的標簽。zNi28資訊網——每日最新資訊28at.com

if best_attribute is None:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

分割和遞歸調用,下面代碼確定了分割的最佳屬性,并創(chuàng)建兩個子節(jié)點。根據(jù)屬性的閾值將數(shù)據(jù)集劃分為左右兩個子集。zNi28資訊網——每日最新資訊28at.com

self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold    right_indices = ~left_indices     self.left = DecisionTree(max_depth=self.max_depth)    self.right = DecisionTree(max_depth=self.max_depth)     self.left.fit(X[left_indices], y[left_indices], depth + 1)    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過遞歸調用左子集和右子集的fit方法來構建子樹。zNi28資訊網——每日最新資訊28at.com

預測方法使用訓練好的決策樹進行預測。如果到達一個葉節(jié)點(帶有標簽的節(jié)點),它將葉節(jié)點的標簽分配給X中的所有數(shù)據(jù)點。zNi28資訊網——每日最新資訊28at.com

def predict(self, X):        if hasattr(self, 'label'):            return np.array([self.label] * X.shape[0])

當遇到非葉節(jié)點時,predict方法根據(jù)屬性閾值遞歸遍歷樹的左子樹和右子樹。來自雙方的預測被連接起來形成最終的預測數(shù)組。zNi28資訊網——每日最新資訊28at.com

is_left = X[:, self.attribute] <= self.threshold        left_predictions = self.left.predict(X[is_left])        right_predictions = self.right.predict(X[~is_left])                 return np.concatenate((left_predictions, right_predictions))

下面兩個方法是決策樹的核心代碼,并且可以使用不同的算法來進行計算,比如ID3 算法使用信息增益作為特征選擇的標準,該標準度量了將某特征用于劃分數(shù)據(jù)后,對分類結果的不確定性減少的程度。算法通過遞歸地選擇信息增益最大的特征來構建決策樹,也就是我們現(xiàn)在要演示的算法。zNi28資訊網——每日最新資訊28at.com

_information_gain方法計算給定屬性的信息增益。它計算分裂后子熵的加權平均值,并從父熵中減去它。zNi28資訊網——每日最新資訊28at.com

def _information_gain(self, X, y, feature):        parent_entropy = self._entropy(y)                 unique_values = np.unique(X[:, feature])        weighted_child_entropy = 0                 for value in unique_values:            is_value = X[:, feature] == value            child_entropy = self._entropy(y[is_value])            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                 return parent_entropy - weighted_child_entropy

熵的計算zNi28資訊網——每日最新資訊28at.com

def _entropy(self, y):        _, counts = np.unique(y, return_counts=True)        probabilities = counts / len(y)        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計算數(shù)據(jù)集y的熵,它計算每個類的概率,然后使用前面提到的公式計算熵。zNi28資訊網——每日最新資訊28at.com

常見的算法還有:zNi28資訊網——每日最新資訊28at.com

C4.5 是 ID3 的改進版本,C4.5 算法在特征選擇時使用信息增益比,這是對信息增益的一種歸一化,用于解決信息增益在選擇特征時偏向于取值較多的特征的問題。zNi28資訊網——每日最新資訊28at.com

CART 與 ID3 和 C4.5 算法不同,CART(Classification And Regression Tree)又被稱為分類回歸樹,算法采用基尼不純度(Gini impurity)來度量節(jié)點的不確定性,該不純度度量了從節(jié)點中隨機選取兩個樣本,它們屬于不同類別的概率。zNi28資訊網——每日最新資訊28at.com

ID3、C4.5 和 CART 算法都是基于決策樹的經典算法,像Xgboost就是使用的CART 作為基礎模型。zNi28資訊網——每日最新資訊28at.com

總結

以上就是使用Python中構造了一個完整的決策樹算法的全部。決策樹的核心思想是根據(jù)數(shù)據(jù)的特征逐步進行劃分,使得每個子集內的數(shù)據(jù)盡量屬于同一類別或具有相似的數(shù)值。在構建決策樹時,通常會使用一些算法來選擇最佳的特征和分割點,以達到更好的分類或預測效果。zNi28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-5736-0.html使用Python從頭開始構建決策樹算法

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 九個實用的 JavaScript 技巧

下一篇: 五個 AI API 可自動解決你的日常問題

標簽:
  • 熱門焦點
  • Golang 中的 io 包詳解:組合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合,
  • 從 Pulsar Client 的原理到它的監(jiān)控面板

    背景前段時間業(yè)務團隊偶爾會碰到一些 Pulsar 使用的問題,比如消息阻塞不消費了、生產者消息發(fā)送緩慢等各種問題。雖然我們有個監(jiān)控頁面可以根據(jù) topic 維度查看他的發(fā)送狀態(tài),
  • 如何正確使用:Has和:Nth-Last-Child

    我們可以用CSS檢查,以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如,一個擁有三個或更多子項的grid。你可能會想,為什么需要這樣做呢?在某些情況下,一個組件或一個布局可能會
  • 讓我們一起聊聊文件的操作

    文件【1】文件是什么?文件是保存數(shù)據(jù)的地方,是數(shù)據(jù)源的一種,比如大家經常使用的word文檔、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存數(shù)據(jù),它既可以保
  • JVM優(yōu)化:實戰(zhàn)OutOfMemoryError異常

    一、Java堆溢出堆內存中主要存放對象、數(shù)組等,只要不斷地創(chuàng)建這些對象,并且保證 GC Roots 到對象之間有可達路徑來避免垃 圾收集回收機制清除這些對象,當這些對象所占空間超過
  • 拼多多APP上線本地生活入口,群雄逐鹿萬億市場

    Tech星球(微信ID:tech618)文 | 陳橋輝 Tech星球獨家獲悉,拼多多在其APP內上線了&ldquo;本地生活&rdquo;入口,位置較深,位于首頁的&ldquo;充值中心&rdquo;內,目前主要售賣美食相關的
  • 年輕人的“職場羞恥感”,無處不在

    作者:馮曉亭 陶 淘 李 欣 張 琳 馬舒葉來源:燃次元&ldquo;人在職場,應該選擇什么樣的著裝?&rdquo;近日,在網絡上,一個與著裝相關的帖子引發(fā)關注,在該帖子里,一位在高級寫字樓亞洲金
  • 引領旗艦級影像能力向中端機普及 OPPO K11 系列發(fā)布 1799 元起

    7月25日,OPPO正式發(fā)布K系列新品—— OPPO K11 。此次 K11 在中端手機市場長期被忽視的影像板塊發(fā)力,突破性地搭載索尼 IMX890 旗艦大底主攝,支持 OIS
  • 榮耀Magic4 至臻版 首創(chuàng)智慧隱私通話 強勁影音系統(tǒng)

    2022年第一季度臨近尾聲,在該季度內,許多品牌陸續(xù)發(fā)布自己的最新產品,讓大家從全新的角度來了解當今的手機技術。手機是電子設備中,更新迭代十分迅速的一款產品,基
Top