什么是决策树？

小白的备忘录记录了他去自学的路上。。

参考:

决策树(分类树、回归树)

决策树:这个博客的图解真的很美，很好理解。哈哈的笑

决策树的详细解释

决策树是一种监督学习算法，常用于分类和回归。本文只讨论分类问题。

决策树模型是一种用于分类和回归的树结构。决策树由节点和有向边组成。通常，决策树包含一个根节点、几个内部节点和几个叶节点。决策树的决策过程需要从决策树的根节点开始，将待测数据与决策树中的特征节点进行比较，根据比较结果选择下一个比较分支，直到叶子节点为最终决策结果。

简而言之，决策树是一种使用树模型进行决策的多分类模型。

为了找到最优分割特征，我们需要先了解一些信息论知识:

纯度:

你可以把决策树的构建过程理解为寻找纯除法的过程。数学上，我们可以表示纯度，另一种解释纯度的方法是最小化目标变量的差异。

信息的不确定性。

在信息论中，随机离散事件的概率是不确定的。为了度量这些信息的不确定性，信息学之父香农引入了信息熵的概念。

不确定性越大，包含的信息量越大，信息熵越高。

信息熵越大，纯度越低。当集合中所有样本混合均匀时，信息熵最大，纯度最低。

“杂质”有三个经典指标，分别是信息增益(ID3算法)、信息增益率(C4.5算法)和基尼指数(Cart算法)。

信息增益:

信息增益意味着除法可以提高纯度，降低信息熵。它的计算公式是父节点的信息熵减去所有子节点的信息熵。

信息增益率

信息增益率=信息增益/属性熵

基尼指数

基尼指数(Gini杂质):表示样本集中随机选择的样本被错误分类的概率。

即基尼指数(基尼杂质)=样本被选中的概率*样本被错误分类的概率。

基尼系数的性质和信息熵一样:它度量的是随机变量的不确定性；

g越大，数据的不确定性越高；

g越小，数据的不确定性越低；

G = 0，数据集中的所有样本属于同一类别。

详细参考:机器学习-基尼指数

ID3算法基于奥卡姆剃刀(你可以用更少的东西把事情做好):决策树越小，决策树越好。

ID3算法的核心是根据决策树各节点的信息增益选择待划分的特征，然后递归构造决策树。该算法使用自顶向下的贪婪搜索来遍历可能的决策树空间。

具体方法:

ID3的局限性:

C4.5与ID3类似，但它的一大特点是克服了ID3注重特征数量的缺点，引入了信息增益率作为分类标准。

C4.5的实现是在ID3的基础上改进的；

信息增益率偏向于期望值较低的特征(分母越小，整体越大)，所以C4.5并不直接划分增益率最大的特征，而是采用启发式的方法:首先从候选划分特征中找出信息增益高于平均值的特征，然后选择增益率最高的特征。

C4.5的限制:

ID3和C4.5生成的决策树分支和规模都很大。CART算法的二分法可以简化决策树的规模，提高生成决策树的效率。

Cart(分类回归树)是一种分类回归树算法，既可以用于分类，也可以用于回归。在这一部分，我们主要是先生成它的分类树。与ID3和C4.5不同的是，CART假设决策树是二叉树，内部节点特征值为“是”和“否”，左分支是值为“是”的分支，右分支是值为“否”的分支。这样的决策树相当于递归地将每个特征一分为二，并将输入空间(即特征空间)划分为有限个单元。

CART的分类树使用基尼指数来选择最优特征的最优分界点，具体过程如下。

剪枝就是给决策树瘦身。这一步的目标是不需要过多的判断就能得到好的结果。这样做的原因是为了防止“过拟合”的现象。

过拟合:是指模型的训练结果“太好了”，在实际应用过程中会出现“刚性”，导致分类错误。

欠拟合:指模型的训练结果不理想。

修剪方法:

参考:机器学习决策树(一)-ID3，C4.5，CART(非常详细)

更多的型号在不断更新。。。。