您的当前位置:首页正文

18年第20周:李航 | 决策树学习的通俗解释

来源:花图问答
决策树入门案例

是否学习的决策过程解释:
椭圆框内:是决策树的特征(根据特征来分类),比如<女票>;
表情图:是决策树的类别(决策树是用来分类的),比如<学习>;
有向箭头:是决策树特征的属性值,比如<需要>;


一、整体直观的了解:

决策树算法构成:

  1. 决策树的构造
  • ①决策树的特征选择
  • ②决策树的生成
  • ③决策树的剪枝过程
  1. 决策树的决策(遍历)

决策树算法构成的具体解释:
首先,在《是否学习的决策过程》入门案例过程中,重点难点在于怎么构造决策树。这又分为三部份:

第一部分①决策树的特征选择,决策树本身是个分类决策做决定的过程,那么对我们做决策有影响(术语叫:信息增益Or信息增益比)的事物就可能作为特征,所以,女票必须是特征;

第二部分②决策树的生成,当我们完成特征选择后,怎么把这些特征排成一颗树呢?哪个特征应该放在树的顶端Or树的中部Or树的底部呢?按照常识,当然是按照重要性(术语叫:信息增益大小)大小来排布了。而女票是个重要性(术语叫:信息增益)最大,所以排第一没毛病!

第三部分③决策树的剪枝:经过②决策树的生成,我们得到的只是一个片面的局部的决策树模型,他只能实现局部最优化,也就是可能在人生的某一时期实现最优化,但不能确保整个人生的最优化。因此为了实现人生损失的最小化(术语叫:损失函数的最小化Or正则化的极大似然估计),就必须进行第三部分的剪枝过程。

其次,根据决策树构成三部分的不同而组成了不同的决策树算法。

决策树的构成
决策树本身是个分类过程,当然有着不同的分法,这就像不同的人拥有着不同的价值观,也就对同一事物(女票第一还是吃鸡第一)有着不同的评价。在业界内,一般有着这样三种不同的评价(女票第一还是吃鸡第一)算法。
决策树的算法
  1. CART算法--1984年
  2. ID3算法--1986年
  3. C4.5算法--1993年(机器学习十大算法之一)
    算法的不同具体点说就是决策树组成的三大部分不同,也许是特征选择不同、也许是决策树的生成不同、也许是决策的剪枝不同。

最后,当我们通过决策树的算法构造好了一颗决策树后,我们就可以进行决策了。决策树的决策过程简单点说就是决策树的遍历

具体微观的学习:

这部分主要是上面所说的三大算法的数学学习,侧重点在于C4.5算法(机器学习十大算法之一)
首先,了解一下决策树的CART算法、ID3算法、C4.5算法的同与不同。我们知道,决策树的算法由三大部分构成,那么算法的不同当然是三大部分的不同。

所谓的不同?到底是什么不同呢?穷举
决策树算法的不同
其次,来看看三类算法的具体理论、案例、总结
CART算法:
ID3算法:
C4.5算法:

目前在自学机器学习相关的内容,由于作者水平有限,文中难免有错误和不当之处,欢迎专家和读者给予批评指正。