算法在某个集合中找个一个或者多个的和等于某个固定值_决策树算法介绍_weixin_39531037的博客-CSDN博客

一、定义

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。

其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

总结来说:

决策树模型核心是下面几部分:

  1. 结点和有向边组成
  2. 结点有内部结点和叶结点俩种类型
  3. 内部结点表示一个特征,叶节点表示一个类

二、ID3算法

“信息熵”是度量样本集合不确定度(纯度)的最常用的指标。

在我们的ID3算法中,我们采取信息增益这个量来作为纯度的度量。我们选取使得信息增益最大的特征进行分裂!

信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)。而我们的信息增益恰好是:信息熵-条件熵。

当前样本集合 D 中第 k 类样本所占的比例为 pk ,则 D 的信息熵定义为

71dc4b019f2fe1000dc58b17ea7ef16c.png

离散属性 a 有 V 个可能的取值 {a1,a2,…,aV};样本集合中,属性 a 上取值为 av 的样本集合,记为 Dv。

用属性 a 对样本集 D 进行划分所获得的“信息增益”

7903aa35c8bb4a7abe210a9953dd5398.png

信息增益表示得知属性 a 的信息而使得样本集合不确定度减少的程度

在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。

这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。

三、C4.5算法

首先我们来看信息增益率的公式:

eb0e2f8997895a241112ddbb6340f81d.png

由上图我们可以看出,信息增益率=信息增益/IV(a),说明信息增益率是信息增益除了一个属性a的固有值得来的。

我们来看IV(a)的公式:

属性a的固有值:

a69e761a123a5fc1dfb97df0a77e11d6.png

由上面的计算例子,可以看出IV(a)其实能够反映出,当选取该属性,分成的V类别数越大,IV(a)就越大,如果仅仅只用信息增益来选择属性的话,那么我们偏向于选择分成子节点类别大的那个特征。

但是在前面分析了,并不是很好,所以我们需要除以一个属性的固定值,这个值要求随着分成的类别数越大而越小。于是让它做了分母。这样可以避免信息增益的缺点。

那么信息增益率就是完美无瑕的吗?

当然不是,有了这个分母之后,我们可以看到增益率准则其实对可取类别数目较少的特征有所偏好!毕竟分母越小,整体越大。


原网址: 访问
创建于: 2021-02-01 14:07:13
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论