决策树
决策树以数据特征做划分,利用特征鲜明且完备的方式将数据划入不同的分类。是一种数值离散的聚类算法。 其中最主要的两个知识点是信息熵和信息增益。决策树根据所给数据特征的信息增益决定划分方式。
特征选择
选取对训练数据具有分类功能的特征 信息熵 在信息论和概率统计中对随记变量不确定性的度量 设X是一个取有限个值的离散随机变量,其概率分布:
$$
P(X = x_i)=p_i, i = 1,2,···n
$$
则X的熵定义为:$H(X) =- \sum_{i=1}^{n}p_ilog(p_i)$log以2为底单位为比特(bit) 上式表明熵越大X的不确定度越大 若有二维随机变量(X,Y),其联合概率为:
$$
P(X = x_i,Y = yj) = p{ij} , i = 1,2,3······n,j= 1,2,3······m
$$
条件熵H(Y|X)
表示在已知随机变量X的条件下随机变量Y的不确定度。
$$
H(Y|X) = \sum_{i = 1}^{n}p_iH(Y|X=x_i)
$$
$$
p_i = P(X = x_i),i = 1,2,3······n
$$
在得到一批数据后可以通过数据估计,所得熵与条件熵称经验熵和经验条件熵
信息增益
表示在得知特征X的条件下,而使得Y的信息不确定性减少的程度。 特征 X对训练数据集Y的信息增益g(Y,X),定义为集合Y的经验熵H(Y)与特征 X给定条件下Y的经验条件熵H(Y|X)之差
$$
g(Y,X) = H(Y) - H(Y|X)
$$
因此对给定数据集和特征,信息增益越大的特征具有更强的分类能力 所以特征选择的方法:对数据集,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征,并迭代进行
计算信息熵(香农熵)
|
|
计算条件熵选择最好的分类特征
|
|