固有值是对分裂结果(分裂之后)的熵的衡量,信息增益是分裂前的数据的熵与分裂后的数据的熵的差值 该方式主要是为了避免多值特征对分裂特征选择的影响
什么是多值特征?它又是怎么影响的?
当一个特征的特征值重复率特别低,例如某个产品的product_id
,如果按这种数值多且重复率低的特征分裂,那么分裂后很容易出现每个叶子结点上都只有一个样本或很少样本的情况,这样的话信息增益几乎就是分裂前的熵之和,但是一味按照这样的分裂没有意义
因此,计算增益占分裂之后的比例,能一定程度上避免该问题
固有值是对分裂结果(分裂之后)的熵的衡量,信息增益是分裂前的数据的熵与分裂后的数据的熵的差值 该方式主要是为了避免多值特征对分裂特征选择的影响
什么是多值特征?它又是怎么影响的?
当一个特征的特征值重复率特别低,例如某个产品的product_id
,如果按这种数值多且重复率低的特征分裂,那么分裂后很容易出现每个叶子结点上都只有一个样本或很少样本的情况,这样的话信息增益几乎就是分裂前的熵之和,但是一味按照这样的分裂没有意义
因此,计算增益占分裂之后的比例,能一定程度上避免该问题