admin管理员组

文章数量:1130349

特征选择

概念:就是从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。
特征选择常用的方法有:过滤法,嵌入法,包装法,和降维算法

过滤法

sklearn.feature_selection.VarianceThreshold 方差阈值法

sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征。

若数据维度较高,并且需要剔除一些特征,那么依据每个特征所携带的信息熵进行过滤是一种简便快速的特征筛选方法。

from sklearn.feature_selection import VarianceThreshold
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data[0:5])
#方差选择法,返回值为特征选择后的数据 #参数threshold为方差的阈值
selector = VarianceThreshold(threshold=1).fit(iris.data, iris.target)
data = selector.transform(iris.data)
print(data[0:5])
print(selector.variances_)

特征选择

概念:就是从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。
特征选择常用的方法有:过滤法,嵌入法,包装法,和降维算法

过滤法

sklearn.feature_selection.VarianceThreshold 方差阈值法

sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征。

若数据维度较高,并且需要剔除一些特征,那么依据每个特征所携带的信息熵进行过滤是一种简便快速的特征筛选方法。

from sklearn.feature_selection import VarianceThreshold
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data[0:5])
#方差选择法,返回值为特征选择后的数据 #参数threshold为方差的阈值
selector = VarianceThreshold(threshold=1).fit(iris.data, iris.target)
data = selector.transform(iris.data)
print(data[0:5])
print(selector.variances_)

本文标签: 特征Sklearnfeatureselection