特征工程之特征选择

特征选择是特征工程的一部分。特征选择主要解决我们应该使用哪些特征来训练预测模型的问题。选择特征往往需要特定领域知识，但有时候也可以通过某些方法自动选择出和问题相关度大的那些特征。

特征选择与降维

特征选择不同于降维，虽然他们都寻求减少数据集中属性的数量，但是降维主要是通过组合多个属性到一个属性来达到降维，而特征选择只是从特征中选择属性却并不改变属性。

降维的方法包括：主成分分析(Principal Component Analysis)、奇异值分解(Singular Value Decomposition)、Sammon映射(Sammon’s Mapping)。这些方法另外讲解。

在机器学习实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能相互依赖。特征越多训练时间越长，模型也会越复杂。特征选择能剔除不相关或者冗余的数据，达到以下目的：

特征选择一般先从特征全集中产生一个特征子集，然后用评价函数对该特征子集进行评价，评价的结果与停止准则进行比较，若评价结果比停止准则好就停止，否则就继续产生下一组特征子集，继续进行特征选择。选出来的特征子集一般还要验证其有效性。

产生过程是搜索特征子空间的过程。搜索算法分为完全搜索、启发式搜索、随机搜索三大类。

特征选择方法主要按照搜索策略和评价标准进行分类。这里使用基于评价标准进行划分。

这种方法的主要思想是对各维特征赋予权重，然后依据权重排序，越重要的特征权重越高。
主要方法有：

这种方法的主要思想是将特征子集的选择当做一个搜索寻优的过程，生成不同的组合，对组合进行评价，再对组合进行比较。
主要方法有：

这种方法的主要思想是在模型训练的过程中，挑选出对模型训练有重要意义的属性。
主要方法有：

要注意的是选择不同的特征训练出的模型是不同的，特征选择就是模型选择的一部分，所以要先对数据进行分组，即分为训练集和测试集，然后再做特征选择。如果先进行特征选择，那么特征子集在分组后有具有随机性了。