Regression
Linear Regression 线性回归 最小二乘问题 利用PolynomialFeatures转化特征
Ridge Regression L2正则形式 凸函数 保证唯一最优解
Lasso Regression L1正则形式 稀疏解
0<p<=1 稀疏解 但可能陷入局部最优解
p>1 唯一最优解 无稀疏性
Elastic Net L1和L2的线性组合
稀疏解:压缩模型,特征选择(其他方法卡方,树,线性相关系数)
Kernel model 适用于特征数高于样本数时
Classification
Decision Tree
ID3 信息增益
C4.5 信息增益比
CART 基尼系数 可应用于回归
利用bagging,random forest大大降低了方差。EtraTree在特征阈值选择中进行随机化,进一步降低方差。
Boosting:GBM常用实现xgboost、lightGBM、thunderGBM。
SVM: 线性可分时,以最大化几何间隔出发,求解分离超平面的参数。非严格可分时,引入惩罚系数。非线性时,引入kernel trick,最常使用RBF径向基核函数。常用库:Liblinear(linearSVC、不支持核技巧)和Libsvm(SVC、支持核技巧)。
目标函数可转化为拉格朗日的对偶形式,利用SMO求解。也可以在通过梯度下降法最小化L2正则化的hinge loss。多分类情况采用one vs one 或 one vs rest的情况扩展。SVR:应用于回归任务的SVM。
Logistic regression:线性分类非回归,sigmoid转化logits为概率,极大似然估计法求解超平面参数,即最小化数据整体的binary_entrophy。多分类one vs rest策略。
FM和FFM是LR的推广和工程应用,考虑了不同特征之间的交叉性质。
LR为log linear model,最大熵模型和条件随机场可视为广义的LR。
NB(naive_bayes)
贝叶斯公式,最大化后验概率,似然p(x|θ)中x各维特征互相独立,此为朴素。
可分为三类:gaussian、multinomial(长文档分类、TF-IDF的向量表示)、bernoulli(短文档分类)。
KNN 依据高维空间的距离进行归纳并分类,k为选择的近邻点数量,kd-tree引入加速近邻点的查找,同样可以使用在回归中。
Clustering
Kmeans最小化所有点到所属点簇中心的距离之和。K为点簇数量,初始点的选择对算法结果有较大影响,引入kmeans++优化初始点的选择,实际训练时选多次初始化的最优结果。其他实现:bisecting-kmeans,minibatch-kmeans。kmeans为距离度量,适用于均匀的点簇大小、点簇数量适中、凸形数据集。
Mean-shift 基于密度漂移的聚类方法,只需设定带宽参数,适用于点簇数量多,不均匀的点簇大小,数据集分布不规则的情况。
Spectral Clustering 图距离,须设定点簇数量,适用于较少的点簇数量,均匀的点簇大小,数据集分布不规则的情况。
DBSCAN 基于密度的聚类方法,需设定距离阈值,核心点的最少临近点数量,适用于不均匀的点簇大小,数据集分布不规则的情况。OPTICS为DBSACN的广义形式。
AgglomerativeClustering 凝聚性聚类,有ward、maximum linkage、average linkage、single linkage等策略。
Birch 基于CF tree的快速聚类,适用于大型数据的前期处理,和异常值去除。
Gaussian Mixture EM在估计多个高斯混合分布中的使用,须设定混合的分量数,适用于凸形数据集。
上述方法中,DBSCAN、AgglomerativeClustering、minibatch-kmeans可在样本数较大时使用。
Dimensionality Reduction
PCA ,根据方差占比选择协方差矩阵的特征向量,对原样本进行转换实现降维。
可用SVD实现。
LDA 有监督的降维,利用逆类内散度矩阵与类间散度矩阵的乘积的特征向量,
进行降维。
流行学习:高维度数据在空间的某些尺度上呈现出规则的几何形状,降维时须考虑这种特定的分布。
有MDS、LLE、ISOMAP、LE、t-SNE等。
其中,t-SNE效果突出,其利用距离度量高维与低维空间点的分布,并最小化两个分部间的KL divergence。