传统统计软件R:SAS、R、MatLab软件为代表,主要应用于统计、数学、物理等理论统计
Weka:java实现。
Mahout:运行基于java在hadoop上的软件包,现在基于Spark的MLLib取代了Mahout
C语言被python和R取代
Scikit 基于了numpy 和Scipy 进行迭代开发,由谷歌开发资助,紧扣实际。
优势:开发周期短,直接部署。
查阅API官方文档
sklearn.cluster 聚类分析
sklearn.manifold_learning 流形分析
sklearn.decomposition 矩阵分析
sklearn.emsemble 集成分析
sklearn.gaussian_process 高斯过程
sklearn.linear_model 广义线性模型
sklearn.mixture 高斯混合模型
sklearn.naive_bayes 朴素贝叶斯
sklearn.neighbors 最近邻估计
sklearn.neural_network 神经网络
sklearn.tree 决策树
建模函数 fit ,预测函数 predict
数据预处理
处理任务 | 对应模块 |
对缺失值进行补全 | imputer |
对数值变量进行转换 | Func |