
数据挖掘
文章平均质量分 72
数据挖掘
侯小啾
数据分析师。2022年度博客之星,专注于数据分析,机器学习,人工智能,自动化办公,计量经济,量化金融等领域。技术咨询、商务合作事宜请私信。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python机器学习之流水线
流水线把数据挖掘过程的每个步骤保存在工作流中。在数据挖掘过程中使用流水线,可以大大降低代码及操作的复杂度,优化流程结构,可以有效减少常见问题的发生。流水线通过 Pipeline() 来实例化,需要传入的属性是一连串数据挖掘的步骤,其中前几个是转换器,最后一个必须是估计器。以经典的鸢尾数据为例,通过以下该简单示例的代码,我们来对比感受使用与不使用流水线下代码的差别。具体流程为:获取数据后,首先进行归一化处理,然后使用近邻算法预测,最后使用交叉检验输出平均准确率。原创 2022-02-15 12:01:49 · 2483 阅读 · 50 评论 -
sklearn库数据标准预处理合集_【Python机器学习系列(二)】
文章目录数据获取①归一化 MinMaxScaler1.1默认调用1.2了解相关属性/参数②正则化 Normalizer2.1默认调用2.2相关属性/参数③标准化3.1默认调用3.2相关属性/参数④二值化4.1默认调用4.2相关属性/参数数据获取以鸢尾数据为例,首先加载数据集。from sklearn.datasets import load_irisdataset = load_iris()# print(dataset)X = dataset.datay = dataset.target原创 2022-02-14 23:40:52 · 1899 阅读 · 45 评论 -
K_近邻算法_分类Ionosphere电离层数据【python机器学习系列(三)】
本文使用python机器学习库Scikit-learn中的工具,以某网站电离层数据为案例,使用近邻算法进行分类预测。并在训练后使用K折交叉检验进行检验,最后输出预测结果及准确率。过程产生一系列直观的可视化图像。希望文章能够对大家有所帮助。祝大家学习顺利!...原创 2022-02-13 19:56:19 · 4377 阅读 · 69 评论 -
关于python机器学习cross_val_score()交叉检验的参数cv实际默认为5这件事,你怎么看?
小啾在测试中发现,cross_val_score()的cv参数,该参数在源码中默认值为None,但是在实际使用时,默认值为5,默认效果为K-Fold交叉验证(K即cv)。即默认将数据分成大小相同的K份,即5个子集,从中随机选择4个作为训练集,另1个是测试集。该过程重复进行,所以共有5个组合。即验证后得到一个装有5个元素的一维数组。原创 2022-02-13 15:28:25 · 3760 阅读 · 2 评论 -
python机器学习classification_report()函数 输出模型评估报告
python机器学习classification_report()函数 输出模型评估报告原创 2022-02-11 23:46:47 · 62902 阅读 · 17 评论 -
python机器学习实现oneR算法 以鸢尾data为例
oneR即“一条规则”。oneR算法根据已有的数据中,具有相同特征值的个体最可能属于哪个类别来进行分类。以鸢尾data为例,该算法实现过程可解读为以下六步:文章目录一、 导包与获取数据二、划分为训练集和测试集三、定义函数:获取某特征值出现次数最多的类别及错误率四、定义函数:获取每个特征值下出现次数最多的类别、错误率五、调用函数,获取最佳特征值六、测试算法一、 导包与获取数据以均值为阈值,将大于或等于阈值的特征标记为1,低于阈值的特征标记为0。import numpy as npfrom skl原创 2022-02-11 14:47:02 · 1154 阅读 · 0 评论 -
python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
文章目录train_test_split()用法获取数据划分训练集和测试集完整代码脚手架train_test_split()用法python机器学习中常用 train_test_split()函数划分训练集和测试集,其用法语法如下:X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, random_state, shuffle)变量描述X_train划原创 2022-02-10 19:46:27 · 113175 阅读 · 3 评论 -
from sklearn.cross_validation import train_test_split发生报错
from sklearn.cross_validation import train_test_split发生报错from sklearn.cross_validation import train_test_split该导入命令在使用时会发生报错,因为现在版本的sklearn库中已经没有了cross_validation文件夹,train_test_split等现在放在model_selection文件夹中的_split.py文件里。导入命令应调整为:from sklearn.model_sel原创 2022-02-10 17:36:56 · 3012 阅读 · 0 评论