
机器学习
文章平均质量分 71
机器学习
943802606
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习的一般流程
机器学习的一般流程一、数据采集与标注二、数据清洗三、特征选择/构造四、模型选择五、模型训练与测试六、模型的性能评估与优化一、数据采集与标注二、数据清洗三、特征选择/构造四、模型选择五、模型训练与测试六、模型的性能评估与优化...原创 2021-12-31 19:46:43 · 2016 阅读 · 0 评论 -
机器学习之琐碎知识(代码运行问题)
机器学习之琐碎知识1、python代码中忽略警告2、python在画图时显示中文1、python代码中忽略警告解决方案:import warningswarnings.filterwarnings("ignore")2、python在画图时显示中文解决方案:# 支持中文plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示原创 2021-12-19 15:08:36 · 1071 阅读 · 0 评论 -
机器学习之无监督学习——聚类
机器学习之无监督学习——聚类一、基于划分的聚类方法1、基于划分的方法 简介A、概念B、分组C、分组与样本 对应关系D、硬聚类 与 软聚类二、基于层次的聚类方法1、基于层次的聚类方法 概念 :2、基于层次的聚类方法 :A、聚合层次聚类 ( 叶子节点到根节点 )聚合层次聚类 图示切割点说明B、划分层次聚类 ( 根节点到叶子节点 )划分层次聚类 图示切割点说明基于层次的聚类方法 切割点选取3、算法性能基于密度的方法1 . 基于距离聚类的缺陷 :2 . 基于密度的聚类方法3 . 基于密度的聚类方法 算法优点一、基转载 2021-12-19 13:52:11 · 3081 阅读 · 0 评论 -
机器学习案例——生态系统蒸散速率预测
生态系统蒸散速率预测问题背景概述数据集、代码、报告下载实验步骤分析一、数据预处理1、将生态数据表与植被指数表合并2、将不同站点的多个表进行纵向合并3、进行质量控制及去除异常值二、筛选特征1、画相关性热力图(使用热力图进行相关性分析)2、进行特征选择三、数据标准化处理并划分数据集四、K折交叉验证评估模型五、训练模型1、重新划分数据集2、进行模型训练并保存六、测试模型1、重新划分数据集2 、导入已经训练好的模型,使用测试集进行测试问题背景概述 CRO 生态系统类型若干观测站点观测的生态系统蒸散速率( ET原创 2021-12-19 13:01:48 · 618 阅读 · 0 评论 -
机器学习之模型——保存与加载
机器学习之模型——保存与加载流程获取数据划分数据集标准化预估器保存模型加载模型得出模型模型评估整体代码流程获取数据boston = load_boston() print("特征数量:\n", boston.data.shape)划分数据集 x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target,\ random_state=22)标准化 transfer = Stan原创 2021-12-19 12:26:28 · 782 阅读 · 0 评论 -
机器学习之超参数调优——超参数调优的方法
超参数调优的方法概述网格搜索随机搜索贝叶斯优化算法概述对于很多算法工程师来说, 超参数调优是件非常头疼的事。除了根据经验设定所谓的“合 理值”之外, 一般很难找到合理的方法去寻找超参数的最优取值。 而与此同时,超参数对于模型效果的影响又至关重要。 高没有一些可行的办法去进行超参数的调优呢?为了进行超参数调优,我们一般会采用网格搜索、 随机搜索、贝叶斯优化等算法。 在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一是目标函数,即算法需要最大化/最小化的目标;二是搜索范围,一般通过上限和下限转载 2021-12-13 17:38:25 · 1039 阅读 · 0 评论 -
机器学习之格式变化——reshape(-1,1)
格式变化——reshape函数知识基础代码知识基础reshape(行数,列数)常用来更改数据的行列数目一般可用于numpy的array和ndarray, pandas的dataframe和series(series需要先用series.values把对象转化成ndarray结构)那么问题来了reshape(-1,1)是什么意思呢?难道有-1行?这里-1是指未设定行数,程序随机分配,所以这里-1表示任一正整数所以reshape(-1,1)表示(任意行,1列)代码import numpy as原创 2021-12-13 13:04:16 · 2219 阅读 · 0 评论 -
机器学习日常练习——红楼梦作者分析(聚类)
红楼梦作者分析(聚类)实验要求实验目的实验内容实验题目:《红楼梦》作者分析资料下载实验过程:问题分析:代码:代码一:代码二:(实现可视化)实验要求实验目的在掌握聚类算法基础原理基础上,掌握应用聚类算法解决实际问题。实验内容根据给定的实验数据,采用层次聚类、基于划分的聚类、密度聚类等算法对数据聚类。实验要求:给出实际问题的解决方案,数据预处理过程、聚类算法的建立过程、结果分析。实验题目:《红楼梦》作者分析《红楼梦》是我国著名的四大名著之一,一般的认为《红楼梦》的前八十回为曹雪芹撰写,后四十回为原创 2021-12-12 13:09:48 · 1802 阅读 · 1 评论 -
机器学习之数据集划分——训练集测试集划分,划分函数,估计器的使用
机器学习数据集划分总结参考文章参考文章【机器学习】机器学习中训练集、验证集和测试集的划分及交叉验证机器学习库sklearn之怎么划分训练集和测试集scikit-learn机器学习笔记——sklearn数据集,数据集划分,估计器...原创 2021-12-11 20:57:11 · 1467 阅读 · 0 评论 -
机器学习之数据预处理——数据清洗(缺失值、异常值和重复值的处理)
机器学习之数据预处理——数据清洗缺失值、异常值和重复值的处理基础知识数据列缺失的4种处理方法丢弃补全真值转换法不处理基础知识在数据清洗过程中,主要处理的是缺失值,异常值和重复值。所谓清洗,是对数据进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。数据缺失分为2种:行记录的缺失,这种情况又称为数据记录丢失;数据列值的丢失,即由于各种原因导致的数据记录种某些列的值缺失。这里重点讨论数据列类型缺失值的处理数据列缺失的4种处理方法丢弃补全相对于丢弃而言,补全是更加常用原创 2021-12-07 23:51:21 · 3007 阅读 · 0 评论 -
机器学习之数据预处理——特征编码(标签编码,独热编码)
机器学习之数据预处理——特征编码数据预处理——特征编码离散数据的编码标签编码sklearn LabelEncoder(使用fit_transform函数)sklearn LabelEncoder(反向变换可以用函数 inverse_transform)机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻的提出前期数据处理和特征分析的重要性。这一点从我们往往用整个数据挖掘全流程60%以上的时间和精力去做建模前期的数据处理和特征分析也能看出。那么疑原创 2021-12-07 23:09:40 · 2296 阅读 · 0 评论 -
机器学习——文件的读取
这里写目录标题txt文件的读取txt文件的读取txt的链接链接:https://pan.baidu.com/s/1fIAUdCDTpR7TiqLHZtx1yg提取码:0929python strip() 函数和 split() 函数的详解及实例一直以来都分不清楚strip和split的功能,实际上strip是删除的意思;而split则是分割的意思。因此也表示了这两个功能是完全不一样的,strip可以删除字符串的某些字符,而split则是根据规定的字符将字符串进行分割。split()函数spl原创 2021-11-02 15:28:09 · 980 阅读 · 0 评论