
数据分析
文章平均质量分 66
包括数据预处理,建模,模型评估,实证分析等内容总结
呆萌的代Ma
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
时序数据交叉验证方法与python实现
由于时间序列数据存在时序关系,因此数据之间的值存在一定的连续性,使用未来的数据验证过去的结果会使模型的验证方法不适合时序数据。原创 2023-04-18 15:30:35 · 1192 阅读 · 0 评论 -
贝叶斯优化优化参数,以Kmeans为例
文章目录步骤一:构造黑盒目标函数步骤二:确定取值空间步骤三:构造贝叶斯优化器全部代码贝叶斯优化有几个步骤:构造黑盒目标函数确定取值空间构造贝叶斯优化器下面以kmeans为例:步骤一:构造黑盒目标函数这个函数主要是运行需要的函数,然后使用计算一个指标(只能是一个指标哈!),然后贝叶斯优化会在迭代的时候最大化这个指标,如果需要最小化这个指标,则可以在目标值前面加一个负号def f_score(n_clusters, n_init, my_iter): k_means = KMeans原创 2021-07-05 09:01:52 · 1383 阅读 · 0 评论 -
sklearn模型使用贝叶斯优化调参(以随机森林为例)
文章目录1. 构造数据源2. 构造黑盒目标函数3. 确定取值空间4. 构造贝叶斯优化器5. 运行,导出结果与最优参数全部代码贝叶斯优化github地址:https://github.com/fmfn/BayesianOptimizationpaper地址:http://papers.nips.cc/paper/4522-practical-bayesian%20-optimization-of-machine-learning-algorithms.pdfSnoek, Jasper, Hugo La原创 2021-07-02 15:52:07 · 7744 阅读 · 17 评论 -
sklearn GridSearchCV网格搜索案例与代码
文章目录准备数据网格搜索参数评估结果全部代码需要的包如下:import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import原创 2021-07-02 14:52:34 · 605 阅读 · 0 评论 -
sklearn K折(KFold)交叉验证案例,展开细节代码与cross_validate简写
文章目录一、通常的随机森林模型代码二、K折交叉验证的随机森林代码1. 切分方式:随机切分2.切分方式:不均衡数据集下按比例切分三、KFold的简便写法四、随机森林预测与KFold交叉验证完整代码一、通常的随机森林模型代码对于一个基本的随机森林预测模型:from sklearn.ensemble import RandomForestClassifierimport pandas as pdimport numpy as npfrom sklearn.metrics import accuracy原创 2021-07-02 11:07:56 · 13390 阅读 · 14 评论 -
聚类效果评价——Davies-Bouldin(DB指标)——内部评估标准(3)
Davies, David L., and Donald W. Bouldin. “A cluster separation measure.” IEEE transactions on pattern analysis and machine intelligence 2 (1979): 224-227.公式与简介指标越小表明聚类效果越好,最小值为0首先计算:Rij=si+sjdijR_{ij} = \frac{s_i + s_j}{d_{ij}}Rij=dijsi+sj其中 sis.原创 2021-06-04 09:53:06 · 6612 阅读 · 0 评论 -
聚类效果评价——Calinski-Harabasz(CH指标)——内部评估标准(2)
Caliński, Tadeusz, and Jerzy Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics-theory and Methods 3.1 (1974): 1-27.公式与简介CH指标的计算公式是:s=tr(Bk)tr(Wk)×nE−kk−1s = \frac{\mathrm{tr}(B_k)}{\mathrm{tr}(W_k)} \times \frac{n_E - k}{.原创 2021-06-04 09:29:24 · 12544 阅读 · 3 评论 -
聚类效果评价——Silhouette Coefficient(轮廓系数)——内部评估标准(1)
公式与简介Rousseeuw, Peter J. “Silhouettes: a graphical aid to the interpretation and validation of cluster analysis.” Journal of computational and applied mathematics 20 (1987): 53-65.公式:s=b−amax(a,b)s = \frac{b - a}{max(a, b)}s=max(a,b)b−ab表示:这个样本在同类中的平原创 2021-06-04 09:28:13 · 2634 阅读 · 2 评论 -
pandas对dataframe内部数据的增删改查操作整理汇总
创建Dataframeimport pandas as pd# 这里创建dataframe时就指定列dataframe = pd.DataFrame(columns=['列名1','列名2'])增删改查数据索引、筛选数据请查看:https://blog.csdn.net/weixin_35757704/article/details/89789732# 在第一行增加一条数据: ['a','b']dataframe.loc[0] = ['a','b']#在第一列增加数据['1','2']原创 2020-11-08 19:25:57 · 583 阅读 · 0 评论 -
pandas创建与保存(导入与导出)dataframe
文章目录一、创建Dataframe1.创建空dataframe2.从list [ ]创建dataframe把list当做一列把list当做一行3.从 dict{ key : value } 创建dataframe4.从 CSV 创建dataframe二、保存Dataframe保存时常用参数选项增量保存一、创建Dataframe1.创建空dataframeimport pandas as pd# 这里创建dataframe时就指定列dataframe = pd.DataFrame(columns=原创 2020-10-16 10:16:16 · 4694 阅读 · 0 评论 -
Matplotlib 整合与细节操作(样式、图例、风格、轴线、网格)
目录1图形样式1.1 jupyter显示图像1.2 线条样式1.3 图像样式1.3.1 图形标注1.3.2 图像填充1.3.3 子图1.3.4 坐标轴样式1.4 全局风格2定制图像2.1 坐标轴2.1.1隐藏 x/y 坐标轴2.1.2隐藏坐标刻度2.1.3隐藏坐标轴线2.2图像2.2.1增加网格2.2.2增加...原创 2019-05-11 10:56:54 · 2540 阅读 · 0 评论 -
pandas日常数据处理
这篇博客总结一些pandas的常用处理方法,直接结合例子,使用时直接复制代码即可,希望能够帮助到大家。这里面series表示Series类型对象,dataframe表示Dataframe类型对象,使用替换变量名即可。目录1 行/列/单元格 选择1.1 通过索引选择1.2 通过位置选择1.3得到指定区域/单元格2 循环处理数据2.1 直接循环行2.2 循环...原创 2019-05-06 15:47:22 · 1785 阅读 · 0 评论 -
机器学习数据预处理代码汇总(最新更新20年3月1日)
这篇博客用一个pandas的DataFrame类型的数据为例,字段名为了不与任何第三方库混淆,我们叫他 dataframe这篇博客没有长篇大论,就是希望能够让大家直接复制代码,然后把dataframe变量改为自己的dataframe变量后立竿见影得到预期结果。博客大多数的用例dataframe,运行dataframe.head() 可以看到类似这样的样子,它源于真实数据: t...原创 2019-04-13 16:56:57 · 6590 阅读 · 2 评论 -
机器学习训练建模、集成模型、模型评估等代码总结(2019.05.21更新)
这篇博客总结一些有关机器学习的模型代码与评价指标,力求一针见血,复制粘贴即可食用,hhhhhh,不定期更新代码中使用的案例是pandas构造的dataframe型的数据,变量名为dataframe,最终的模型结果交result_model,它差不多长这么样子,也就是通过前面的这么多项特征预测 mask,当然,mask不一定都是0/1,只是以此为例: tbi_value ...原创 2019-05-14 17:12:39 · 8128 阅读 · 4 评论