- 博客(16)
- 收藏
- 关注
原创 无监督聚类2
介绍了DBSCAN和层次聚类两种算法的实现与参数优化过程。对于DBSCAN算法,通过网格搜索遍历不同eps和min_samples参数组合,计算轮廓系数、CH指数和DB指数等评估指标,并使用可视化方法确定最优参数。在层次聚类中,评估不同簇数量的聚类效果,同样使用多种指标进行验证。两种方法均采用PCA降维进行结果可视化,并展示聚类标签分布。文章还特别解释了布尔掩码、数据筛选等关键技术的实现细节,为聚类分析提供了完整的实践指南。最终通过树状图和散点图直观呈现层次聚类结果。
2025-07-10 23:10:43
319
原创 无监督聚类1
本文介绍了使用KMeans进行数据聚类的完整流程。首先对数据进行标准化处理,然后通过肘部法则、轮廓系数等4个评估指标确定最优K值,最终选择K=6进行聚类。使用PCA降维后可视化展示聚类效果,并用不同颜色标记各簇样本。整个流程包括数据预处理、K值确定、模型训练、降维可视化和结果分析等步骤。
2025-07-06 12:40:38
199
原创 Numpy数组
5.2 第 1 行 (索引为 1) 的所有元素、第 2 列 (索引为 2) 的所有元素、第 2 行 (索引 2)、第 3 列 (索引 3) 的元素、第 0 行和第 2 行组成的新数组、第 1 列和第 3 列组成的新数组、取出一个 2x2 的子矩阵,包含元素 6, 7, 10, 11。5.1 数组第一个元素、最后一个元素、索引为3 5 8的元素、索引为2到5的元素、从头到索引 5 (不包含 5) 的元素、从索引 4 到结尾的元素、取出全部元素、所有偶数索引对应的元素。矩阵转置:将矩阵的行和列互换。
2025-07-05 21:00:28
382
原创 Day14:Shap可解释分析
SHAP 的维度要求核心是输入数据与模型预测结果的维度一致性分类模型的 SHAP 值包含类别维度(三维数组),需显式指定类别。所有输入数据(特征矩阵、参考数据集)需与模型训练时的特征结构一致。可视化时需确保 SHAP 值与特征矩阵的样本数和特征数匹配。通过严格遵循上述维度规范,可避免 SHAP 计算和可视化过程中的常见错误。
2025-06-25 23:24:31
903
原创 Day13 不平衡数据集处理,过采样,权重
正样本:目标事件中,需被识别的正例、感兴趣的类别负样本:与目标事件相反的反例、不感兴趣的类别识别癌症中,正:10个癌症数据负:990个健康数据导致学习到所有的样本都是健康人,所有预测的样本都是负样本,对10个癌症的识别率0。
2025-06-25 16:27:14
815
原创 day11 调参
通过网格搜索与交叉验证结合的方式,自动寻找最优超参数组合--定义网格--变式三行代码(实例化网格搜索-训练集网格搜索-搜索得最佳模型预测)--打印分类报告、混淆矩阵。定义参数空间--三行(实例化贝叶斯-训练-预测)--打印分类报告、混淆矩阵。经典三行代码--打印耗时、分类报告、混淆矩阵。
2025-06-18 20:10:15
245
原创 Day9 热力图、子图绘制
1、先查看数据看哪些不是数字形式,然后value_counts看非数字特征内容统计,决定怎样把其换成数字(字典映射)先找到连续特征,然后计算相关系数矩阵,图片清晰度,定义图大小,之后seaborn画图,最后写标题输出。8.第四个子图(Number of Open Accounts)6. 第二个子图(Years in current job)5.第一个子图(Annual Income)7. 第三个子图(Tax Liens)3. 设置图片清晰度。
2025-06-15 13:51:03
1014
原创 Day6
首先查看都有什么特征#找到所有连续特征画箱线图、直方图为什么画直方图用sns时,和箱线图sns.boxplot(x=data['abc'])的参数不同?
2025-05-09 13:51:34
228
原创 Day5
读取查看数据-打印所有离散特征-选择某离散特征并查看-对其编码-查看结果-转结果为int方便后续。到此为止,已经掌握了对离散变量做独热编码的所有方法。结合之前的代码一次性对所有离散特征独热编码。如何找到所有独热编码后的新特征名呢?3. 选择一个离散特征进行独热编码。3. 转换独热编码到int类型。对bool特征进行类型转换。4. 填补每一列的缺失值。2. 找到所有离散特征。
2025-04-29 13:03:19
132
原创 Day4
1、打开数据(csv文件、excel文件)2、查看数据(尺寸信息、查看列名等方法)pandas库与缺失数据的补全。补全信贷数据集中的数值型缺失值。5、利用循环补全所有列的空值。
2025-04-25 18:33:57
240
原创 Day3
一:列表的基础操作创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。移除列表中的元素 “Go”。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。
2025-04-24 21:14:04
637
原创 Day1
计算这两个变量的和,并将结果存储在一个新的变量 a 中;计算这两个变量的商,叫做b;计算这两个变量的余数,叫做c。然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。计算折扣后的价格,并将结果存储在变量。和 f-string,如何让姓名和城市分两行输出?函数将每个变量的值单独打印出来,每个值占一行。如果想在输出的姓名两边加上引号,例如。计算节省了多少钱,存储在变量。存储你所在的城市(字符串,例如。姓名: "小明", 城市: 北京。存储你的名字(字符串,例如。
2025-04-22 18:01:23
247
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人