- 博客(28)
- 收藏
- 关注
原创 《统计学习方法》之朴素贝叶斯方法结合python实现
本文介绍了朴素贝叶斯分类方法及其应用。朴素贝叶斯基于贝叶斯定理与特征条件独立假设,通过计算后验概率实现分类。文章详细阐述了基本理论、参数估计方法(极大似然估计和贝叶斯估计),并提供了计算案例帮助理解。根据不同特征类型,朴素贝叶斯可分为高斯、多项式和伯努利等变体。最后通过Python代码实现了高斯朴素贝叶斯对鸢尾花数据集的分类,可视化展示了决策边界和混淆矩阵,准确率达到93.33%。该方法在文本分类、医疗诊断等领域具有广泛应用价值。
2025-08-14 15:03:51
457
原创 python 实现KPCA核主成分分析
本文介绍了核主成分分析(KPCA)的理论原理及Python实现。KPCA通过核技巧将数据映射到高维空间,能够有效捕获数据的非线性结构,克服传统PCA只能处理线性关系的局限性。文章详细对比了KPCA与PCA的核心区别、优劣势,并提供了基于sklearn库的完整实现代码。其中重点讲解了KernelPCA的关键参数配置,包括核函数选择、gamma值调整等,并展示了如何计算和可视化KPCA的方差贡献率。通过鸢尾花数据集的实际案例,演示了KPCA的降维效果,并与传统PCA进行了对比分析。
2025-08-12 17:01:31
767
原创 Python基于networkx实现有向图、无向图、无向多重图
NetworkX是一个强大的Python图论与复杂网络分析库,具有易用、灵活、功能丰富等特点。本文介绍了NetworkX的核心优势,包括多种图类型支持(有向无环图、无向图、无向多重图)、丰富的图算法以及与其他数据科学工具的无缝集成。通过代码示例展示了如何创建和可视化不同类型图结构,强调NetworkX在建模复杂关系网络方面的应用价值。
2025-06-19 09:55:11
684
原创 Python机器学习模型中添加日志记录器
日志记录器是Python logging 模块的核心组件,它是应用程序日志系统的入口点,负责捕获、处理和分发日志消息,本文以Python代码为例介绍日志记录器在机器学习模型开发中扮演的关键角色:追踪程序行为、训练过程等等。
2025-06-11 15:12:27
579
原创 Python实现prophet 理论及参数优化
优秀文章参考过讲透一个强大算法模型,Prophet!!想要还了解理论的,可以参考之前写的文章Python实现Prophet时序预测模型为什么季节性的参数会选择优化傅里叶级数?不同自动检测的趋势变化点数量会影响什么?趋势类型决定了模型的什么部分?节假日影响强度是什么意思?… …
2025-06-10 16:03:30
532
1
原创 自适应移动平均(Adaptive Moving Average, AMA)
自适应移动平均(AMA)是一种动态调整的移动平均方法,能够根据市场波动自动调整平滑系数。考夫曼自适应移动平均(KAMA)是其典型实现,通过效率比率(ER)动态调整权重:趋势明显时反应更快,震荡市场时过滤噪音。本文提供了KAMA的Python实现,包括参数优化功能,使用均方误差(MSE)评估不同参数组合(n,fast_sc,slow_sc)的表现。
2025-06-03 16:49:09
462
原创 使用 Cython 编译将.py文件加密成.so文件
最近在学习在服务器上如何部署Python模型,不学不知道,一学吓一跳,要学好多啊,最近看到什么就记录一下什么吧。
2025-05-30 10:55:43
980
原创 LightGBM的python实现及参数优化
本文重点介绍了LightGBM的实现及调参方法。作为GBDT家族的高效框架,LightGBM通过直方图算法、单边梯度采样等优化策略,在速度和内存效率上优于XGBoost。文章首先详解了LightGBM的关键参数(如num_leaves、learning_rate等),然后给出Python实现的两种方式:Scikit-learn接口和原生API示例。在调优部分,重点讲解了使用GridSearchCV进行超参优化的方法,并提供了乳腺癌数据集的调参代码实现。通过实际案例展示了如何通过参数优化提升模型性能,为Lig
2025-05-27 18:00:51
829
原创 常见激活函数——作用、意义、特点及实现
激活函数是神经网络中的关键组件,它通过引入非线性因素,增强了模型的表达能力,使其能够处理复杂的任务。激活函数的主要作用包括:突破线性模型的限制、控制输出值范围、影响梯度传播以及增加网络稀疏性。常见的激活函数有Sigmoid、Tanh、ReLU、Softmax和Swish等,每种函数都有其独特的特性和适用场景。选择合适的激活函数对模型性能至关重要,能够显著影响训练效果和计算效率。通过Python实现这些激活函数,可以直观地观察其输出特性,帮助更好地理解其在实际应用中的作用。
2025-05-16 15:16:44
1208
原创 强的可怕的时间序列模型之NBEATS
文章摘要:本文介绍了时序数据分析中常用的模型,特别是N-BEATS(神经网络扩张分析模型)。N-BEATS是一种结合神经网络和统计模型的深度学习方法,具有较高的预测精度和可解释性。文章详细探讨了N-BEATS的理论框架,并通过Python代码展示了如何使用Darts库实现N-BEATS模型。代码部分包括数据准备、模型初始化、训练、预测及结果评估等步骤。N-BEATS适用于多变量时间序列、层次时间序列和概率预测等场景,展示了其在时序数据分析中的广泛应用前景。
2025-05-15 11:41:19
826
原创 特征选择之互信息MI
在特征选择中,相关系数常用于衡量变量间的线性关系,但对非线性关系效果有限。互信息(MI)能够捕捉离散、连续变量之间的非线性关联,能够量化变量间的信息共享,适用于特征选择、聚类评估等场景。本文首先回顾了相关系数的应用场景(如皮尔逊、斯皮尔曼、肯德尔),随后深入探讨了互信息的本质及其计算公式。最后通过Python代码展示了如何使用sklearn和scipy实现互信息计算,并可视化结果,帮助读者更好地理解互信息MI理论及其应用。
2025-05-12 11:24:56
1141
原创 Boosting算法【AdaBoost、GBDT 、XGBoost 、LightGBM】理论介绍及python代码实现
Boosting 算法理论及python代码实现
2025-04-29 18:00:23
768
原创 决策树CART算法理论基础及python实现
最近看完了李航老师的《统计学习方法》中第五章的决策树,结合书中理论和python代码实践,总结及积累一下知识。
2025-04-03 15:32:17
850
原创 python 数据清洗常用函数(一)
在进行数据分析时,首先需要对数据进行清洗、转换,涉及到对值的排序、替换、删除;数据表的合并等处理,以下整理我常用的12个函数,记录一下
2025-03-28 16:07:50
739
原创 python办公自动化:openpyxl 处理Excel
在批量处理数据时,能用Excel实现的一些表样式在python ,openpyxl处理Excel时最近也用到了,记录一下
2025-03-07 17:14:44
281
原创 python实现将数据存入、读取多个sheet
在Python中,使用pandas和openpyxl处理数据,涉及到写入多个sheet。在每个sheet且不会覆盖原有的sheet数据;读取一个Excel里多个sheet里的数据。总结一下踩过的坑。
2025-03-05 10:52:55
363
原创 《统计学习方法》之主成分分析PCA结合python实现
最近在学习李航老师的《统计学习方法》第16章-主成分分析(PCA),结合运用python代码实现,记录一下。
2025-01-03 16:01:28
741
原创 python实现SVM决策边界可视化、不同核方法及超参调优、模型性能评估和SHAP可解释性案例。
关于支持向量机,最近有看李航老师的《统计学习方法》,总结一下关于支持向量机相关算法知识以及代码。
2024-12-30 12:47:22
1080
原创 机器学习模型的可解释性探索
怎么选择以及训练出一个另人满意的机器学习模型是一直被研究探索的问题,然后当越来越多的模型可以经训练最后做出较为精准的预测,我们的用户是否愿意相信这样的结果?或我们有什么方法可以去说服我们的用户对模型的结果产生信任。因此,就一个高精度的模型,建立信任和确保它按照预期行事至关重要。为了实现搭建用户信任与高精度模型之间内在联系这一目标,通过学习和参考其他优秀文章,本文也介绍并总结几种模型解释算法。
2024-11-21 18:18:36
870
原创 Python模型优化超参寻优过程
以Python自带数据集鸢尾花为例,记录一下在对模型进行超参训练时,如何清晰的记录每组超参数训练模型及其对应得分。
2024-08-06 15:34:22
773
原创 Python爬取生意社-氧化钙生石灰数据
目前爬的都是一些不需要代理或解密就可以爬到的,个人感觉难点就是提取解析文本信息,本次新使用到的是find_next_sibling,其他具体问题还得查找对应的解决方案。关于bs4如何提取文本信息可以参考这个解析库bs4及爬取实例,个人感觉比较好。总之,遇到问题不可怕,可怕的是不会主动去解决问题。
2024-06-07 09:48:56
490
原创 数值型变量的简单相关性分析python应用
相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关、不相关。如果一个变量高的值对应于另一个变量高的值,相似地,低的值对应低的值,那么这两个变量正相关。在土壤中,孔隙率和渗透度就具有典型的正相关。反之,如果一个变量高的值对应于另一个变量低的值,那么这两个变量负相关。如果两个变量间没有关系,即一个变量的变化对另一变量没有明显影响,那么这两个变量不相关。https://baike.baidu.com/item/相关性/10097225?fr=ge_ala。
2024-03-13 19:56:04
1783
原创 python折线图实际应用
第一篇博客,以我的真实数据总结一下2020年!前言今年是很值得记录的一年,上半年在家大半年,由于自律运动锻炼体重下降到了史上最低值,自返校后,我就尽量每天晚上记录体重,年末,我就用体重值和自己的学的数据分析技能简单的做了份总结。一、数据解释真正开始有意识的坚持记录体重是从2020-9-22日开始,我记录的每天晚上上床前的体重,(个人觉得晚上因为体重最重,也最能让人有忧患保持的觉悟,哈哈哈),截止到2020-12-28日,应该共97个数据,实际记录85个,12.26-12.28的3个数据是自己先行预测
2020-12-26 20:30:13
225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人