MoonlitHan-CSDN博客

原创心电图时间序列的 ARMA 模型分析与预测

数据加载与预处理：处理多通道 ECG 数据，确保长度一致。可视化：展示原始心电图波形。平稳性检验：使用 ADF 检验确认数据是否适合 ARMA 模型。模型构建：通过 ACF/PACF 图确定阶数，拟合 ARMA 模型。预测与评估：使用 MSE 评估模型性能，可视化预测结果。残差分析：验证模型是否充分提取信息。通过这个流程，可以对心电图信号进行建模和短期预测，用于心率异常检测或信号滤波等应用。

2025-07-16 08:54:57 610

我们挖掘它的目的，就是从历史数据中找规律，用来预测未来 —— 比如根据过去的销售数据预测下个月的销量，根据历史交通流量规划明天的出行路线。ARIMA (p,d,q) 中的 “d” 就是差分阶数 —— 比如 d=1，就是对序列做 1 阶差分（用当前值减前一个值），直到序列平稳。拿到一条时间序列，不能直接建模，得先做预处理，核心是判断它是否平稳 —— 因为很多模型（比如 ARMA）只适用于平稳序列。而 ARMA (p,q) 模型，就是同时考虑自回归和移动平均，p 是 AR 的阶数，q 是 MA 的阶数。

2025-07-15 19:47:20 590

原创原来时间序列挖掘这么简单

看数据的 “脾气”（趋势、季节、随机）；分清楚是哪类序列（平稳 / 非平稳）；平稳的用 ARMA，非平稳的先差分再用 ARIMA；用 Python 工具快速实现，搞定预测！

2025-07-15 19:42:48 703

原创 Apriori 原理：快速筛选频繁出现的症状组合

先明确一个前提：什么是 “频繁项集”？比如医生想找 “经常一起出现的症状”，假设我们规定 “至少在 2 个病人身上出现才算频繁”（这就是 “最小支持度”）。

2025-07-15 18:29:52 275

原创关联规则挖掘：从概念到算法实践

首先，我们得明确什么是 “关联”。关联反映的是数据集中项目之间的相互依赖关系，比如 “购买面包的顾客同时购买牛奶” 就是一种关联。而关联规则挖掘，就是从数据中发现这种 “频繁出现的模式”，并形成类似 “如果 A，那么 B”（A→B）的规则。Apriori 算法是基础，通过先验原理剪枝；FP-growth 算法更高效，用 FP-tree 压缩数据；Eclat 算法则从垂直角度处理数据。实际应用中，大家可以根据数据量和维度选择合适的算法，而 mlxtend 库能帮我们快速实现这些算法。

2025-07-15 16:29:40 664

原创从病人数据中找出感冒的关键症状组合

如果病人同时有 “发烧 + 咳嗽”，那么有 100% 的概率是感冒；如果病人同时有 “咳嗽 + 嗓子痛”，那么有 100% 的概率是感冒。先找经常一起出现的项目”（频繁项集），再从里面挑 “靠谱的如果…那么…”（强关联规则）。

2025-07-15 16:23:56 668

原创 K-means 聚类在肺炎患者分型中的应用（简单示例）

细菌性肺炎：中高热、白细胞高、咳嗽中等时间病毒性肺炎：高热、白细胞正常、咳嗽时间短支原体肺炎：低热、白细胞略高、咳嗽时间长这里定义了三种肺炎的典型特征特征 1：体温（℃）特征 2：白细胞计数（×10⁹/L）特征 3：咳嗽持续天数这些中心值基于医学常识：细菌性肺炎常伴随白细胞升高，病毒性肺炎多为高热，支原体肺炎咳嗽时间较长。

2025-07-15 15:42:32 554

原创聚类分析的概念

聚类是一种让数据 “自动抱团” 的技术。它不需要你提前告诉电脑 “谁和谁是一伙的”（这叫 “无监督学习”），电脑会自己观察数据的特点，把长得像的分到一组。类比：就像老师带一群陌生的学生，不用提前安排，让学生们自己找 “合得来” 的人站成几队 —— 最后会形成几个小团体，这就是 “簇”。算法像什么适合场景缺点K-means选组长分小组圆形团体、大数据形状奇怪的分不好DBSCAN按扎堆程度分组任意形状、有噪声数据太稀疏时不灵GMM算概率分团体复杂形状、需要概率计算有点慢。

2025-07-15 15:20:47 745

原创医疗数据分析中标准化的作用

标准化是为了消除特征本身 “数值大小” 的干扰，让每个特征在聚类时都能 “平等说话”，这样 DBSCAN 才能更准确地找到真正相似的患者群体（亚型），而不是被某个特征的 “大数值” 带偏。

2025-07-15 15:18:15 377

原创 BSCAN 在糖尿病患者数据聚类分析中的应用

这段代码实现了使用 DBSCAN 算法对糖尿病患者数据进行聚类分析，以识别不同的患者亚型和异常病例。

2025-07-15 14:55:56 728

原创 Python 数据挖掘综述

数据挖掘是从大量、不完全、有噪声的数据中，提取隐含的、潜在有用的信息和知识的过程。它融合了统计学、机器学习、数据库技术等多学科知识，核心目标是解决 “数据爆炸但知识贫乏” 的问题。数据：原始记录（如用户消费金额、商品 ID）；信息：结构化处理后的数据（如 “20-30 岁用户月均消费 500 元”）；知识：提炼出的规律（如 “20-30 岁用户更倾向购买品类 A”）。

2025-07-15 14:27:14 755

原创用 K-means 算法实现水果分堆

K-means 就像是一个 “智能分拣员”，它不认识水果，但能根据水果的位置自动分成几堆。只要数据有明显的 “聚集趋势”，它就能找到！

2025-07-15 12:22:08 650

原创集成技术及其应用

集成技术是数据挖掘中非常重要的一类方法，简单来说，它不是靠单个模型 “单打独斗”，而是通过组合多个模型的力量，来达到更好的分类或回归效果。接下来，我们就从基础到应用，一步步揭开集成技术的面纱。

2025-07-15 08:46:41 705

原创提升（Boosting）及 Python 示例

先做一套题，找出错题重点练；再做一套题，再找错题重点练……最后综合所有经验，谁强听谁的。它和装袋（Bagging）的区别是：装袋是 “平行做题，投票决定”，提升是 “串行补漏，强者主导”～

2025-07-15 08:31:03 716

原创装袋（Bagging）过程

这样做的好处是：单个模型容易 “看走眼”（比如 M₁可能把红西红柿当苹果），但多个模型一起投票，错误会相互抵消，结果更稳定、更准确～

2025-07-15 06:58:44 240

原创集成技术（一）

大白话来说，集成技术就是 **“组队干活” 的思路 **：不依靠单个模型（比如单个决策树、单个逻辑回归）来做判断，而是让多个不同的模型（或者同一类模型的不同版本）一起 “思考”，最后综合它们的意见得出结果。打个比方：你想判断一个水果是不是苹果，单个模型可能只看 “颜色”，另一个只看 “形状”，集成技术就会让这两个模型分别发表意见，再综合起来判断 —— 相当于 “三个臭皮匠顶个诸葛亮”。集成技术可以综合 “使用时长”“投诉次数”“套餐类型” 等多个模型的判断，更精准地找出高风险客户。

2025-07-14 21:02:56 240

原创基础分类模型及回归简介(一)

那些离线最近的人，就是 “支持向量”，线的位置全靠他们定。比如你新认识一个人，想知道他喜欢打篮球还是踢足球，就看他身边 5 个好朋友（k=5）里，多数人喜欢啥，就猜他也喜欢啥。数据挖掘里的 “有监督学习”，就像有老师带着你学：给你一堆带答案的习题（训练数据），学会后去做新题（测试数据）。建决策树时，得先挑 “最有用的问题”（属性选择），比如先问 “颜色” 比先问 “有没有虫眼” 更能快速区分水果。朴素贝叶斯的思路就是：统计 “苹果通常是红的”“苹果通常是圆的” 这些概率，然后综合起来猜。

2025-07-14 20:51:37 888

原创贝叶斯公式

贝叶斯公式是概率论中最优雅、最实用的工具之一，它不仅是数学公式，更是一种思考方式。

2025-07-14 16:24:29 263

原创朴素贝叶斯

虽然 “特征独立” 的假设不完全符合现实，但在很多场景下效果惊人；核心是用贝叶斯公式计算各类别的概率，选最可能的结果；优点是简单、快速、适合小数据，缺点是对特征关联性强的场景（比如判断一个人是否生病，身高和体重可能相关）效果稍差。它就像一个 “抓大放小” 的判断高手：忽略细节关联，抓住核心特征快速下结论，在很多实际问题中反而比复杂算法更实用。

2025-07-14 16:12:03 656

原创先验、似然与后验概率

先验概率是 “起点”：没有证据时的初始猜测（P(A)）；似然概率是 “正向推理”：已知原因，看结果有多可能发生（P(B|A)）；后验概率是 “反向修正”：已知结果，看原因有多可能存在（P(A|B)）。似然和后验的核心区别在于推理方向相反：一个是 “原因推结果”，一个是 “结果推原因”，就像 “因为下雨所以地面湿”（似然）和 “因为地面湿所以可能下雨了”（后验）的区别。

2025-07-14 15:54:13 747

原创先验概率与后验概率：贝叶斯理论中的关键概念

后验概率和先验概率是概率论与统计学中的重要概念，在贝叶斯理论中有着关键作用。

2025-07-14 08:00:52 236

原创特征选择方法

过滤法（Filter：特征选择独立于数据挖掘任务，按照特征的发散程度或者特征与目标变量之间的相关性对各个特征进行评分，然后设定阈值选出评分较高的特征子集。包装法（Wrapper：特征选择和数据挖掘算法相关，直接使用数据挖掘模型在特征子集上的评价结果衡量该子集的优劣，然后采用一定的启发式方法在特征空间中搜索，直至选择出最优的特征子集。嵌入法（Embedded。

2025-07-13 19:31:36 617

原创特征选择方法(一)：从选水果、挑球员谈起

分类任务：这里是要把苹果分成 “好苹果” 和 “坏苹果”（两种类别）。特征：假设我们观察苹果的 4 个特征（指标），比如：特征 1：苹果表面是否有 “小斑点”（有 / 无）特征 2：苹果的 “硬度”（硬 / 软）特征 3：苹果的 “果柄是否新鲜”（新鲜 / 枯萎）特征 4：苹果的 “颜色深浅”（深红 / 浅红）我们想知道：这 4 个特征中，哪些和 “苹果好坏” 关系最大？比如 “硬度” 是不是能明显区分好苹果和坏苹果？

2025-07-13 19:31:21 717

原创特征选择要解决什么问题

提升效果：让模型更准确，分析结论更可靠；提高效率：减少计算成本，适应实时业务需求；增强落地性：让分析结果更易理解，助力业务决策。可以说，没有经过特征选择的分析或模型，就像用 “杂音淹没的信号” 做判断 —— 不仅效率低，还可能得出错误结论，而特征选择正是剔除杂音、放大信号的关键一步。

2025-07-13 17:11:23 651

原创数据预处理

数据预处理是数据挖掘的基础，从集成多源数据，到清洗脏数据，再到变换数据格式，最后规约数据规模，每一步都影响着后续模型的效果。

2025-07-13 15:44:27 595

原创 Python 数据挖掘之数据探索

在数据挖掘的流程中，数据探索是非常关键的第一步，它能帮助我们深入了解数据的特点，为后续的预处理和模型构建打下坚实的基础。我们主要围绕四个方面展开：数据对象与特征、数据统计描述、数据可视化以及相关性和相似性度量。

2025-07-13 15:04:11 367

原创 Python 数据挖掘模块

在数据挖掘的过程中，合适的工具至关重要，而 Python 凭借其丰富的模块，成为了数据挖掘领域的热门选择。本次课程我们主要介绍四个核心模块：Numpy、Pandas、Matplotlib 和 Scikit-learn。

2025-07-13 14:49:18 814

原创 Python 数据挖掘实战概述

基于这些，数据挖掘的定义就很清晰了：它是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含的、事先不知道但潜在有用的信息和知识的过程。数据挖掘的应用非常广泛，在金融领域的信贷风险管理、反洗钱监测，电子商务中的商品推荐，医学上的蛋白质分子结构预测，还有市场营销、生物学、科学研究、股票交易、地震预警等方面，都能看到它的身影。而且，数据正以极快的速度增长，甚至达到 GB 每小时的级别。通常，数据挖掘可以应用于关系数据库、数据仓库、事务数据库、文本、Web、日志、图像等多种类型的数据。

2025-07-13 14:38:28 584

原创 Pandas 中 stack 和 unstack 方法在数据重塑中的应用

stack：列 → 行（宽 → 长）。unstack：行 → 列（长 → 宽）。这两个方法是处理复杂索引数据的强大工具，尤其在处理时间序列、面板数据等场景中非常实用。

2025-07-13 14:23:22 283

原创 Pandas 的 Index 与 SQL Index 的对比

是数据的固有组成部分，用于标签化访问和对齐，类似 Excel 的行号 / 列名。SQL Index是查询的加速工具，通过额外的数据结构优化 WHERE 条件，类似书的索引页。我们习惯了 SQL 索引的优化路径，在 Pandas 中更应该关注如何设计合理的Index标签（如用日期、ID 作为 Index），而不是追求查询速度的优化（Pandas 的性能瓶颈主要在内存，而非索引）。

2025-07-13 14:22:04 846

原创 Pandas vs Mondrian/OLAP MDX

虽然灵活且能实现几乎所有 MDX 能做的事情（通过组合方法、自定义函数、索引操作等），但对于某些复杂的多维计算（尤其是涉及层次结构导航和复杂集合逻辑的），实现起来可能更冗长、更底层，可读性有时不如 MDX 声明式语法清晰。思维方式高度相通（事实、维度、切片、切块、聚合、旋转）。能轻松处理复杂的计算成员（如同比、环比、占比、排名、累计值）、复杂的集合操作（交叉连接、非空成员等）、基于上下文的计算（维度、层次结构、级别、成员、度量值都是模型的一等公民，查询语法直接映射到这些概念。方面有显著的相似之处。

2025-07-13 14:08:23 918

foodmart_mysql.tar.gz

accp6认证标准等

hibernate4+spring4+springmvc+ehcache+自己写的cache系统

accp6.0 y2

空空如也