- 博客(270)
- 资源 (4)
- 收藏
- 关注
原创 心电图时间序列的 ARMA 模型分析与预测
数据加载与预处理:处理多通道 ECG 数据,确保长度一致。可视化:展示原始心电图波形。平稳性检验:使用 ADF 检验确认数据是否适合 ARMA 模型。模型构建:通过 ACF/PACF 图确定阶数,拟合 ARMA 模型。预测与评估:使用 MSE 评估模型性能,可视化预测结果。残差分析:验证模型是否充分提取信息。通过这个流程,可以对心电图信号进行建模和短期预测,用于心率异常检测或信号滤波等应用。
2025-07-16 08:54:57
610
原创 时间序列挖掘及建模
我们挖掘它的目的,就是从历史数据中找规律,用来预测未来 —— 比如根据过去的销售数据预测下个月的销量,根据历史交通流量规划明天的出行路线。ARIMA (p,d,q) 中的 “d” 就是差分阶数 —— 比如 d=1,就是对序列做 1 阶差分(用当前值减前一个值),直到序列平稳。拿到一条时间序列,不能直接建模,得先做预处理,核心是判断它是否平稳 —— 因为很多模型(比如 ARMA)只适用于平稳序列。而 ARMA (p,q) 模型,就是同时考虑自回归和移动平均,p 是 AR 的阶数,q 是 MA 的阶数。
2025-07-15 19:47:20
590
原创 原来时间序列挖掘这么简单
看数据的 “脾气”(趋势、季节、随机);分清楚是哪类序列(平稳 / 非平稳);平稳的用 ARMA,非平稳的先差分再用 ARIMA;用 Python 工具快速实现,搞定预测!
2025-07-15 19:42:48
703
原创 Apriori 原理:快速筛选频繁出现的症状组合
先明确一个前提:什么是 “频繁项集”?比如医生想找 “经常一起出现的症状”,假设我们规定 “至少在 2 个病人身上出现才算频繁”(这就是 “最小支持度”)。
2025-07-15 18:29:52
275
原创 关联规则挖掘:从概念到算法实践
首先,我们得明确什么是 “关联”。关联反映的是数据集中项目之间的相互依赖关系,比如 “购买面包的顾客同时购买牛奶” 就是一种关联。而关联规则挖掘,就是从数据中发现这种 “频繁出现的模式”,并形成类似 “如果 A,那么 B”(A→B)的规则。Apriori 算法是基础,通过先验原理剪枝;FP-growth 算法更高效,用 FP-tree 压缩数据;Eclat 算法则从垂直角度处理数据。实际应用中,大家可以根据数据量和维度选择合适的算法,而 mlxtend 库能帮我们快速实现这些算法。
2025-07-15 16:29:40
664
原创 从病人数据中找出感冒的关键症状组合
如果病人同时有 “发烧 + 咳嗽”,那么有 100% 的概率是感冒;如果病人同时有 “咳嗽 + 嗓子痛”,那么有 100% 的概率是感冒。先找经常一起出现的项目”(频繁项集),再从里面挑 “靠谱的如果…那么…”(强关联规则)。
2025-07-15 16:23:56
668
原创 K-means 聚类在肺炎患者分型中的应用(简单示例)
细菌性肺炎:中高热、白细胞高、咳嗽中等时间病毒性肺炎:高热、白细胞正常、咳嗽时间短支原体肺炎:低热、白细胞略高、咳嗽时间长这里定义了三种肺炎的典型特征特征 1:体温(℃)特征 2:白细胞计数(×10⁹/L)特征 3:咳嗽持续天数这些中心值基于医学常识:细菌性肺炎常伴随白细胞升高,病毒性肺炎多为高热,支原体肺炎咳嗽时间较长。
2025-07-15 15:42:32
554
原创 聚类分析的概念
聚类是一种让数据 “自动抱团” 的技术。它不需要你提前告诉电脑 “谁和谁是一伙的”(这叫 “无监督学习”),电脑会自己观察数据的特点,把长得像的分到一组。类比:就像老师带一群陌生的学生,不用提前安排,让学生们自己找 “合得来” 的人站成几队 —— 最后会形成几个小团体,这就是 “簇”。算法像什么适合场景缺点K-means选组长分小组圆形团体、大数据形状奇怪的分不好DBSCAN按扎堆程度分组任意形状、有噪声数据太稀疏时不灵GMM算概率分团体复杂形状、需要概率计算有点慢。
2025-07-15 15:20:47
745
原创 医疗数据分析中标准化的作用
标准化是为了消除特征本身 “数值大小” 的干扰,让每个特征在聚类时都能 “平等说话”,这样 DBSCAN 才能更准确地找到真正相似的患者群体(亚型),而不是被某个特征的 “大数值” 带偏。
2025-07-15 15:18:15
377
原创 BSCAN 在糖尿病患者数据聚类分析中的应用
这段代码实现了使用 DBSCAN 算法对糖尿病患者数据进行聚类分析,以识别不同的患者亚型和异常病例。
2025-07-15 14:55:56
728
原创 Python 数据挖掘综述
数据挖掘是从大量、不完全、有噪声的数据中,提取隐含的、潜在有用的信息和知识的过程。它融合了统计学、机器学习、数据库技术等多学科知识,核心目标是解决 “数据爆炸但知识贫乏” 的问题。数据:原始记录(如用户消费金额、商品 ID);信息:结构化处理后的数据(如 “20-30 岁用户月均消费 500 元”);知识:提炼出的规律(如 “20-30 岁用户更倾向购买品类 A”)。
2025-07-15 14:27:14
755
原创 用 K-means 算法实现水果分堆
K-means 就像是一个 “智能分拣员”,它不认识水果,但能根据水果的位置自动分成几堆。只要数据有明显的 “聚集趋势”,它就能找到!
2025-07-15 12:22:08
650
原创 集成技术及其应用
集成技术是数据挖掘中非常重要的一类方法,简单来说,它不是靠单个模型 “单打独斗”,而是通过组合多个模型的力量,来达到更好的分类或回归效果。接下来,我们就从基础到应用,一步步揭开集成技术的面纱。
2025-07-15 08:46:41
705
原创 提升(Boosting)及 Python 示例
先做一套题,找出错题重点练;再做一套题,再找错题重点练……最后综合所有经验,谁强听谁的。它和装袋(Bagging)的区别是:装袋是 “平行做题,投票决定”,提升是 “串行补漏,强者主导”~
2025-07-15 08:31:03
716
原创 装袋(Bagging)过程
这样做的好处是:单个模型容易 “看走眼”(比如 M₁可能把红西红柿当苹果),但多个模型一起投票,错误会相互抵消,结果更稳定、更准确~
2025-07-15 06:58:44
240
原创 集成技术(一)
大白话来说,集成技术就是 **“组队干活” 的思路 **:不依靠单个模型(比如单个决策树、单个逻辑回归)来做判断,而是让多个不同的模型(或者同一类模型的不同版本)一起 “思考”,最后综合它们的意见得出结果。打个比方:你想判断一个水果是不是苹果,单个模型可能只看 “颜色”,另一个只看 “形状”,集成技术就会让这两个模型分别发表意见,再综合起来判断 —— 相当于 “三个臭皮匠顶个诸葛亮”。集成技术可以综合 “使用时长”“投诉次数”“套餐类型” 等多个模型的判断,更精准地找出高风险客户。
2025-07-14 21:02:56
240
原创 基础分类模型及回归简介(一)
那些离线最近的人,就是 “支持向量”,线的位置全靠他们定。比如你新认识一个人,想知道他喜欢打篮球还是踢足球,就看他身边 5 个好朋友(k=5)里,多数人喜欢啥,就猜他也喜欢啥。数据挖掘里的 “有监督学习”,就像有老师带着你学:给你一堆带答案的习题(训练数据),学会后去做新题(测试数据)。建决策树时,得先挑 “最有用的问题”(属性选择),比如先问 “颜色” 比先问 “有没有虫眼” 更能快速区分水果。朴素贝叶斯的思路就是:统计 “苹果通常是红的”“苹果通常是圆的” 这些概率,然后综合起来猜。
2025-07-14 20:51:37
888
原创 朴素贝叶斯
虽然 “特征独立” 的假设不完全符合现实,但在很多场景下效果惊人;核心是用贝叶斯公式计算各类别的概率,选最可能的结果;优点是简单、快速、适合小数据,缺点是对特征关联性强的场景(比如判断一个人是否生病,身高和体重可能相关)效果稍差。它就像一个 “抓大放小” 的判断高手:忽略细节关联,抓住核心特征快速下结论,在很多实际问题中反而比复杂算法更实用。
2025-07-14 16:12:03
656
原创 先验、似然与后验概率
先验概率是 “起点”:没有证据时的初始猜测(P(A));似然概率是 “正向推理”:已知原因,看结果有多可能发生(P(B|A));后验概率是 “反向修正”:已知结果,看原因有多可能存在(P(A|B))。似然和后验的核心区别在于推理方向相反:一个是 “原因推结果”,一个是 “结果推原因”,就像 “因为下雨所以地面湿”(似然)和 “因为地面湿所以可能下雨了”(后验)的区别。
2025-07-14 15:54:13
747
原创 特征选择方法
过滤法(Filter:特征选择独立于数据挖掘任务,按照特征的发散程度或者特征与目标变量之间的相关性对各个特征进行评分,然后设定阈值选出评分较高的特征子集。包装法(Wrapper:特征选择和数据挖掘算法相关,直接使用数据挖掘模型在特征子集上的评价结果衡量该子集的优劣,然后采用一定的启发式方法在特征空间中搜索,直至选择出最优的特征子集。嵌入法(Embedded。
2025-07-13 19:31:36
617
原创 特征选择方法(一):从选水果、挑球员谈起
分类任务:这里是要把苹果分成 “好苹果” 和 “坏苹果”(两种类别)。特征:假设我们观察苹果的 4 个特征(指标),比如:特征 1:苹果表面是否有 “小斑点”(有 / 无)特征 2:苹果的 “硬度”(硬 / 软)特征 3:苹果的 “果柄是否新鲜”(新鲜 / 枯萎)特征 4:苹果的 “颜色深浅”(深红 / 浅红)我们想知道:这 4 个特征中,哪些和 “苹果好坏” 关系最大?比如 “硬度” 是不是能明显区分好苹果和坏苹果?
2025-07-13 19:31:21
717
原创 特征选择要解决什么问题
提升效果:让模型更准确,分析结论更可靠;提高效率:减少计算成本,适应实时业务需求;增强落地性:让分析结果更易理解,助力业务决策。可以说,没有经过特征选择的分析或模型,就像用 “杂音淹没的信号” 做判断 —— 不仅效率低,还可能得出错误结论,而特征选择正是剔除杂音、放大信号的关键一步。
2025-07-13 17:11:23
651
原创 Python 数据挖掘之数据探索
在数据挖掘的流程中,数据探索是非常关键的第一步,它能帮助我们深入了解数据的特点,为后续的预处理和模型构建打下坚实的基础。我们主要围绕四个方面展开:数据对象与特征、数据统计描述、数据可视化以及相关性和相似性度量。
2025-07-13 15:04:11
367
原创 Python 数据挖掘模块
在数据挖掘的过程中,合适的工具至关重要,而 Python 凭借其丰富的模块,成为了数据挖掘领域的热门选择。本次课程我们主要介绍四个核心模块:Numpy、Pandas、Matplotlib 和 Scikit-learn。
2025-07-13 14:49:18
814
原创 Python 数据挖掘实战概述
基于这些,数据挖掘的定义就很清晰了:它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含的、事先不知道但潜在有用的信息和知识的过程。数据挖掘的应用非常广泛,在金融领域的信贷风险管理、反洗钱监测,电子商务中的商品推荐,医学上的蛋白质分子结构预测,还有市场营销、生物学、科学研究、股票交易、地震预警等方面,都能看到它的身影。而且,数据正以极快的速度增长,甚至达到 GB 每小时的级别。通常,数据挖掘可以应用于关系数据库、数据仓库、事务数据库、文本、Web、日志、图像等多种类型的数据。
2025-07-13 14:38:28
584
原创 Pandas 中 stack 和 unstack 方法在数据重塑中的应用
stack:列 → 行(宽 → 长)。unstack:行 → 列(长 → 宽)。这两个方法是处理复杂索引数据的强大工具,尤其在处理时间序列、面板数据等场景中非常实用。
2025-07-13 14:23:22
283
原创 Pandas 的 Index 与 SQL Index 的对比
是数据的固有组成部分,用于标签化访问和对齐,类似 Excel 的行号 / 列名。SQL Index是查询的加速工具,通过额外的数据结构优化 WHERE 条件,类似书的索引页。我们习惯了 SQL 索引的优化路径,在 Pandas 中更应该关注如何设计合理的Index标签(如用日期、ID 作为 Index),而不是追求查询速度的优化(Pandas 的性能瓶颈主要在内存,而非索引)。
2025-07-13 14:22:04
846
原创 Pandas vs Mondrian/OLAP MDX
虽然灵活且能实现几乎所有 MDX 能做的事情(通过组合方法、自定义函数、索引操作等),但对于某些复杂的多维计算(尤其是涉及层次结构导航和复杂集合逻辑的),实现起来可能更冗长、更底层,可读性有时不如 MDX 声明式语法清晰。思维方式高度相通(事实、维度、切片、切块、聚合、旋转)。能轻松处理复杂的计算成员(如同比、环比、占比、排名、累计值)、复杂的集合操作(交叉连接、非空成员等)、基于上下文的计算(维度、层次结构、级别、成员、度量值都是模型的一等公民,查询语法直接映射到这些概念。方面有显著的相似之处。
2025-07-13 14:08:23
918
原创 从 OLAP 到 Pandas
数据模型OLAP 是显式多维模型,数据预先组织为 Cube。Pandas 是二维表格 + 灵活索引,多维分析需通过编程实现。查询方式MDX 是声明式语言,专注于 “查询什么”。Pandas 是命令式编程,需指定 “如何查询”。性能优化OLAP 通过预计算(如聚合表)和索引优化。Pandas 依赖内存计算和向量化操作。我熟悉 Mondrian 和 MDX 的强大多维分析能力,感觉Pandas 在表达复杂分析时显得冗长,但它在数据清洗、机器学习集成和灵活性上具有优势。
2025-07-13 07:24:55
680
原创 基于 Python 的数据分析技术综述
随着 “数据爆炸但知识贫乏” 现象的加剧,从海量数据中挖掘有价值的信息成为关键需求。Python 凭借其丰富的生态、简洁的语法和强大的扩展性,已成为数据分析领域的主流工具。本文基于相关技术文档,系统梳理 Python 数据分析的核心工具、流程、应用场景及优势,为数据分析实践提供全面参考。
2025-07-12 21:54:30
960
原创 电商订单数据分析全流程:从数据处理到可视化洞察
渠道优化:移动端订单占比近 70%,需优先保障手机端页面加载速度和支付流程流畅性。区域运营:重点维护广东、江苏等核心市场,针对低订单地区可尝试定向优惠券刺激消费。促销策略:大促活动(如双十二)对订单量拉动显著,可规划更多节点促销,同时优化库存准备。时段运营:晚间 19:00-21:00 是下单高峰,可在该时段加大广告投放和客服人力投入。退款管理:整体退款率较低(1.8%),但需关注退款原因,针对性改进商品质量或物流服务。通过持续的订单数据分析,企业可以动态调整运营策略,提升用户体验和经营效率。
2025-07-12 21:36:39
1054
原创 股票的k线
K线分析是股票技术分析的基础工具,由实体和影线组成。实体代表开盘价与收盘价,阳线(红色)表示上涨,阴线(绿色)表示下跌;影线则显示当日最高最低价。实体大小反映趋势强度,大实体表示趋势明显;影线长短预示反转可能,长上影线不利上涨,长下影线不利下跌。通过分析不同周期的K线(日线、周线等),投资者可以判断市场强弱和趋势变化。本文还介绍了12种常见K线形态的含义,如十字星预示变盘、光头阳线表示强势等。掌握K线分析有助于投资者更好地理解市场走势和买卖时机。
2025-07-12 21:09:46
761
原创 Matplotlib 模块入门
Matplotlib 是一个功能强大的 Python 2D 绘图库,它支持多种硬拷贝格式和跨平台的交互式环境,能生成出版物级别的图形。无论是简单的折线图、柱状图,还是复杂的热力图、雷达图,Matplotlib 都能轻松应对。只需几行代码,就能将枯燥的数据转化为清晰直观的图表,让数据背后的规律和趋势一目了然。比如,我们可以用它绘制学生成绩对比图、销售额趋势图、各省销量占比图等,这些图表能帮助我们快速理解数据特征,为决策提供支持。
2025-07-12 20:41:22
618
原创 处理日期与时间
以上说明了从日期数据的转换、提取,到日期范围的生成、频率转换,再到重新采样和移动窗口计算,这些工具能帮助我们高效地从时间维度分析数据。无论是按年、季、月统计趋势,还是计算移动平均值,掌握这些方法都能让我们在处理时间序列数据时更方便。
2025-07-12 20:29:36
546
原创 数据统计及透视表
简单说,就是将数据按指定幅度上下或左右移动,移动后没有对应值的位置用NaN填充。比如学生的英语周测成绩,我们想知道每周成绩的升降,就可以用移位后的数据与原数据相减。今天我们学习了数据统计与透视表的核心内容:从用groupby()实现灵活的分组统计,到shift()处理数据移位,再到merge()concat()进行数据合并,最后用pivot()生成透视表。这些工具能帮我们从杂乱的数据中快速提取有价值的信息,希望大家在实际工作中多练习,熟练掌握它们的用法。
2025-07-12 20:20:02
506
原创 数据的计算与格式化
在数据分析中,对数据进行计算以挖掘其内在规律,再通过格式化让结果更清晰易读,都是非常重要的环节。接下来,我们就从常见的数据计算函数、高级的数据计算函数和数据格式化三个方面来详细探讨。
2025-07-12 17:59:14
618
原创 Pandas 模块数据处理全解析
数据处理是数据分析的基础,而 Pandas 作为 Python 中强大的数据处理库,掌握它的使用方法能让我们的数据分析工作事半功倍。今天我们主要从数据抽取、增删改查以及排序排名这几个核心维度展开讲解。
2025-07-12 17:53:27
680
accp6认证标准等
2014-08-21
hibernate4+spring4+springmvc+ehcache+自己写的cache系统
2018-06-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人