数据挖掘课件01-07

数据挖掘涉及寻找数据中的知识,解决分类、聚类等问题。它包括业务理解、数据理解、数据准备、建模、评估和部署等步骤。Python中的关键数据类型有列表、集合和字典,常用包有numpy、pandas和scikit-learn。数据预处理涉及缺失值和异常值处理、数据标准化以及特征选择。模型选择依据问题类型,如分类问题可选用KNN、决策树等。模型评估通过混淆矩阵、ROC曲线等指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、数挖的定义、产生原因,解决问题

数据挖掘就是寻找数据中隐含的知识并用于产生商业价值。
数据挖掘产生动因:海量数据、维度众多、问题复杂
解决问题:分类问题,聚类问题、回归问题、关联问题、

  1. 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
  2. 聚类算法:K-Means,EM
  3. 关联分析:Apriori
  4. 连接分析:PageRank

2、数挖步骤:业务理解、数据理解、数据准备、构建模型、模型评估、模型部署

  1. 商业理解:我们的目的是更好地帮助业务,从业务出发,到业务中去
  2. 数据理解:收集数据后,对数据探索,包括数据描述、数据质量验证等。
  3. 数据准备:包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等一系列动作
  4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
  5. 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的
    商业目标。
  6. 模型部署:最终需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。

3、python三重点数据类型

  • 列表(有序可重复的数组)list
  • 集合(无序的不重复序列)set()
  • 字典(每一个元素实际上是一个键值对(key:value),其中 key 是不能重复的,存入相同的key,它的 value 会被替换成最新的)dict={}

4、python 常用包

数挖常用6个模块:
math(数学模块)
datetime(日期时间模块)
random(随机模块)
re(正则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值