1、数挖的定义、产生原因,解决问题
数据挖掘就是寻找数据中隐含的知识并用于产生商业价值。
数据挖掘产生动因:海量数据、维度众多、问题复杂
解决问题:分类问题,聚类问题、回归问题、关联问题、
- 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
- 聚类算法:K-Means,EM
- 关联分析:Apriori
- 连接分析:PageRank
2、数挖步骤:业务理解、数据理解、数据准备、构建模型、模型评估、模型部署
- 商业理解:我们的目的是更好地帮助业务,从业务出发,到业务中去
- 数据理解:收集数据后,对数据探索,包括数据描述、数据质量验证等。
- 数据准备:包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等一系列动作
- 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
- 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的
商业目标。 - 模型部署:最终需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。
3、python三重点数据类型
- 列表(有序可重复的数组)list
- 集合(无序的不重复序列)set()
- 字典(每一个元素实际上是一个键值对(key:value),其中 key 是不能重复的,存入相同的key,它的 value 会被替换成最新的)dict={}
4、python 常用包
数挖常用6个模块:
math(数学模块)
datetime(日期时间模块)
random(随机模块)
re(正则