【数据挖掘】学习笔记

文章目录

第一章 引论

1.1 为什么进行数据挖掘

  • 迈向信息时代,数据爆炸式增长
  • 数据分析需求强烈

数据库和数据管理技术发展的几个阶段:数据收集和数据库创建、数据管理、高级数据分析

丰富的数据、对多种数据分析工具的需求,被称为”数据丰富但是信息量少“的环境

1.2 什么是数据挖掘?

数据挖掘从大量数据中挖掘有趣模式和知识的过程
数据源包括数据库、数据仓库、Web、其他信息存储或动态地流入系统的数据。

数据挖掘的步骤
1 数据清洗(去除噪声和不一致的数据)
2 数据聚合(多种数据源的融合)
3 数据选择(和分析任务相关的数据从数据库中检索出来)
4 数据转换(数据被使用摘要和聚合的方式转换和联合成合适用于挖掘的形式)
5 数据挖掘(最重要的步骤,智能的抽取数据模式的方法)
6 模式评估
7 知识表达

1.3 可以挖掘什么类型的数据

数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的

数据的最基本形式是数据库数据、数据仓库数据和事务数据

  1. 数据库数据:关系数据库是表的汇集,每个表被赋予唯一的名字。每个表包含一组属性,并存放大量元组。。关系数据库可以通过数据库查询语句来检索记录。对关系数据库挖掘时,是想要发现趋势或者数据模式
  2. 数据仓库:是多种数据来源的信息仓库,以统一的模式存放,通常是在一个站点。数据仓库通过一系列的数据清洗、聚合、转换、加载和周期性的更新构建。数据仓库以重要的主题组织,从历史的视角提供信息,常常是概要型的。数据仓库模型是高维数据结构,每一维对应于相应的一个或者一组属性。称为数据立方。通过提供高维数据视角和概要数据,数据仓库为OLAP联机处理提供支持。高维数据挖掘以OLAP的方式在高维空间挖掘。
  3. 事务数据:事务数据库存放交易记录,例如顾客的一次购买,机票的预订,或者用户点击了一个web页面。交易数据被存放在表中,每条记录表示一次交易记录。假如我们想知道哪些商品放在一起出售更好,如果我们知道打印机通常会和电脑一起被购买,则可以对买电脑的顾客提供打印机购买折扣,或者完全免费,以期销售更多电脑。
    传统的数据库系统不能做这种商业分析。但是基于交易数据的数据挖掘能够发现这种频繁模式,即发现那些商品会被一起经常购买。

1.4 可以挖掘什么类型的模式

数据挖掘任务可以被归类为两种类别:

  • 描述性的
  • 预测性的

描述性的挖掘任务是描述目标数据集的数据属性。
预测性的挖掘任务是归纳现有数据以用来做预测。

1.4.1 类/概念描述:特征化和区分

• 对于一个电商企业,销售商品可分为计算机和打印机,客户可分为大客户和节约型客户。
• 对这些单个的类别和概念使用总结、概要或者精确的术语进行描述非常有用。这种对类别或者概念的描述称为类/概念描述
• 描述可以通过:

  1. 通过总结目标类别的一般术语进行数据特征化
  2. 把目标类别和一个或一组对比类别做比较的数据区分
  3. 同时使用上面2种方法。

数据特征化总结目标类别数据的一般特征

  • 数据一般通过查询来收集。例如,想研究上一年销售额增长了10%的软件产品,可以通过SQL查询语句来进行。
  • 有多种数据描述的方法。
    • 可以使用基于统计测量和散点图的简单数据总结。基于数据立方的OLAP操作可以使用在特定维度空间的用户控制的数据特征化。面向属性的归纳技术也可以用来描述数据。
  • 描述的结果可以通过多种图表展现,包括饼图、柱状图、曲线、高维数据立方体和多维表、交叉表等。也可以使用规则形式的广义关系来表示
    • 例如,总结每年在AllElectronics 花掉5000美元以上的客户特征。描述结果可能是这些客户的一般信息,如他们是40-50岁之间的,有工作的,有很高信用度的。

数据区分比较目标类别数据对象和一个或者一组对象的一般特征
(例如,用户想比较去年的销售额增长了10%的软件产品和销售额下降了30%的产品的一般特征。)

  • 数据区分的技术和结果展示和数据描述很相似。
      例如,客户关系经理想比较那些经常购买计算机产品和很少购买这类产品的客户特征。描述结果给出这些客户的一般对比信息,比如经常购买电脑产品的80%的客户是20到40岁之间的有大学文凭的,很少买这类产品的人中60%是老年人或者青少年,没有大学学历。

1.4.2 挖掘频繁模式、关联规则和相关性

  • 频繁模式(frequent pattern),含义是数据中经常发生的模式
    包括频繁项集,频繁序列,频繁子结构
    • 频繁项集指的是在交易数据集中经常同时发生的商品。
    • 频繁序列,比如顾客先买了笔记本电脑,再买了数码相机,接着买了内存卡,这是一个序列模式。
    • 频繁子结构指的是结合项集或者子序列的不同的结构形式(图、树、
      或者格)。
  • 挖掘频繁模式,会发现有趣的数据之间的关联和相关度。

1.4.3 用于预测分析的分类和回归

主要技术如:分类规则、决策树、神经网络等。

分类是找到模型可以描述和区分数据类别或者概念的方法。模型从一系列的训练数据中分析得,用于预测未知类别的数据标签。

回归是连续值模型,预测缺失的数值型数据而非分类标签。

相关性分析是在分类和回归之前的步骤,我们需要选择那些属性跟分类和回归的过程显著相关。不相关的属性不被包含在考虑之列。

1.4.4 聚类分析

聚类分析针对没有标签的数据进行。基于最大化类别内部的相似度,最小化类别之间的相似度的原则来分组。
  例如,从电商数据中识别同类型的顾客人群。

1.4.5 离群点分析

数据集可能包含不遵守一般行为和模型的数据。这些目标称为离群点(outlier)。
检测离群点可以使用统计检验方法、距离测量、或者基于密度的方法。
  例如,通过与常规的消费相比较发现大笔金额的异常消费,可以发现信用卡的盗刷问题。离群值可能跟消费的地点、支付类型或者频率有关。

1.4.6 所有的模式都很有趣吗?

一般来说,答案是否定的。只有一小部分模式在实际上对特定的用户是有用的。
一个模式是有趣的有如下几个条件:
1) 能很容易被人理解
2) 对于新的或者测试数据以一定的确信度也是合理的
3) 潜在有用的
4) 新奇的

一个有趣的模式能表达知识

客观测量方法
一些有关模式是否有趣的客观测量方法如:
• 关联规则挖掘的客观衡量是规则的支持度,表示给定的规则在交易数据库中所占的百分比。另一个是置信度,表示关联规则的确定程度。
• 一般来说,每一个有趣程度的测量方法都有一个用户能控制的阈值。
• 另一种客观的有趣度的衡量包括精确度覆盖率

主观兴趣度度量
主观兴趣度度量基于用户对数据的看法。
• 如果模式是没有预料的。提供了可以指导用户行为的策略
  比如,“大量地震之后会常常有一系列小震”是很可行性的如果基于这个信息能挽救生命。
• 如果模式是人们期待的,那么如果它验证了人们的假设,则被认为是有趣的。

数据挖掘能产生所有有趣的模式吗?
• 这是数据挖掘的完整性问题。数据挖掘系统产生所有可能的模式是不现实和不高效的。
• 对一些数据挖掘任务来说,比如关联规则挖掘,能充分保证算法的完整性。这是一个限制和有趣度测量能保证数据挖掘完整性的一个例子。

一个数据挖掘系统能只产生有趣的模式吗?
• 这是数据挖掘的优化问题。
• 只产生有趣的模式是会高度令人满意的。因为对于用户和挖掘系统来说,不需要从生成的模式中鉴别是否有趣,因此是很高效的。但是,虽然这方面研究有进展,但优化问题仍然是一个挑战性的问题。
• 模式兴趣度度量对于高效的模式挖掘是很关键的。
• 这些测量能够给予有趣度对于模式进行排序,过滤掉没有价值的模式。更重要的,这些测量能够对发现模式的过程起导向和限制作用。提高了搜索效率,剪掉一些不满足预先指定的兴趣度限制的子集。

1.5 使用什么技术

数据挖掘作为一种应用驱动程度很高的领域,很多技术被使用到,例如:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等等。

1.5.1 统计学

  • 统计学研究包括数据的收集、分析、解释和展示。
  • 统计学模型是依据随机变量和它们的分布来描述目标对象的行为的数学函数的集合。统计学模型被广泛应用于数据和数据类别的建模。
  • 比如,对于数据描述或者数据分类的数据挖掘任务,可以建立目标类别的统计模型。即数据挖掘的结果可以是统计模型。另外,数据挖掘模型也可以建立在统计学模型上。我们可以利用统计学来对噪声和缺失数据进行建模。统计学模型也可以用来验证数据挖掘的效果。

1.5.2 机器学习

机器学习是研究计算机如何从数据中学习。机器学习是发展很快的方法。这里,我们着重对分类问题的机器学习进行阐述,分为:

  1. **监督学习
  2. 非监督学习
  3. 半监督学习**
    (含标注数据和未标注数据。标注数据用来学习类别,非标注数据用来精化类别之间的边界。)
  4. 主动学习
    让用户在学习过程中起主动作用。比如,可以要求用户对一个样例进行标注,这个样例可能从一系列未标注的样本或者合成的数据中学习而来。目标是通过主动获取人类知识来优化模型,对要使用多少标注的数据提供限制。
    对于分类和聚类任务,机器学习算法主要专注模型的精确性以及延展到大数据上的可扩展性

1.5.3 数据库系统和数据仓库

  • 数据库系统的研究主要关注数据库的建立、保存和使用。
  • 许多数据挖掘任务需要处理大量的数据,或者实时,快速变化的流数据。因此,数据挖掘能够很好的利用可扩展的数据库技术来获得大数据上的高精确度和可扩展性。数据挖掘也能被用来扩展现有数据库系统的能力,满足高级用户的复杂数据分析的需求。

1.5.4 信息检索

信息检索(Information Retrieval, IR)是在文档中搜索文档或信息的科学。文档可以是web上的文本或者多媒体。
IR和传统数据库系统的区别是:

  1. 数据是非结构化
  2. 查询通常以关键字的方式,没有复杂的结构(不像sql查询)
    • 信息检索的主要技术是使用概率模型。文档的语言模型是生成文档的词袋的概率密度函数。文档之间的相似度可以通过相应的语言模型来衡量。
    • 文本文档的主题可以通过词语的概率分布来建模,即主题模型
    在线大量的文本和多媒体数据聚集并容易获得。比如数字图书馆,数字政府,医疗信息系统。这些数据的有效搜索和分析为数据挖掘提供了很多挑战。因此,文本挖掘和多媒体数据挖掘、信息检索技术融合就变的十分重要。

1.6 面向什么类型的应用

• Business Intelligence(商业智能)
• 网页分析:从网页分类、聚类
• 协同分析与推荐系统
• 购物篮数据分析与针对性营销
• 生物与医学数据分析:分类、聚类分析(微阵列数据分析)、生物序列分析

1.6.1 Business Intelligence(商业智能)

 对于商业机构来说,更好的了解组织的交易环境是非常重要的。比如他们的顾客、市场、供应、资源以及竞争者。商业智能技术提供历史的、现在的和预测性的商业操作。
 如果没有数据挖掘,企业无法做出有效的市场分析,比较客户对于相似产品的犯困,发现竞争者的优点和弱点,留住有价值的顾客,做出敏捷的商业决策。显然,数据挖掘是商业智能的核心。在线的过程分析工具依赖于数据仓库和高维数据挖掘技术。分类和预测技术是商业智能的预测分析的核心,因为有很多市场分析,供需和销售的应用。聚类在客户关系管理上发挥中心作用。顾客依据相似性被聚类。使用描述化的数据挖掘技术,我们可以更好的理解不同顾客群的特征,发展不同的客户定制程序。

1.6.2 web搜索引擎

 Web搜索引擎是在web上搜索信息的特殊的计算机服务器。搜索结果通常是一个列表,列表可能包含网页、图像或者其他类型的文件。
 Web搜索引擎是很大的数据挖掘应用。大量的数据挖掘技术被应用到搜索引擎的多个方面,从爬取(决定哪些页面被爬取和爬取频率)、索引(选取建立索引的页面并决定索引被建立时扩充的范围)到搜索(页面如何被排序,哪些广告被加载,搜索结果如何被个性化和上下文感知)。
 搜索引擎给数据挖掘带来巨大的挑战:

  1. 必须处理大量和不断增长的数据。搜索引擎通常使用计算机云来协同挖掘大数据。如何将数据挖掘技术扩展到云计算和大量分布数据集是今后的研究方向。
  2. web搜索引擎常常要处理在线的数据。它可以建立一个查询分类器,把每一个查询请求分配到预先定义的类别中(比如,“苹果”指的是水果还是电脑品牌?)不论模型是否是离线创建的,在线应用模型都必须实时快速的回复用户查询。
  3. 另外一个挑战是,维护和增量式更新一个快速增长的流数据模型。例如,查询分类器需要能动态连续的维护,因为新的查询请求不断涌现,事先定义的类别和数据分布可能会改变。现有的绝大部分模型都是离线的、静态的,不能被应用在这样的场景中。
  4. 搜索引擎常常需要处理只出现很少次数的查询请求。假定搜索引擎想提供上下文相关的查询推荐。即当一个用户提交一个查询时,搜索引擎尝试在几秒钟之内利用用户的个人资料和查询历史来返回一个更为定制的答案。即使查询总数可能非常大,但多数查询可能只会出现几次。对数据挖掘和机器学习技术来说,这种偏斜的数据是一种挑战。

1.7 数据挖掘的主要挑战

1.7.1 挖掘方法

  1. 挖掘多种新类型的知识
    数据挖掘覆盖了数据分析和知识发现任务的广泛范围。这些任务基于同一种数据库使用不同的挖掘方法。因为应用类型非常多样化,新的挖掘任务不断出现,使数据挖掘成为一个动态和快速增长的领域。例如,对于信息网络的有效知识发现,融合聚类和排序技术能在大型网络中发现高质量聚类和对目标进行排序。
  2. 从高维空间挖掘
    在很多种情况下,数据能被看成是一个高维数据方块。挖掘数据方块能从本质上提升数据挖掘的功能和灵活性。
  3. 多学科交叉的数据挖掘
    数据挖掘能通过融合多种学科知识来得到本质提升。例如,自然语言文本挖掘就是融合了数据挖掘技术到信息检索和自然语言处理技术。另外,在大型程序中挖掘软件错误,是结合了软件工程知识到数据挖掘过程中。
  4. 提升挖掘能力到网络环境
    很多数据对象是互相链接和内在关联的。比如web, 数据库关系,文件或者文档。多种数据对象的语义关联可以被用来提升数据挖掘技术。在一种数据对象挖掘的知识能被用来提升到关联或者语义关联的数据对象的知识发现上。
  5. 处理数据的不确定性、噪声和不完整性
    数据清洗、预处理、离群点发现和删除、不确定性的质疑都是需要被融合到数据挖掘过程中的技术。
  6. 模式评估和模式导向(或限制导向)的挖掘
    需要使用使用一些主观测量技术去评估模式是否有趣。基于给定的用户分类和基本信仰和期望,来对模式给出一个评分,以此对挖掘过程给出导向,产生更有趣的模式和减少搜索空间。

1.7.2 用户交互

用户在数据挖掘过程起重要的作用,如何和挖掘系统交互,如何在挖掘中结合用户的背景知识,如何可视化和理解挖掘结果。

  1. 交互挖掘
    数据挖掘过程应该是高度交互性的。意即需要建立灵活的用户界面和探索性的挖掘环境,来更加有利于用户的交互。
    用户可能在开始抽样一些数据,然后描述数据的一般特征,评估可能的挖掘效果。交互式挖掘需要能够让用户能动态的改变搜索焦点,基于结果精化挖掘请求,挖掘,切块,旋转,在挖掘时动态的对数据立方进行探索。
  2. 结合背景知识
    背景知识、限制、规则以及其他的领域相关的信息需要被融合到知识发现过程中。这些知识能被用于模式评估和为挖掘有趣模式作为向导。
  3. 特殊的数据挖掘和数据挖掘查询语言
    高层次的数据挖掘查询语言或者其他的高层次的灵活的用户界面能给用户定义特殊无组织的数据挖掘任务的自由。这将有利于数据相关性分析、领域知识、以及条件和限制被加入到模式发现中。对于这种灵活的挖掘请求的过程的优化是一个很有前景的研究方向。
  4. 数据挖掘结果的展示和可视化
    数据挖掘结果需要能生动灵活的展示,以便于发现的知识被更好的理解和直接应用。这需要系统能够采用更丰富的知识表达、更友好的用户界面和可视化技术。

1.7.3 效率和可扩展性

  1. 数据挖掘算法的效率和可扩展性
    数据挖掘算法的运行时间需要是可预测的、短的、可以被应用接受的。
  2. 并行的、分布式的和增量挖掘算法
    许多数据集的规模很大,分布式分布,很多数据挖掘算法的高复杂度催生了并行和分布式的数据集中式挖掘算法。
    云计算和计算机簇,促进了并行数据挖掘的问题。数据挖掘过程的高代价和不断增长的输入促使了增量式数据挖掘,即能够合并新数据的更新而不需要从头开始从整个数据集挖掘。

1.7.4 数据库类型的多样化

  1. 对于复杂数据类型的处理
    期望在多种数据类型和多种数据挖掘目标的情况下,使用一种数据挖掘系统能挖掘所有类型的数据是不现实的。可以建立基于领域的或基于应用的精细数据挖掘系统,对特定数据类型做深度挖掘。建立高效的和有效的针对各种应用的挖掘工具是一个有挑战性和活跃的研究领域。
  2. 挖掘动态、网络化的和全局的数据仓库
    • 网络把不同来源的数据连接在一起,形成了巨大的、分布式的、异质的全局信息系统。对多种数据来源的结构化、半结构化和非结构化并且内在连接的数据是对数据挖掘的巨大挑战。
    • 对这些数据的为挖掘将有助于发现比在小规模的孤立数据仓库中更多的异质网络中的模式和知识。Web挖掘、多数据源挖掘、信息网络挖掘将成为有挑战性和快速增长的数据挖掘领域。

1.7.5 数据挖掘和社会

  1. 数据挖掘的社会影响
    我们如何利用数据挖掘造福社会?如何保护不被错误使用?对用户数据的不合适暴露或者潜在的侵犯用户隐私以及数据隐私权是需要被考虑的问题。
  2. 隐私保护的数据挖掘
    隐私保护的数据发布和数据挖掘是正在进行的研究领域。原则是在成功的进行数据挖掘的同时察觉数据敏感性和保护个人隐私。
  3. 隐形数据挖掘
    • 我们不能期待社会中的每个人学习和掌握数据挖掘技术。很多数据挖掘系统让人们不需要理解数据挖掘算法,只是简单的点击鼠标就可以运行数据挖掘和使用挖掘结果。
    • 智能搜索引擎和基于网络的商家使用这种隐形挖掘技术来提升它们的功能和效果。比如,人们在线购物时,并不知道商家很可能在收集顾客的购买模式,这些将被用来在以后向其推荐其他商品。

第二章 认识数据

2.1 数据对象和属性类型

数据集的三种类型

  1. 记录
  • 关系数据
    在这里插入图片描述

  • 数据矩阵(Data Matrix):如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看做是多维空间中的点,其中每个位代表描述对象的一个不同属性。这样的数据集可以用一个mXn的矩阵表示在这里插入图片描述

  • 文本数据(Document Data ):每篇文档可以表示成一个文档-词矩阵

  • 事务数据(Transaction Data):典型的记录数据:事务数据或购物篮数据在这里插入图片描述

  1. 基于图形(Graph)的数据
  • World Wide Web:带有对象之间联系的数据 HTML Links
  • 分子结构(Molecular Structures):对象具有结构,即对象包含具有联系的子对象
  1. 有序(Ordered)数据
  • 空间数据(Spatial Data):具有空间属性,如位置或区域
  • 时间数据(Temporal Data):时间次序重要, 但具体时间不重要
  • 序列数据(Sequential Data ):个体项的序列

数据集是由数据对象构成的。一个数据对象表示一个实体
在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。也称为样例、示例、实例、数据点、对象、元组

  • 数据对象用属性来描述。
  • 数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属性

2.1.1 什么是属性?

属性(attribute):一个数据字段,表示数据对象的一个特性或特征。

  • “属性”、“维度dimension”、“特征feature”和“变量variable”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。
  • 属性描述一个顾客对象,如:顾客ID,姓名,地址。
  • 对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。
  • 包含单个属性的数据分布被称为单变量的;包含2个属性的被称为双变量。

属性的类型

  1. 标称(Nominal),如:邮编、雇员ID
  2. 序数( Ordinal ),如:成绩、街道号码
  3. 区间(Interval),如:日期、温度
  4. 比率(Ratio),如:绝对温度、长度、年龄、计数

2.1.2 标称属性

标称属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此标称属性被称为是分类。值没有次序信息。在计算机领域,也可以称为枚举型。
• 头发颜色={赤褐色、黑色、金色、棕色、灰色、红色、白色}
• 婚姻状况{已婚、未婚}、职业、身份证号码、邮政编码
• 居住地址{北半球、南半球、空间站}
尽管标称属性是标号或者名称,但也可以是数值的表示形式。比如,发色,可以用0表示黑色,1表示棕色等。顾客ID可以是数字。但是,在这种情况,数字并不被当成数值来使用。因为标称属性不包含任何顺序信息也非数值型,所以不用中值或者平均数去衡量这类属性。可以使用属性最多出现的值,“众数”来做中心性测量。

2.1.3 二元属性

二元属性是只有两个类别或状态:0和1.
0一般表示属性缺失,1表示存在。二进制属性也即布尔型,两个状态表示真和假。

  • 举例。如,病人对象的吸烟属性,1表示吸烟,0表示不吸烟。再比如,病人的某个医学检查结果有两种情况。1表示结果为阳性,0表示为阴性。
  • 如果二元属性的两个状态是同等有价值的具有相同的权重,则为对称的。2个属性被标为1或者0都可以,比如性别属性的两个值男和女。
  • 如果两个状态不是同等重要的,则为非对称的。比如HIV检查的结果呈阴性和阳性。通常,用1表示更重要的通常是更稀少的结果,其他的用0表示。

2.1.4 序数属性

序数属性具有次序或者级别的意义。但是相邻值的差未知。

  • 举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+;职称:助理,副教授,教授
  • 序数属性被用来衡量无法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1 有点不满意,2 中立 3 满意 4 很满意
  • 把数值数据离散化,把它们按照值的范围分类,也可以得到次序属性的数据。
  • 次序属性的中心性可以用众数中值来衡量,但是不能计算平均数

标称属性、二元属性和序数属性都是定性的。它们在描述一个对象的特征时不给出具体的尺寸和数量。值通常是一个词表示类别,即使以整数的方式表现,也不是表示数量。

2.1.5 数值属性

数值属性是定量的,是可测量的数值,为整数或实数。分为区间标度和比例标度。

  1. 区间标度属性
  2. 比例标度属性

区间标度属性
• 区间标度(interval-scaled)使用同等大小的单元来衡量。区间属性有大小,可以是正,零或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。
• 举例:温度属性是区间标度的。20摄氏度高于15摄氏度。日历、年份也是区间标度。
• Celsius和Fahrenheit是两个温度,没有绝对0点,并且我们能计算温度的差值,但是不能说一个值是另一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。
• 区间标度是数值型的,可以计算平均值,中值和众数。

比例标度属性
• 比例标度属性(ratio-scaled)是具有固定零点的数值属性。
如果一个测量是比例尺度,则可以以比率来衡量两个值,也可以计算值的差值,以及中值,均数和众数。
• 例如:Kelvin温度有一个真正的0点。另外,计数属性,经验年数,单词个数,体重,身高,速度,货币都是比例尺度。

2.1.6 离散和连续属性

离散属性有有限的或者可数的值集合,可能不能表示为整数。例如发色,是否吸烟,医学检查结果,饮料尺寸,都有有限的值,因此是离散的。
• 离散值可能是数值型的,比如二进制的0和1,年龄的0到110.
• 一个属性是可数无限的,如果可能的值集合是无限的,但是值和自然数有一一对应的关系。比如,顾客ID是可数无限的。邮政编码也是。
• 如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是一样的。

2.2 数据的基本统计描述

为了更好的做数据预处理,对数据有整体的了解很关键。
基本的统计描述能鉴别数据,分辨出噪声和离群点。

2.2.1 中心趋势度量:平均数,中位数,众数

• 假定我们有一些属性𝑥,例如薪资,有一系列数据对象的记录。令𝑥1, 𝑥2,….𝑥𝑁是属性𝑥的𝑁个观察到的值。如果我们画出薪资的点图,绝大部分的值会落在哪里呢?这就是数据的中心性问题。
• 衡量中心性的测量有均值、中值、众数和中列数。

平均数:最常用和最有效的测量是数据的(算术)平均数。计算公式是:
在这里插入图片描述
 有时候,每一个𝑥𝑖有一个关联的权重𝑤𝑖,权值表示相应值的重要性、显著性或者发生频率。称为加权算术平均值或者加权平均这时候,加权算术平均的计算公式为:
在这里插入图片描述
 平均值对极端值比较敏感。比如一个公司的员工平均薪水可能被少数高新的经理提高很多。同样,班级的平均分也可能被少数的低分拉低很多。
 为了处理这种由少数极端值带来的效果,可以使用削减均值,即去掉极

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值