第一章 数据可视化概述
1.1 什么是数据可视化
- 数据可视化定义: 将抽象的,复杂的,不易理解的数据转化为图形,图像,符号,颜色,纹理等,转化之后具备较高的识别效率,能够有效的传达出数据本身所包含的有用信息.
- 数据可视化目的: 对数据进行可视化处理,以更明确的,有效地传递信息.
- 数据可视化从数据中寻找三个方面的信息: 模式,关系和异常.
- 模式: 指数据中的规律
- 关系: 指数据之间的相关性,在统计学中,通常代表关联性和因果性
数据的关系分为三类: 数据间的比较, 数据的构成, 数据的分布或联系- 异常: 指有问题的数据
异常的数据不一定是错误的数据, 有些事设备出错或人为输入错误,有些可能是正确的数据
1.2 数据可视化的作用
- 记录信息
- 分析推理
- 信息传播与协同
难题:
(1) 大量数据不能有效利用
(2) 数据展示模式繁杂晦涩, 无法快速甄别有效信息
数据可视化在大数据分析中的作用:
(1) 动作更快
(2) 以建设性方式提供结果
(3) 理解数据之间的联系
1.3 数据可视化的分类
- 科学可视化
- 信息可视化
- 层次数据可视化中,层次数据表达各个个体之间的层次关系. 树图是层次数据可视化的典型案例, 树图是对现实世界事物关系的抽象, 其数据本身具有层次结构的信息.
- 网络结构数据可视化中, 网络数据不具备层次结构, 关系更加复杂和自由.
- 非结构化数据可视化通常将非结构化数据转化为结构化数据再进行可视化显示.
- 可视分析学
可视分析学被定义为一门以可视交互界面为基础的分析推理科学,综合了图形学.数据挖掘和人机交互等技术.
可视分析学的核心分析方法: 地理分析,信息分析,科学分析,统计分析,知识发现等.
1.4 数据可视化的发展历史
- 图表萌芽 (远古-1599年)
- 物理测量 (1600-1699年)
- 图形符号 (1700-1799年)
- 数据图形 (1800-1899年)
- 现代启蒙 (1900-1945年)
- 多维信息的可视编码 (1946-1974年)
Jacques Bertin出版了Semiology of Graphics一书,确定了构成图形的基本要素,描述了一种关于图形设计的框架. 这套理论奠定了信息可视化的理论基石. - 多维统计图形 (1975-1987年)
处理范围从简单的统计数据扩展为层次更复杂的的网络, 数据库, 文本等非结构化与高维数据. - 多交互可视化 (1988-2004年)
- 可视分析学 (2005至今)
定义: 综合可视化, 图形学, 数据挖掘理论与方法, 提出新的理论模型, 可是化方法和用户交互手段. 辅助用户从大尺度, 复杂的数据中快速挖掘有用的信息,以便用户作出有效的决策.
1.5 数据可视化的未来
数据可视化面临的挑战:
(1)数据规模大,已超越单机、外存模型甚至小型计算集群处理能力的极限,而当前软件和工具运行效率不高,需探索全新思路解决该问题。
(2)在数据获取与分析处理过程中,易产生数据质量问题,需特别关注数据的不确定性。
(3)数据快速动态变化,常以流式数据形式存在,需要寻找流数据的实时分析与可视化方法。
(4)面临复杂高维数据,当前的软件系统以统计和基本分析为主,分析能力不足。
(5)多来源数据的类型和结构各异,已有方法难以满足非结构化、异构数据方面的处理需求
数据可视化发展方向:
(1)可视化技术与数据挖掘技术的紧密结合。数据可视化可以帮助人类洞察出数据背后隐藏的潜在规律,进而提高数据挖掘的效率,因此,可视化与数据挖掘紧密结合是可视化研究的一个重要方向。
(2)可视化技术与人机交互技术的紧密结合。用户与数据交互,可方便用户控制数据,更好地实现人机交互是人类一直追求的目标。 因此,可视化与人机交互相结合是可视化研究的一个重要发展方向。
(3)可视化技术广泛应用于大规模、高维度、非结构化数据的处理与分析。目前,我们处在大数据时代,大规模、高维度、非结构化数据层出不穷,若将这些数据以可视化形式完美地展示出来,对人们挖掘数据中潜藏的价值大有裨益。因此,可视化与大规模、高维度、非结构化数据结合是可视化研究的一个重要发展方向。