作者:禅与计算机程序设计艺术
在过去的十几年里,数据量越来越大、种类繁多,传统的数据分析方法已经无法适应如此之大的数据量和复杂度。因此,机器学习、深度学习等技术出现并成为数据分析领域的新兴领域。但是对于传统的非结构化数据,机器学习算法也难以直接处理,因此需要一些其他的方法进行数据的分析和可视化。 而在数据分析过程中,数据的可视化是一个重要环节,因为通过图表可以直观地展示数据之间的联系和规律。然而,现实世界中的数据往往是非常复杂的高维数据,不仅特征数量巨多,而且很多变量之间存在相关性。传统的可视化工具并不能很好地处理这种高维数据的可视化。因此,如何使用Python和pandas库进行高维数据可视化和数据探索就成了数据科学家需要掌握的技能。 本文将以数据集“肿瘤癌症检测”为例,来说明如何使用Python和pandas库进行高维数据可视化和数据探索。
2.基本概念术语说明
数据集
首先,我们将要介绍的数据集名为“肿瘤癌症检测”,其来自UCI Machine Learning Repository。该数据集描述了对不同癌症进行检测时,被试是否会得肿瘤癌症的真实情况。数据集共有769个样本,每个样本都包含8个特征(每个特征取值为0或1)和一个标签(取值为0或1)。其中,前768个特征可以看作是指标(indicator),它们用来衡量各种诊断因素对病人的肿瘤癌症的发病机会。第8个特征可以看作是结果(outcome),它代表了病人是否得肿瘤癌症。如果得肿瘤癌症,则标签为1;否则,标签为0。这个数据集是二分类任务,即病人是否得肿瘤癌症,属于二值判别任务。
Python环境搭建
为了方便读者阅读,我