作者:支广达
数据对于我们大多数人来说,都是抽象无序的,今天就让我们来试一试,如何用python将抽象数据可视化为清晰明了的图表吧!
对从事算法研究或者数据分析的人来说,数据可视化可能并不是很受欢迎,毕竟数据可视化并不能给研究的内容带来直接的回报,而且制作过程可能比较枯燥,可以说是有点吃力不讨好。但是其实数据可视化可以潜在的让你更加了解你的数据,一个好的数据可视化思路,可以让你在着手自己研究的内容之前,指明方向从而少走弯路。
下面我们结合一些例子,来教大家如何巧妙的运用可视化工具对你的数据进行特征选择的分析。
0.导入数据
首先我们导入一些必要的数据处理工具包,并用pandas加载我们的数据,在这个例子中我们使用的数据是一个乳腺癌的诊断数据集,对于这种数据集,我们虽然没有医学方面的知识,但是可以通过数据分析得出一些结论

1.数据分析
在特征选择和提取之前,我们先对数据进行基础的分析,先来看看我们的数据有哪些特征
data.head()

首先通过查看数据的特征,我们要注意到四个点:1. id 不是能够用于分类的数据 2.诊断结果(diagnosis)应该作为我们的label 3. 最后一列 Unamed 有NAN数据,所以这一列舍弃 4. 我们不知道其他特征都代表了什么,但是这并不影响我们对数据的分析。
下面我们将label与需要的特征分开:


我们用seaborn库画出对label内容的统计图
ax = sns.countplot(y,label="Count")

接下来我们来看特征,我们并不需要理解这些特征是什么意思,但是我们可以知道数据的方差(variance)和偏差(bias)以及数据中最大值和最小值是多少。这些类型的信息有助于了解数据的状态,好进行下一步的工作。 例如,area_mean特征的最大值为2500,smoothness_mean特征的最大值为0.16340。 因此,在可视化,特征选择,特征提取或分类之前,我们需要将这些数据进行标准化。
下面调用pandas中的describe函数计算出上述的基本信
x.describe()