python特征相关性热力图怎么画_【技术博客】特征选择和数据可视化

本文通过Python的Seaborn库展示了如何使用小提琴图、箱型图、joint plot、swarm plot和热力图对数据进行特征选择分析,特别是在乳腺癌诊断数据集上的应用。通过数据可视化,作者强调了这些图表在理解数据分布、相关性和特征选择上的重要性,最终使用随机森林模型进行了预测,并取得了高准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:支广达

数据对于我们大多数人来说,都是抽象无序的,今天就让我们来试一试,如何用python将抽象数据可视化为清晰明了的图表吧!

对从事算法研究或者数据分析的人来说,数据可视化可能并不是很受欢迎,毕竟数据可视化并不能给研究的内容带来直接的回报,而且制作过程可能比较枯燥,可以说是有点吃力不讨好。但是其实数据可视化可以潜在的让你更加了解你的数据,一个好的数据可视化思路,可以让你在着手自己研究的内容之前,指明方向从而少走弯路。

下面我们结合一些例子,来教大家如何巧妙的运用可视化工具对你的数据进行特征选择的分析。

0.导入数据

首先我们导入一些必要的数据处理工具包,并用pandas加载我们的数据,在这个例子中我们使用的数据是一个乳腺癌的诊断数据集,对于这种数据集,我们虽然没有医学方面的知识,但是可以通过数据分析得出一些结论

a62adbb7707a84dd1b2a26299a793499.png

1.数据分析

在特征选择和提取之前,我们先对数据进行基础的分析,先来看看我们的数据有哪些特征

data.head()

bb881b5cb6e8cd16a95f1da8da96d97c.png

首先通过查看数据的特征,我们要注意到四个点:1. id 不是能够用于分类的数据 2.诊断结果(diagnosis)应该作为我们的label 3. 最后一列 Unamed 有NAN数据,所以这一列舍弃 4. 我们不知道其他特征都代表了什么,但是这并不影响我们对数据的分析。

下面我们将label与需要的特征分开:

369c7356cc47afd018e85e245343917e.png

f9ef259a36f8a751328e977100861727.png

我们用seaborn库画出对label内容的统计图

ax = sns.countplot(y,label="Count")

eb810678e61e34ae80e77ee7196ed4d0.png

接下来我们来看特征,我们并不需要理解这些特征是什么意思,但是我们可以知道数据的方差(variance)和偏差(bias)以及数据中最大值和最小值是多少。这些类型的信息有助于了解数据的状态,好进行下一步的工作。 例如,area_mean特征的最大值为2500,smoothness_mean特征的最大值为0.16340。 因此,在可视化,特征选择,特征提取或分类之前,我们需要将这些数据进行标准化。

下面调用pandas中的describe函数计算出上述的基本信

x.describe()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值