数据统计分析与质量处理全解析
立即解锁
发布时间: 2025-08-22 01:43:50 阅读量: 2 订阅数: 4 


数据分析入门:从理论到实践
### 数据统计分析与质量处理全解析
#### 1. 多元统计分析基础
多元统计分析看似复杂,实则是一元和二元统计分析的简单扩展。在进行多元统计分析时,位置统计和离散统计是两个重要的方面。
##### 1.1 位置多元统计
当有多个属性时,测量位置统计只需分别测量每个属性的位置。以“maxtemp”、“height”、“weight”和“years”这四个属性为例,其主要位置统计值可以用矩阵形式呈现,如下表所示:
| Location statistics | Maxtemp | Weight | Height | Years |
| --- | --- | --- | --- | --- |
| Min | 8.00 | 55.00 | 158.00 | 0.00 |
| Max | 31.00 | 115.00 | 195.00 | 16.00 |
| Average | 18.14 | 79.00 | 176.29 | 7.14 |
| Mode | 15.00 | 75.00 | 172.00 | 2.00 |
| First quartile | 12.25 | 67.00 | 169.00 | 2.25 |
| Median or second quartile | 15.50 | 75.00 | 174.00 | 5.50 |
| Third quartile | 24.00 | 84.50 | 183.75 | 11.75 |
箱线图可用于展示多元数据集中属性的相关信息。若属性数量不多,可为每个属性绘制一个箱线图。例如,在联系人数据集的定量属性中,通过箱线图可以看出“weight”属性的值区间比“years”属性大,且“weight”属性的中位数比“maxtemp”属性的中位数更接近值的中心。需要注意的是,箱线图不适用于定性数据集,因为除众数外,其他统计量仅适用于数值。当属性数量较多(如超过 10 个)时,分析所有箱线图中的信息会变得困难。
##### 1.2 离散多元统计
对于多元统计,离散统计(如幅度、四分位距、平均绝对偏差和标准差)可针对每个属性独立定义。以下是“maxtemp”、“height”、“weight”和“years”四个属性的离散统计示例:
| Dispersion statistics | Maxtemp | Weight | Height | Years |
| --- | --- | --- | --- | --- |
| Amplitude | 23.00 | 60.00 | 37.00 | 16.00 |
| Interquartile range | 11.75 | 17.50 | 14.75 | 9.50 |
| MAD | 7.41 | 14.09 | 11.12 | 6.67 |
| s | 7.45 | 17.38 | 11.25 | 5.66 |
除了独立测量每个属性的离散程度,还可以测量一个属性的值与另一个属性的值之间的变化关系。通过协方差矩阵可以表示一组属性中所有属性对的协方差,矩阵的主对角线显示每个属性的方差,且矩阵是对称的。例如,以下是联系人数据集中四个属性的协方差矩阵:
| | Maxtemp | Weight | Height | Years |
| --- | --- | --- | --- | --- |
| Maxtemp | 55.52 | 34.46 | 20.19 | 5.82 |
| Weight | 34.46 | 302.15 | 184.62 | 42.39 |
| Height | 20.19 | 184.62 | 126.53 | 14.03 |
| Years | 5.82 | 42.39 | 14.03 | 31.98 |
皮尔逊相关矩阵可以展示属性对之间的相关性,矩阵主对角线上的值都等于 1,表示每个属性与自身完全相关。例如:
| | Maxtemp | Weight | Height | Years |
| --- | --- | --- | --- | --- |
| Maxtemp | 1.00 | 0.27 | 0.24 | 0.14 |
| Weight | 0.27 | 1.00 | 0.94 | 0.43 |
| Height | 0.24 | 0.94 | 1.00 | 0.22 |
| Years | 0.14 | 0.43 | 0.22 | 1.00 |
可以使用散点图矩阵来展示一组属性中所有属性对的相关性,每个散点图对应一对属性。散点图矩阵也被称为绘图员显示
0
0
复制全文
相关推荐










