数据管理与理解:二手车数据的多维度分析
立即解锁
发布时间: 2025-09-01 01:55:55 阅读量: 2 订阅数: 21 AIGC 

### 数据管理与理解:二手车数据的多维度分析
#### 1. 异常值检测与箱线图
在数据分析中,异常值的检测至关重要。箱线图是一种直观展示数据分布的工具,其中最小值和最大值可以用延伸至箱体上下的须线表示。不过,通常的做法是让须线延伸至第一四分位数(Q1)以下或第三四分位数(Q3)以上 1.5 倍四分位距(IQR)的位置。超出这个阈值的值被视为异常值,通常用圆圈或点表示。
以二手车价格数据为例,价格的 IQR 为 3909,Q1 是 10995,Q3 是 14904。那么异常值就是小于 10995 - 1.5 * 3909 = 5131.5 或大于 14904 + 1.5 * 3909 = 20767.5 的值。价格箱线图在高低两端都显示了两个异常值。而里程箱线图在低端没有异常值,所以底部须线延伸到最小值 4867;在高端,我们看到超过 100000 英里的几个异常值,这些异常值导致了之前发现的均值远大于中位数的情况。
#### 2. 数值特征可视化:直方图
直方图是另一种可视化数值特征分布的方法。它与箱线图类似,都将特征值划分为预定义的部分或区间(箱),但不同的是,箱线图创建四个包含相同数量值但范围不同的部分,而直方图使用更多相同范围的部分,并且允许每个箱包含不同数量的值。
可以使用 `hist()` 函数为二手车价格和里程数据创建直方图,示例代码如下:
```R
hist(usedcars$price, main = "Histogram of Used Car Prices",
xlab = "Price ($)")
hist(usedcars$mileage, main = "Histogram of Used Car Mileage",
xlab = "Odometer (mi.)")
```
价格直方图中,10 个条形每个跨度为 2000 美元,从 2000 美元开始到 22000 美元结束。图中心最高的条形覆盖了 12000 美元到 14000 美元的范围,频率为 50。由于数据包含 150 辆车,可知三分之一的车价格在 12000 美元到 14000 美元之间,超过一半(近 90 辆车)的车价格在 12000 美元到 16000 美元之间。
里程直方图有八个条形,每个代表 20000 英里的区间,从 0 开始到 160000 英里结束。与价格直方图不同,最高的条形不在数据中心,而是在图的左侧,该箱内的 70 辆车里程读数在 20000 到 40000 英里之间。
两个直方图的形状有所不同,二手车价格似乎在中间两侧均匀分布,而汽车里程则向右延伸得更远,这种特征被称为偏斜,更具体地说是右偏斜,因为高端(右侧)的值比低端(左侧)的值分布得更分散。
#### 3. 理解数值数据:均匀分布和正态分布
直方图、箱线图以及描述中心和离散程度的统计量可以帮助我们检查特征值的分布。变量的分布描述了一个值落在各个范围内的可能性。
如果所有值出现的可能性相等,例如在记录公平六面骰子掷出值的数据集里,这种分布被称为均匀分布。均匀分布在直方图中很容易检测,因为条形高度大致相同。
然而,并非所有随机事件都是均匀分布的。二手车价格和里程数据显然不是均匀分布的,价格直方图显示,离中心条形越远的值出现的可能性越小,形成了钟形的数据分布,这就是所谓的正态分布的标志。
#### 4. 测量离散程度:方差和标准差
分布使我们能够用较少的参数来描述大量的值。正态分布可以用两个参数定义:中心和离散程度。中心由均值定义,离散程度由标准差衡量。
计算标准差需要先得到方差,方差定义为每个值与均值之差的平方的平均值,公式如下:
\[Var(X) = \sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2\]
其中,希腊字母 $\mu$ 表示值的均值,方差本身用希腊字母 $\sigma^2$ 表示。
标准差是方差的平方根,公式为:
\[StdDev(X) = \sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2}\]
在 R 中,可以使用 `var()` 和 `sd()` 函数计算方差和标准差,示例代码如下:
```R
var(usedcars$price)
sd(usedcars$price)
var(usedcars$mileage)
sd(usedcars$mileage)
```
方差越大,表示数据围绕均值的分布越广泛;标准差表示每个值平均与均值的差异程度。根据 68 - 95 - 99.7 规则,在正态分布中,68% 的值落在均值的一个标准差范围内,95% 和 99.7% 的值分别落在两个和三个标准差范围内。对于二手车价格数据,已知均值为 12962 美元,标准差为 3122 美元,假设价格呈正态分布,大约 68% 的汽车广告价格在 12962 - 3122 = 9840 美元到 12962 + 3122 = 16804 美元之间。
#### 5. 探索分类特征
二手车数据集包含三个分类特征:车型、颜色和变速器。此外,虽然年份存储为数值向量,但每个年份可以看作适用于多辆车的类别,因此也可以将其视为分类特征。
与数值数据不同,分类数据通常使用表格而不是汇总统计量进行检查。展示单个分类特征的表格称为单向表,可以使用 `table()` 函数为二手车数据生成单向表,示例代码如下:
```R
table(usedcars$year)
table(usedcars$model)
table(usedcars$color)
```
`table()` 输出列出了名义变量的类别以及落入每个类别的值的数量。例如,从 `table(usedcars$year)`
0
0
复制全文
相关推荐










