数据代表的相关理论与应用
立即解锁
发布时间: 2025-09-02 01:32:18 阅读量: 1 订阅数: 5 AIGC 

### 数据代表的相关理论与应用
在数据分析领域,寻找数据的代表性数值是一项基础且重要的工作。不同的代表值能从不同角度反映数据的特征,本文将深入探讨一维和二维数据集的代表值相关内容。
#### 1. 一维数据集的代表值
##### 1.1 无权重数据的LS代表值
对于无权重的一维数据集 \(A = \{a_1, \cdots, a_m\} \subset \mathbb{R}\),我们可以通过一些函数来寻找其代表值。例如,函数 \(F_{LS}\) 是一个抛物线函数,当 \(F_{LS}(c_{LS}^{\star}) = 7.7\) 时,我们可以进一步探讨该数据集的方差和标准差。
同时,当数据集中存在异常值(outlier)时,会对最佳的LS代表值(即算术平均值)产生影响。比如将数据 \(a_5 = 5\) 改为 \(a_5 = 10\),算术平均值会发生变化。
我们还可以证明一个有趣的性质:设 \(c_{LS}^{\star}\) 是集合 \(A\) 的算术平均值,则 \(\sum_{i = 1}^{m} (c_{LS}^{\star} - a_i) = 0\)。通过具体的数据例子可以验证这个性质。
另外,对于两个不相交的集合 \(A = \{a_1, \cdots, a_p\}\) 和 \(B = \{b_1, \cdots, b_q\}\),它们的算术平均值分别为 \(a_{LS}^{\star}\) 和 \(b_{LS}^{\star}\),那么它们的并集 \(C = A \cup B\) 的算术平均值 \(c_{LS}^{\star}\) 满足:
\[c_{LS}^{\star} = \frac{p}{p + q} a_{LS}^{\star} + \frac{q}{p + q} b_{LS}^{\star}\]
我们可以通过多个例子来验证这个公式,并且可以将其推广到 \(r\) 个互不相交的集合 \(A_1, \cdots, A_r\),分别包含 \(p_1, \cdots, p_r\) 个元素的情况。
##### 1.2 最佳 \(\ell_1\) 代表值
对于无权重数据和 \(\ell_1\) 度量,函数 \(F_1(x) := \sum_{i = 1}^{m} |x - a_i|\)。当 \(A\) 是一组不同的实数时,函数 \(F_1\) 在集合 \(A\) 的中位数处取得全局最小值。
具体来说,如果 \(m\) 是奇数(\(m = 2p + 1\)),函数 \(F_1\) 在中间的数据 \(a_p\) 处取得全局最小值;如果 \(m\) 是偶数(\(m = 2p\)),函数 \(F_1\) 在区间 \([a_p, a_{p + 1}]\) 上的每一个点处取得全局最小值。
例如,给定数据集 \(A = \{2, 1.5, 2, 2.5, 5\}\),其中位数 \(med A = 2\),其绝对偏差之和 \(F_1(c_1^{\star}) = 4\)。当数据集中存在异常值时,中位数的变化情况值得关注。比如将 \(a_5 = 5\) 替换为 \(a_5 = 10\) 或 \(a_5 = 100\),中位数会相应改变。
在统计中,我们可以使用中位数绝对偏差(Median of Absolute Deviations from Median,MAD)来衡量数据集 \(A\) 围绕中位数的离散程度,公式为:
\[MAD A = 1.483 \text{ med}_{i = 1, \cdots, m} |a_i - \text{med}_{j = 1, \cdots, m} a_j|\]
我们可以通过一个例子来进一步说明。对于数据集 \(A = \{9.05, 2.83, 3.00, 3.16, 4.12, 3.00, 3.50\}\),我们可以通过线性映射 \(\phi(x) = \frac{x - a}{b - a}\)(其中 \(a = \min A\),\(b = \max A\))将其映射到单位区间 \([0, 1]\),得到 \(\phi(A) = \{1., 0., 0.027, 0.053, 0.207, 0.027, 0.108\}\),可以明显看出 \(a_1\) 是数据集中最大的元素。通过计算 \(MAD = 0.489\),并定义新的集合 \(\tilde{A} = \{\tilde{a}_i = \frac{|a_i - \text{med}_{j = 1, \cdots, m} a_j|}{MAD} : a_i \in A\}\),根据规则 \(\tilde{a}_i > 2.5\) 判定为异常值,在这个例子中,只有 \(a_1 = 9.05\) 是异常值。
##### 1.3 加权数据的最佳代表值
在实际应用中,有时需要为数据赋予权重,以体现每个数据的影响或出现频率。对于加权数据,函数 \(F_{LS}(x) = \sum_{i = 1}^{m} w_i (x - a_i)^2\) 在唯一的点 \(c_{LS}^{\star} = \frac{1}{W} \sum_{i = 1}^{m} w_i a_i\)(其中 \(W = \sum_{i = 1}^{m} w_i\))处取得全局最小值,这个点被称为加权算术平均值。
对于 \(\ell_1\) 度量函数 \(F_1(x) = \sum_{i = 1}^{m} w_i |x - a_i|\),它在加权中位数 \(Med_i (w_i, a_i)\) 处取得全局最小值。具体的判定规则如下:
设 \(a_1 < \cdots < a_m\) 是一组带权重 \(w_1, \cdots, w_m > 0\) 的数据点,记 \(I = \{1, \cdots, m\}\),\(J := \{\nu \in I : \sum_{i = 1}^{\nu} w_i \leq \sum_{i = \nu + 1}^{m} w_i\}\),对于 \(J \neq \varnothing\),记 \(\nu_0 = \max J\)。
- 如果 \(J = \varnothing\)(即 \(w_1 > \sum_{i = 2}^{m} w_i\)),则 \(F_1\) 的最小值在点 \(\alpha^{\star} = a_1\) 处取得。
- 如果 \(J \neq \varnothing\) 且 \(\sum_{i = 1}^{\nu_0} w_i < \sum_{i = \nu_0 + 1}^{m} w_i\),则 \(F_1\) 的最小值在点 \(\alpha^{\star} = a_{\nu_0 + 1}\) 处取得。
- 如果 \(J \neq \varnothing\) 且 \(\sum_{i = 1}^{\nu_0} w_i = \sum_{i = \nu_0 + 1}^{m} w_i\),则 \(F_1\) 的最小值在区间 \([a_{\nu_0}, a_{\nu_0 + 1}]\) 上的每一个点 \(\alpha^{\star}\) 处取得。
当权重 \(w_1 = \cd
0
0
复制全文
相关推荐










