数据代表的相关理论与应用

### 数据代表的相关理论与应用在数据分析领域，寻找数据的代表性数值是一项基础且重要的工作。不同的代表值能从不同角度反映数据的特征，本文将深入探讨一维和二维数据集的代表值相关内容。 #### 1. 一维数据集的代表值 ##### 1.1 无权重数据的LS代表值对于无权重的一维数据集 \(A = \{a_1, \cdots, a_m\} \subset \mathbb{R}\)，我们可以通过一些函数来寻找其代表值。例如，函数 \(F_{LS}\) 是一个抛物线函数，当 \(F_{LS}(c_{LS}^{\star}) = 7.7\) 时，我们可以进一步探讨该数据集的方差和标准差。同时，当数据集中存在异常值（outlier）时，会对最佳的LS代表值（即算术平均值）产生影响。比如将数据 \(a_5 = 5\) 改为 \(a_5 = 10\)，算术平均值会发生变化。我们还可以证明一个有趣的性质：设 \(c_{LS}^{\star}\) 是集合 \(A\) 的算术平均值，则 \(\sum_{i = 1}^{m} (c_{LS}^{\star} - a_i) = 0\)。通过具体的数据例子可以验证这个性质。另外，对于两个不相交的集合 \(A = \{a_1, \cdots, a_p\}\) 和 \(B = \{b_1, \cdots, b_q\}\)，它们的算术平均值分别为 \(a_{LS}^{\star}\) 和 \(b_{LS}^{\star}\)，那么它们的并集 \(C = A \cup B\) 的算术平均值 \(c_{LS}^{\star}\) 满足： \[c_{LS}^{\star} = \frac{p}{p + q} a_{LS}^{\star} + \frac{q}{p + q} b_{LS}^{\star}\] 我们可以通过多个例子来验证这个公式，并且可以将其推广到 \(r\) 个互不相交的集合 \(A_1, \cdots, A_r\)，分别包含 \(p_1, \cdots, p_r\) 个元素的情况。 ##### 1.2 最佳 \(\ell_1\) 代表值对于无权重数据和 \(\ell_1\) 度量，函数 \(F_1(x) := \sum_{i = 1}^{m} |x - a_i|\)。当 \(A\) 是一组不同的实数时，函数 \(F_1\) 在集合 \(A\) 的中位数处取得全局最小值。具体来说，如果 \(m\) 是奇数（\(m = 2p + 1\)），函数 \(F_1\) 在中间的数据 \(a_p\) 处取得全局最小值；如果 \(m\) 是偶数（\(m = 2p\)），函数 \(F_1\) 在区间 \([a_p, a_{p + 1}]\) 上的每一个点处取得全局最小值。例如，给定数据集 \(A = \{2, 1.5, 2, 2.5, 5\}\)，其中位数 \(med A = 2\)，其绝对偏差之和 \(F_1(c_1^{\star}) = 4\)。当数据集中存在异常值时，中位数的变化情况值得关注。比如将 \(a_5 = 5\) 替换为 \(a_5 = 10\) 或 \(a_5 = 100\)，中位数会相应改变。在统计中，我们可以使用中位数绝对偏差（Median of Absolute Deviations from Median，MAD）来衡量数据集 \(A\) 围绕中位数的离散程度，公式为： \[MAD A = 1.483 \text{ med}_{i = 1, \cdots, m} |a_i - \text{med}_{j = 1, \cdots, m} a_j|\] 我们可以通过一个例子来进一步说明。对于数据集 \(A = \{9.05, 2.83, 3.00, 3.16, 4.12, 3.00, 3.50\}\)，我们可以通过线性映射 \(\phi(x) = \frac{x - a}{b - a}\)（其中 \(a = \min A\)，\(b = \max A\)）将其映射到单位区间 \([0, 1]\)，得到 \(\phi(A) = \{1., 0., 0.027, 0.053, 0.207, 0.027, 0.108\}\)，可以明显看出 \(a_1\) 是数据集中最大的元素。通过计算 \(MAD = 0.489\)，并定义新的集合 \(\tilde{A} = \{\tilde{a}_i = \frac{|a_i - \text{med}_{j = 1, \cdots, m} a_j|}{MAD} : a_i \in A\}\)，根据规则 \(\tilde{a}_i > 2.5\) 判定为异常值，在这个例子中，只有 \(a_1 = 9.05\) 是异常值。 ##### 1.3 加权数据的最佳代表值在实际应用中，有时需要为数据赋予权重，以体现每个数据的影响或出现频率。对于加权数据，函数 \(F_{LS}(x) = \sum_{i = 1}^{m} w_i (x - a_i)^2\) 在唯一的点 \(c_{LS}^{\star} = \frac{1}{W} \sum_{i = 1}^{m} w_i a_i\)（其中 \(W = \sum_{i = 1}^{m} w_i\)）处取得全局最小值，这个点被称为加权算术平均值。对于 \(\ell_1\) 度量函数 \(F_1(x) = \sum_{i = 1}^{m} w_i |x - a_i|\)，它在加权中位数 \(Med_i (w_i, a_i)\) 处取得全局最小值。具体的判定规则如下：设 \(a_1 < \cdots < a_m\) 是一组带权重 \(w_1, \cdots, w_m > 0\) 的数据点，记 \(I = \{1, \cdots, m\}\)，\(J := \{\nu \in I : \sum_{i = 1}^{\nu} w_i \leq \sum_{i = \nu + 1}^{m} w_i\}\)，对于 \(J \neq \varnothing\)，记 \(\nu_0 = \max J\)。 - 如果 \(J = \varnothing\)（即 \(w_1 > \sum_{i = 2}^{m} w_i\)），则 \(F_1\) 的最小值在点 \(\alpha^{\star} = a_1\) 处取得。 - 如果 \(J \neq \varnothing\) 且 \(\sum_{i = 1}^{\nu_0} w_i < \sum_{i = \nu_0 + 1}^{m} w_i\)，则 \(F_1\) 的最小值在点 \(\alpha^{\star} = a_{\nu_0 + 1}\) 处取得。 - 如果 \(J \neq \varnothing\) 且 \(\sum_{i = 1}^{\nu_0} w_i = \sum_{i = \nu_0 + 1}^{m} w_i\)，则 \(F_1\) 的最小值在区间 \([a_{\nu_0}, a_{\nu_0 + 1}]\) 上的每一个点 \(\alpha^{\star}\) 处取得。当权重 \(w_1 = \cd

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据代表的相关理论与应用

相关推荐

专栏目录

数据代表的相关理论与应用

相关推荐

SPC理论与应用范围.pdf

数据科学与应用：理论、方法与Python语言实践-教学大纲.docx

北航《误差理论与数据处理》期末复习资料汇总.pdf

数据库理论与应用 oracle

多传感器数据融合技术的理论及应用.pdf

数据挖掘原理与SPSS Clementine应用-粗糙集理论

信息论基础理论与应用-傅祖芸

多孔介质传热传质理论与应用

数据据库原理与应用

岩矿测试数据处理过程中对灰色误差理论的应用.pdf

区分数组和对象的三种方法

micron美光4GB NAND Flash verilog仿真模型.rar

专栏目录

最新推荐

Tableau高级功能：地图与仪表盘操作指南

优化PowerBI体验与DAX代码的实用指南

Tableau基础图表的创建与理解

问答与对话系统技术探索

数据故事创作：从理论到实践的全面指南

电子商务中的聊天机器人：开发、测试与未来趋势

预训练模型的十大关键问题探索

利用MicrosoftFairlearn实现AI系统的公平性

概率注释模型：特征添加与序列标注任务建模

Snowflake数据平台全方位解析