鸢尾花数据分类的可视化方法研究
立即解锁
发布时间: 2025-08-17 00:17:55 订阅数: 2 

# 鸢尾花数据分类的可视化方法研究
## 1. 健康监测可视化示例
在健康监测的可视化中,使用了参数化偏移配对坐标(PSPC)。以 4 维情况为例,越接近目标的案例在视觉表示上与目标越相似,如箭头会更小。同时,通过颜色来指示达到目标的进度,初始健康状态用红色箭头表示,接近目标的箭头依次用黄色和浅绿色表示,目标用深绿色圆点表示。
一些非正式实验表明,人们能很快掌握如何使用 PSPC 进行健康监测,后续还会进行更正式的研究。而且,该示例虽仅使用了 4 个健康指标,但可扩展到更多指标,例如增加两个指标只需添加另一对偏移的笛卡尔坐标。
## 2. 鸢尾花数据分类案例研究
### 2.1 扩展凸包在并置配对坐标(CPC)中的应用
为了在视觉上分离鸢尾花数据的不同类别,构建了以各类别平均点为中心的 4 维超矩形(超盒)。每个超盒由其 16 个角点完全描述,角点通过各类别所有点的 4 个坐标(PW、PL、SW、SL)的最小和最大值的 16 种组合定义为 4 维点,这些超盒被称为扩展凸包,因为实际的凸包包含在其中。
在 CPC 中,前两类鸢尾花数据的 2 维扩展凸包可能会重叠,但这并不意味着 4 维数据也重叠。与普通投影不同,CPC 可以通过 2 维图恢复 n 维点,因为每个 n 维点被编码为具有 n/2 条边的 2 维图,而不是单个 2 维点。
若要判断类别在 4 维中是否重叠,可考虑 CPC 中的黑色水平线。若某些 4 维点的 2 维图完全位于重叠区域,则该线不能 100% 准确区分类别;否则可以。若有来自两个类别的图部分或完全在重叠区域,可在 CPC 坐标中视觉搜索子区域 {E1i} 和 {E2i},其中分别只有一个类别的图的节点存在,而另一个类别的图的节点不存在。
### 2.2 第一层表示
在平行、并置配对、锚定配对和偏移配对坐标中探索了鸢尾花第 1 类与第 2、3 类的分离情况。与平行坐标相比,新的并置配对可视化(CPC、APC、SPC)中,第 1 类(红色)与第 2、3 类(白色)几乎不重叠,能更清晰地分离鸢尾花 - 山鸢尾类(第 1 类)。
在 PSPC 中,分别以第 1 类和第 2 类的中点为锚点表示第 1 类和第 2 类,两类在视觉上都能清晰分离,且以某类为锚点时,该类在视觉上表示为更小、更紧凑的团块。
对于第 2 类和第 3 类的分离,以第 2 类的平均点为锚点的 PSPC 中,乍看两类重叠严重,但实际上可通过两条红线在 (X3, X4) 坐标中分离。规则如下:
- 规则 1:若 x3 > e 或 d3x3 + d2x4 + d12 > 0,则 x 属于第 3 类。
- 规则 2:若 (x1, x2) ∉ H1 且 (x1, x2) ∉ H2,则 x 属于第 3 类;否则 x 属于第 2 类。
这两条规则对第 2 类和第 3 类的分类准确率相同,均为 0.95。
### 2.3 第二层表示
为了提高第 2 类和第 3 类的分类准确率,进行了第二层的视觉发现。通过提取图 5.20 中第 2 类和第 3 类误分类图的特征,发现新的分类规则。
视觉分析提取的特征包括:
- y2 = ((x3 - a3)² + (x4 - a4)²)^(1/2):点 x 与锚点 a 的距离。
- y1 = ((x1 - a1)² + (x2 - a2)²)^(1/2):点 x 的端点与锚点 a 的距离。
- y3 = x1 - x3:水平坐标差。
- y4 = x2 - x4:垂直坐标差。
在 y1, y2, y3, y4 坐标的 PSPC 中,可视觉找到仅存在第 3 类点的两个区域 A 和 B,从而得到规则:
- 规则 3:若 (y3, y4) ∈ A 或 (y1, y2) ∈ B,则为第 3 类。该规则能 100% 正确分类第 3 类的 5 个案例。
- 规则 4:若 L
0
0
复制全文
相关推荐










