Diaforá:生物分类学比较的可视化工具
发布时间: 2025-08-17 01:31:44 阅读量: 1 订阅数: 4 

# Diaforá:生物分类学比较的可视化工具
## 1. 相关工作
在可视化分析中,对复杂实体进行可视化比较是一项常见需求。这些实体的复杂性源于其多维性和大量的组成部分。可视化比较旨在直观地找出某一领域内对象之间的差异和相似性,并为分析提供信息。这一过程涉及到一组待比较的元素,它们具有特定的特征,也带来了一些挑战,例如可扩展性挑战。同时,还需要考虑用户感兴趣的任务、便于比较的策略和方法,以及能够实现充分可视化比较的设计。
### 1.1 层次结构比较
层次结构之间的比较旨在找出以树状结构组织的信息集之间的差异和相似性。差异可能出现在拓扑结构和与每个节点相关的数据中。层次结构可以有多种表示方式,但并非所有方式都适合进行比较。层次结构可视化也可以考虑多视图。比较可以在两棵树之间或多棵树之间进行。Graham和Kennedy将比较两个层次结构的方法总结为五类:边绘制、动画、着色、矩阵表示和聚合。而Gleicher定义了三种主要的比较布局类型:并列、叠加和显式编码。
### 1.2 相关工具和研究
InfoVis 2003竞赛聚焦于树的可视化和成对比较。TreeJuxtaposer用于比较大型系统发育树,并引入了类似手风琴的变形技术以保证可见性。Zoomology利用缩放技术以及概览和细节技术来可视化比较。在生物学中,树的比较既涉及系统发育树,也涉及生物分类学。对生物分类学比较任务的研究表明,分类学家对识别分类单元的分裂、合并、移动、重命名、添加或删除情况感兴趣。一项关于生物分类学比较可视化方法的研究指出,分类学家更喜欢边绘制表示方法。
### 1.3 边绘制问题
在图可视化中,边绘制一直是个问题,因为当图很大时会出现杂乱的情况。树作为图的一种特殊情况,也存在类似问题。Hierarchical Edge Bundles(HEB)是一种在减少杂乱的同时布局边的技术,但在区分节点间的个体关系时存在局限性。
## 2. 数据
生物分类学简单来说是按层次组织的分类单元列表,其中每个内部分类单元代表一个类别,层次结构中的每个较低级分类单元代表一个物种。全球倡议如生物多样性信息标准(TDWG)和全球生物多样性信息设施(GBIF)致力于标准化数据库中的信息并促进生物多样性知识的共享。然而,由于信息在全球数据库中的分散,标准化仍然是一个持续的问题。生命目录(COL)包含全面的分类学信息列表,它从约168个数据库中收集了约180万个物种,生成月度和年度版本的列表,并通过基于JSON/XML/PHP的Web服务提供信息的开放访问。
### 2.1 数据处理
JSON格式轻量级且便于数据交换,但由于使用文本标签,文件可能会变得很大,在处理大型分类学时可能会带来内存问题。因此,将标签名称简化为单字符标签(例如,n代表名称,s代表同义词),且这些标签仍然易于理解。
### 2.2 数据获取
从COL下载了不同大小和不同年份的分类学数据,以便比较不同年份的版本。对于每个分类单元,获取了分类单元名称、分类等级、来源或作者、出版日期、访问日期、同义词列表和后代列表。这些数据字段对于运行推理算法和自动识别两个版本分类学之间的差异至关重要。不能仅仅通过比较分类单元名称来寻找差异,当分类单元的名称、作者和出版年份在两个版本的分类学中都相同时,可以推断两个分类单元指的是同一概念。同义词在识别变化中起着不可或缺的作用,因为它们将一个分类单元与其先前版本联系起来。
## 3. 设计要求
要解决的问题是可视化两个版本生物分类学之间的差异。不仅需要识别一般类型的变化(例如,两个层次结构大小的差异),还需要了解发生的变化类型(例如,是否有分裂)以及具体的变化(例如,分类单元x分裂成了p、q和r)。基于先前研究的见解,将设计要求归纳为六个方面:层次结构表示、比较布局、变化的显式表示、多视图、视觉和数值摘要以及效率。
### 3.1 层次结构表示
分类单元名称的可读性对于分类学家分析分类学和理解它们之间的差异至关重要。因此,分类单元名称应始终可读且可见,层次结构表示应便于读取名称。紧凑的层次结构表示,如矩阵、树状图和冰柱图,能有效利用空间,但显示标签(即分类单元名称)的空间太小,难以阅读或根本无法显示。因此,考虑使用缩进列表作为设计方案。
### 3.2 比较布局
参考框架表明,分类学家更喜欢边绘制方法而不是矩阵表示、动画和聚合。因此,采用并列设计,以边绘制为核心方法来可视化比较。分类学应分开并排放置,以便于比较。除了表示方式,交互在信息可视化中也起着关键作用。交互包括选择、探索、编码、过滤、连接和抽象/细化等技术。在边绘制方法的分类学比较中,连接可以通过分类单元之间的关系(即边)自然实现,这些边突出了两个版本分类学之间的变化。
### 3.3 变化的显式表示
分类学家需要能够快速识别差异,并清楚地找出变化的起源和目的地。边绘制方法满足这一要求,在主视图中,变化可以通过从T1中的分类单元到T2中的分类单元的彩色线条显式表示。使用颜色来显式表示变化也非常有用,不同类型的变化用不同颜色表示:粉色表示分裂,橙色表示合并,棕色表示移动,蓝色表示重命名,红色表示排除,绿色表示添加的分类单元。然而,边的杂乱可
0
0
相关推荐










