Diaforá：生物分类学比较的可视化工具

# Diaforá：生物分类学比较的可视化工具 ## 1. 相关工作在可视化分析中，对复杂实体进行可视化比较是一项常见需求。这些实体的复杂性源于其多维性和大量的组成部分。可视化比较旨在直观地找出某一领域内对象之间的差异和相似性，并为分析提供信息。这一过程涉及到一组待比较的元素，它们具有特定的特征，也带来了一些挑战，例如可扩展性挑战。同时，还需要考虑用户感兴趣的任务、便于比较的策略和方法，以及能够实现充分可视化比较的设计。 ### 1.1 层次结构比较层次结构之间的比较旨在找出以树状结构组织的信息集之间的差异和相似性。差异可能出现在拓扑结构和与每个节点相关的数据中。层次结构可以有多种表示方式，但并非所有方式都适合进行比较。层次结构可视化也可以考虑多视图。比较可以在两棵树之间或多棵树之间进行。Graham和Kennedy将比较两个层次结构的方法总结为五类：边绘制、动画、着色、矩阵表示和聚合。而Gleicher定义了三种主要的比较布局类型：并列、叠加和显式编码。 ### 1.2 相关工具和研究 InfoVis 2003竞赛聚焦于树的可视化和成对比较。TreeJuxtaposer用于比较大型系统发育树，并引入了类似手风琴的变形技术以保证可见性。Zoomology利用缩放技术以及概览和细节技术来可视化比较。在生物学中，树的比较既涉及系统发育树，也涉及生物分类学。对生物分类学比较任务的研究表明，分类学家对识别分类单元的分裂、合并、移动、重命名、添加或删除情况感兴趣。一项关于生物分类学比较可视化方法的研究指出，分类学家更喜欢边绘制表示方法。 ### 1.3 边绘制问题在图可视化中，边绘制一直是个问题，因为当图很大时会出现杂乱的情况。树作为图的一种特殊情况，也存在类似问题。Hierarchical Edge Bundles（HEB）是一种在减少杂乱的同时布局边的技术，但在区分节点间的个体关系时存在局限性。 ## 2. 数据生物分类学简单来说是按层次组织的分类单元列表，其中每个内部分类单元代表一个类别，层次结构中的每个较低级分类单元代表一个物种。全球倡议如生物多样性信息标准（TDWG）和全球生物多样性信息设施（GBIF）致力于标准化数据库中的信息并促进生物多样性知识的共享。然而，由于信息在全球数据库中的分散，标准化仍然是一个持续的问题。生命目录（COL）包含全面的分类学信息列表，它从约168个数据库中收集了约180万个物种，生成月度和年度版本的列表，并通过基于JSON/XML/PHP的Web服务提供信息的开放访问。 ### 2.1 数据处理 JSON格式轻量级且便于数据交换，但由于使用文本标签，文件可能会变得很大，在处理大型分类学时可能会带来内存问题。因此，将标签名称简化为单字符标签（例如，n代表名称，s代表同义词），且这些标签仍然易于理解。 ### 2.2 数据获取从COL下载了不同大小和不同年份的分类学数据，以便比较不同年份的版本。对于每个分类单元，获取了分类单元名称、分类等级、来源或作者、出版日期、访问日期、同义词列表和后代列表。这些数据字段对于运行推理算法和自动识别两个版本分类学之间的差异至关重要。不能仅仅通过比较分类单元名称来寻找差异，当分类单元的名称、作者和出版年份在两个版本的分类学中都相同时，可以推断两个分类单元指的是同一概念。同义词在识别变化中起着不可或缺的作用，因为它们将一个分类单元与其先前版本联系起来。 ## 3. 设计要求要解决的问题是可视化两个版本生物分类学之间的差异。不仅需要识别一般类型的变化（例如，两个层次结构大小的差异），还需要了解发生的变化类型（例如，是否有分裂）以及具体的变化（例如，分类单元x分裂成了p、q和r）。基于先前研究的见解，将设计要求归纳为六个方面：层次结构表示、比较布局、变化的显式表示、多视图、视觉和数值摘要以及效率。 ### 3.1 层次结构表示分类单元名称的可读性对于分类学家分析分类学和理解它们之间的差异至关重要。因此，分类单元名称应始终可读且可见，层次结构表示应便于读取名称。紧凑的层次结构表示，如矩阵、树状图和冰柱图，能有效利用空间，但显示标签（即分类单元名称）的空间太小，难以阅读或根本无法显示。因此，考虑使用缩进列表作为设计方案。 ### 3.2 比较布局参考框架表明，分类学家更喜欢边绘制方法而不是矩阵表示、动画和聚合。因此，采用并列设计，以边绘制为核心方法来可视化比较。分类学应分开并排放置，以便于比较。除了表示方式，交互在信息可视化中也起着关键作用。交互包括选择、探索、编码、过滤、连接和抽象/细化等技术。在边绘制方法的分类学比较中，连接可以通过分类单元之间的关系（即边）自然实现，这些边突出了两个版本分类学之间的变化。 ### 3.3 变化的显式表示分类学家需要能够快速识别差异，并清楚地找出变化的起源和目的地。边绘制方法满足这一要求，在主视图中，变化可以通过从T1中的分类单元到T2中的分类单元的彩色线条显式表示。使用颜色来显式表示变化也非常有用，不同类型的变化用不同颜色表示：粉色表示分裂，橙色表示合并，棕色表示移动，蓝色表示重命名，红色表示排除，绿色表示添加的分类单元。然而，边的杂乱可

最低0.47元/天解锁专栏

赠100次下载

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

Diaforá：生物分类学比较的可视化工具

相关推荐

专栏目录

专栏目录

Diaforá：生物分类学比较的可视化工具

相关推荐

bioinfo_tp2:生物信息-TrabalhoPrático2

E1--Congenital-malformations:科学与健康数据可视化的最终工作

geometria-descritiva:实物建筑和可视化虚拟材料

星形图 - 熟料微量元素图形表示的 MATLAB 文件：微量元素含量的可视化-matlab开发

biodosetools:生物剂量学实验室将使用的闪亮应用程序

生成图形：用于生成和可视化图形的 GUI。-matlab开发

desafios-python：3种语言的Python处理工具，以及testes com框架和testesunitários框架

overlapy:结构生物信息学和Python学科项目（生物信息学硕士）

实验foxtrot框架：框架和应用程序，可视化框架，可视化集成客户端（前端），JavaScript和服务端（后端），无头PHP。 Foxtrot busca ser el framework-ultra-liviano-multi-plataforma-todo-en-uno主要功能

基于节点相似性的图形可视化：可视化是通过 MDS（多维缩放）降维技术完成的-matlab开发

C++学习_初阶（一）——C++入门

网络综合布线中图纸设计规范性.ppt

专栏目录

最新推荐

【Coze混剪多语言支持】：制作国际化带货视频的挑战与对策

【AI智能体隐私保护】：在数据处理中保护用户隐私

一键安装Visual C++运行库：错误处理与常见问题的权威解析（专家指南）

Coze工作流的用户权限管理：掌握访问控制的艺术

【高级转场】：coze工作流技术，情感片段连接的桥梁

【架构模式优选】：设计高效学生成绩管理系统的模式选择

【数据清洗流程】：Kaggle竞赛中的高效数据处理方法

C++网络编程进阶：内存管理和对象池设计

视频编码101

CMake与动态链接库（DLL_SO_DYLIB）：构建和管理的终极指南

专栏目录