SeqAn3编程与管理设计解析
1. 编程技术
1.1 范围与视图
生物序列(如DNA序列和蛋白质序列)是序列分析的核心。在C++ 20中,序列、容器、集合等被抽象为范围。SeqAn3使用标准库的容器,仅在必要时添加新容器,这有助于追求代码的紧凑性,也便于集成,同时简化了开发,因为用户无需学习新的数据结构。
范围上的算法可以通过视图的定义建模为范围本身。视图在常见场景(如返回范围的前五个元素)和特定生物应用(如生成DNA序列的反向互补序列)中都很有用。SeqAn3依赖标准库的视图,也提供了许多自己的视图。虽然对于大多数开发者来说,使用视图及其对应的适配器对象是新事物,但一旦掌握,其机制比其他解决方案更简单、更不易出错。不过,由于视图是新特性,其对性能的影响需要进行测量。
视图代表对其他范围的算法适配,不包含与自身大小成比例的数据。但也可以使用范围适配器为另一个范围添加(大量)数据注释,这在SeqAn3中称为装饰器。它们既不是容器也不是视图,但可以像其他范围一样建模剩余的范围概念。
范围不仅包括生物序列及其变体,在SeqAn3中,文件被建模为特定文件/格式记录的范围,序列比对等算法返回比对结果的范围。这允许在文件记录或算法结果上应用声明式/函数式编程风格的视图链(如转换、过滤)。将文件视为记录范围并非C++独有的设计,BioPython也采用了类似的设计。
SeqAn3以C++ 17 + Concepts TS为基线,但整个范围机制是C++ 20的一部分,之前版本的GCC不包含该机制。不过,由于它完全由库代码组成,不需要额外的语言特性,可以通过独立库进行模拟。SeqAn3优先使用官方范围库,必要时会自动回退到独立库。