SeqAn3序列文件子模块及性能、易用性分析
1. 序列文件子模块操作
在序列文件操作中,有多种写入方式。使用 begin()
返回的解引用输出迭代器(Option3)不太直观,而受 std::vector
启发的 emplace_back()
和 push_back()
成员函数更易于使用。 emplace
函数接受单个字段作为参数,参数类型是通用的,但有一定约束,例如序列数据可以是普通的 std::string
,但传入 int
会导致约束失败。
输出文件可以在现有流上创建,还能使用自定义字段配置。 emplace
函数期望其参数与文件配置的字段相对应,这可以像处理输入文件那样进行更改。需要注意的是,以 seqan3::record
为参数的 push_back()
不受字段配置更改的影响,因为文件总能将记录元素映射到正确的ID。
在写入文件时,格式会忽略无法写入的字段,这使得超集格式之间的无缝转换成为可能,如从FASTQ转换为FASTA。但反向转换不可行,因为FASTQ文件要求写入质量字符串。如果尝试写入不包含所需字段或字段不匹配的记录,格式会抛出异常。
2. 输入输出结合
结合输入和输出文件有两种方式。可以使用之前介绍的函数将输入和输出文件结合,也可以将输入文件当作视图,输出文件当作视图终止符。使用 |