基因分型与杂合性缺失区域分析

### 基因分型与杂合性缺失区域分析 #### 1. 基因分型算法在基因分型过程中，若两个等位基因获得的票数完全相同，则不分配等位基因，这样可避免对单倍型访问顺序的依赖，因为会同时考虑两者的票数。具体计算时，在每个位置计算 $M'$，若 $M' = M$（即无变化），算法终止；否则，$M := M'$（用 $M'$ 替换 $M$），并进行下一次迭代。对于不在最大连通分量中的个体，当使用其连通分量中的边进行分型后，会存在一些模糊位点。针对这些个体，计算其单倍型与其他分型更好（属于更大分量）的单倍型之间的最小重组和突变数量，然后以最小化突变加重组数量的方式分配单倍型相位，类似于 Minichiello Durbin 的方法；也可在抽样框架下进行，根据突变和重组数量的函数概率抽样单倍型。 #### 2. 模拟数据实验结果使用模拟数据集比较了算法与 BEAGLE 的正确性和学习率。利用 Hudson 模拟器生成 3000 个单倍型，每个包含 3434 个 SNP，染色体长度为 105，估计种群大小为 $10^6$，中性突变率为 $10^{-9}$。为生成基因型，从模拟单倍型分布中有放回地随机抽样，使每个单倍型平均抽样 2、3 和 4 次。将单倍型组合创建亲子三代数据后，对模拟数据应用算法和 BEAGLE。由于初始三代分型，两种算法都能有效地对模拟数据集进行分型。随着抽样单倍型期望的增加，算法学习到真实分型的速率也在增加，例如 Brown Long Range Phasing 误判率的变化就很明显。通过根据共享 IBD 的概率来权衡边，而不是为每条边设置固定票数，有望实现更准确的分型。 | 种群 | BEAGLE 误判率 | Brown Long Range Phasing 误判率 | BEAGLE 无错误分型数 | Brown Long Range Phasing 无错误分型数 | 总单倍型数 | | ---- | ---- | ---- | ---- | ---- | ---- | | 1 | 0.0685% | 0.0501% | 4467 | 4459 | 4524 | | 2 | 0.0160% | 0.0148% | 6819 | 6840 | 6870 | | 3 | 0.00951% | 0.00503% | 8898 | 8923 | 8940 | #### 3. 杂合性缺失区域杂合性缺失（LOH）指正常等位基因的丢失，可能是疾病发展的遗传决定因素。在某些情况下，特定基因座杂合的个体可能拥有一个正常等位基因和一个有害等位基因。检测 CNV（如缺失）是全基因组关联研究（GWAS）中发现 LOH 事件的重要方面，但由于技术和计算限制，常被忽视。可使用 SNP 阵列数据推断 LOH。SNP 阵列的 SNP 调用算法无法区分纯合某个等位基因 a 的个体和具有缺失单倍型及等位基因 a 的个体。通过在整个数据集中查找此类基因型事件，可推断 LOH 事件。下面将介绍两种计算 GWAS 数据集中推定 LOH 区域的算法。 ##### 3.1 定义一个三代组由三个个体的基因型组成，由父母到子女的遗传模式定义。设 $M$ 表示基因型矩阵，且假设 $M$ 由三代组组成，$M_i$ 表示 $M$ 的第 $i$ 个三代组（个体 $i$、$i + 1$ 和 $i + 2$）。在任何位点 $j$，三代组 $M_i$ 可能有 43 种可能的基因型组合，该三代组可能与 LOH 一致（CLOH）、与 LOH 不一致（NCLOH）或显示 LOH 证据（ELOH）。若遗传模式只能用缺失单倍型（或基因分型错误）解释，则该三代组在位点 $i$ 显示 ELOH；若不能用缺失单倍型解释，则为 NCLOH；若可用缺失单倍型解释，则为 CLOH。 ##### 3.2 LOH 推断问题给定一组 $n$ 个 SNP 和一组在这些 SNP 上进行基因分型的 $m$ 个三代组。对于每个 SNP/三代组对，SNP 有以下三种标签： - $X$：标记与杂合性缺失不一致（即 NCLOH）。 - $0$：标记与杂合性缺失一致（即 CLOH）。 - $1$：SNP 显示杂合性缺失的证据（即 ELOH）。对于任何三代组 $M_i$，至少包含一个 $1$ 和无界数量的 $0$ 位点的连续序列称为推定缺失。若两个推定缺失 $p_i$ 和 $p_j$ 至少共享一个公共索引，则称它们重叠。设 $h_i$ 和 $h_j$ 为两个 ELOH，且 $p_i$ 和 $p_j$ 分别包含 $h_i$ 和 $h_j$。每个推定缺失与一个由其起始和结束索引定义的区间相关联，分别为 $[s_i, e_i]$ 和 $[s_j, e_j]$。若 $h_i$ 和 $h_j$ 是同一个推定缺失的成员（即

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基因分型与杂合性缺失区域分析

相关推荐

专栏目录

基因分型与杂合性缺失区域分析

相关推荐

graphtyper:使用全基因组图进行人口规模基因分型

NGSEPcore:NGSEP是用于分析高通量测序（HTS）读数的集成框架。 NGSEP的主要功能是变体检测器，它允许对具有拷贝数变异（CNV）的单核苷酸变体（SNV），插入，缺失和基因组区域进行综合发现和基因分型。

基因组变异检测+胃镜目标检测+scarHRD

adVNTR：高效基因分型工具助力VNTR分析

gbs工具：犹他州立大学基因分型Python与R脚本

CoNIFER：外显子组拷贝数推断与基因分型的开源工具

Affymetrix 6.0基因分型阵列中CNV调用的开源管道

EGFR基因19号外显子缺失突变检测技术解析

cnvOffSeq开源工具：基因拷贝数变异检测与分型

GATK-SV结构变异发现管道分析 Illumina短读全基因组测序数据

细菌鉴定中常用的生理生化反应dotx.doc

专栏目录

最新推荐

Rust模块系统与JSON解析：提升代码组织与性能

Rust开发实战：从命令行到Web应用

Rust编程：模块与路径的使用指南

Rust应用中的日志记录与调试

iOS开发中的面部识别与机器学习应用

React应用性能优化与测试指南

Rust项目构建与部署全解析

AWS无服务器服务深度解析与实操指南

Rust数据处理：HashMaps、迭代器与高阶函数的高效运用

并发编程中的锁与条件变量优化