基因分型与杂合性缺失区域分析
立即解锁
发布时间: 2025-08-30 01:17:25 阅读量: 9 订阅数: 33 AIGC 

### 基因分型与杂合性缺失区域分析
#### 1. 基因分型算法
在基因分型过程中,若两个等位基因获得的票数完全相同,则不分配等位基因,这样可避免对单倍型访问顺序的依赖,因为会同时考虑两者的票数。具体计算时,在每个位置计算 $M'$,若 $M' = M$(即无变化),算法终止;否则,$M := M'$(用 $M'$ 替换 $M$),并进行下一次迭代。
对于不在最大连通分量中的个体,当使用其连通分量中的边进行分型后,会存在一些模糊位点。针对这些个体,计算其单倍型与其他分型更好(属于更大分量)的单倍型之间的最小重组和突变数量,然后以最小化突变加重组数量的方式分配单倍型相位,类似于 Minichiello Durbin 的方法;也可在抽样框架下进行,根据突变和重组数量的函数概率抽样单倍型。
#### 2. 模拟数据实验结果
使用模拟数据集比较了算法与 BEAGLE 的正确性和学习率。利用 Hudson 模拟器生成 3000 个单倍型,每个包含 3434 个 SNP,染色体长度为 105,估计种群大小为 $10^6$,中性突变率为 $10^{-9}$。为生成基因型,从模拟单倍型分布中有放回地随机抽样,使每个单倍型平均抽样 2、3 和 4 次。将单倍型组合创建亲子三代数据后,对模拟数据应用算法和 BEAGLE。由于初始三代分型,两种算法都能有效地对模拟数据集进行分型。随着抽样单倍型期望的增加,算法学习到真实分型的速率也在增加,例如 Brown Long Range Phasing 误判率的变化就很明显。通过根据共享 IBD 的概率来权衡边,而不是为每条边设置固定票数,有望实现更准确的分型。
| 种群 | BEAGLE 误判率 | Brown Long Range Phasing 误判率 | BEAGLE 无错误分型数 | Brown Long Range Phasing 无错误分型数 | 总单倍型数 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | 0.0685% | 0.0501% | 4467 | 4459 | 4524 |
| 2 | 0.0160% | 0.0148% | 6819 | 6840 | 6870 |
| 3 | 0.00951% | 0.00503% | 8898 | 8923 | 8940 |
#### 3. 杂合性缺失区域
杂合性缺失(LOH)指正常等位基因的丢失,可能是疾病发展的遗传决定因素。在某些情况下,特定基因座杂合的个体可能拥有一个正常等位基因和一个有害等位基因。检测 CNV(如缺失)是全基因组关联研究(GWAS)中发现 LOH 事件的重要方面,但由于技术和计算限制,常被忽视。
可使用 SNP 阵列数据推断 LOH。SNP 阵列的 SNP 调用算法无法区分纯合某个等位基因 a 的个体和具有缺失单倍型及等位基因 a 的个体。通过在整个数据集中查找此类基因型事件,可推断 LOH 事件。下面将介绍两种计算 GWAS 数据集中推定 LOH 区域的算法。
##### 3.1 定义
一个三代组由三个个体的基因型组成,由父母到子女的遗传模式定义。设 $M$ 表示基因型矩阵,且假设 $M$ 由三代组组成,$M_i$ 表示 $M$ 的第 $i$ 个三代组(个体 $i$、$i + 1$ 和 $i + 2$)。在任何位点 $j$,三代组 $M_i$ 可能有 43 种可能的基因型组合,该三代组可能与 LOH 一致(CLOH)、与 LOH 不一致(NCLOH)或显示 LOH 证据(ELOH)。若遗传模式只能用缺失单倍型(或基因分型错误)解释,则该三代组在位点 $i$ 显示 ELOH;若不能用缺失单倍型解释,则为 NCLOH;若可用缺失单倍型解释,则为 CLOH。
##### 3.2 LOH 推断问题
给定一组 $n$ 个 SNP 和一组在这些 SNP 上进行基因分型的 $m$ 个三代组。对于每个 SNP/三代组对,SNP 有以下三种标签:
- $X$:标记与杂合性缺失不一致(即 NCLOH)。
- $0$:标记与杂合性缺失一致(即 CLOH)。
- $1$:SNP 显示杂合性缺失的证据(即 ELOH)。
对于任何三代组 $M_i$,至少包含一个 $1$ 和无界数量的 $0$ 位点的连续序列称为推定缺失。若两个推定缺失 $p_i$ 和 $p_j$ 至少共享一个公共索引,则称它们重叠。设 $h_i$ 和 $h_j$ 为两个 ELOH,且 $p_i$ 和 $p_j$ 分别包含 $h_i$ 和 $h_j$。每个推定缺失与一个由其起始和结束索引定义的区间相关联,分别为 $[s_i, e_i]$ 和 $[s_j, e_j]$。若 $h_i$ 和 $h_j$ 是同一个推定缺失的成员(即
0
0
复制全文
相关推荐









