基因混合畸变分析与宏基因组功能分析
立即解锁
发布时间: 2025-08-30 01:17:18 阅读量: 9 订阅数: 34 AIGC 

### 基因混合畸变分析与宏基因组功能分析
#### 一、混合畸变分析(AAA)方法
1. **SNP 检测数量优势**
- 在达到 70%检验效能时,使用 MALD 和 AAA 方法所需的 SNP 检测数量不同。当池大小 k = 200 且每个池的重复次数 l = 4 时,AAA 方法使 SNP 检测数量减少了 25 倍以上。具体数据如下表所示:
| 病例情况 | ERR | MALD 检测数量 | AAA 检测数量 |
| ---- | ---- | ---- | ---- |
| 情况 1 | 1.3 | 700 | 28 |
| 情况 2 | 1.4 | 470 | 20 |
2. **实际数据验证**
- 研究人员对 1646 名患有前列腺癌的非裔美国人样本进行了分析,使用 1985 个祖先信息 SNP 进行基因分型。通过混合映射,该样本证实了非裔美国男性前列腺癌风险位点。
- 模拟了一个包含 600 个病例的池,使用相同的 1276 个标记进行基因分型。通过 343 名欧洲人和 183 名非洲人的样本估计了祖先群体的等位基因频率,并基于相关研究使用 1.65 的 ERR 进行分析。使用最大似然法估计受影响混合个体的欧洲遗传贡献为 0.215。
- 应用 4 个标记窗口的 AAA 方法,在已知风险位点附近产生了显著信号。8 号染色体上的峰值(LOD 7.2)距离先前报道的易感位点不到 5Mb。全基因组应用 AAA 方法在 5 号和 9 号染色体上产生了另外两个不太显著的信号(LOD 3.7 - 3.8)。
- 为评估这三个显著信号的稳健性,应用 4 标记和 LOO 过滤。结果显示,只有 8 号染色体上的已知位点仍然显著(LOD 5.88),而 5 号和 9 号染色体上的峰值分别降至 0.2 和 1.46。研究人员认为这两个额外信号是由有偏标记引起的。
3. **等位基因频率估计误差的影响**
- 基于池的方法依赖于池样本中等位基因频率的估计,而基于池的关联分析对这些估计中的误差很敏感。研究人员模拟了等位基因频率,假设误差是独立的、正态分布且均值为零。测试了三个误差水平,调整误差方差以反映观察到的等位基因频率的 95%分位数分别为 1%、3%和 5%的误差。
- 模拟结果表明,对于 ERR 为 1.3 - 1.5 且受影响个体数量为 500 - 1000 的情况,所选的 LOD = 3.3 阈值在等位基因频率误差高达 5%时仍然有效。这表明前列腺癌样本的分析对 5%的等位基因频率估计误差具有稳健性。
- 等位基因频率估计误差对假阳性率的影响在 ERR 较高或样本较大的疾病中更为显著,需要根据预期的等位基因频率误差通过适当的模拟调整显著性阈值。
- 重复病例实验评估等位基因频率估计误差对 AAA 统计功效的影响。使用 1000 个病例分析 ERR 为 1.5 的疾病时,功效从 95%降至 82%。测试的误差水平对较大样本或 ERR 值较高的疾病分析影响较小,仍能保持超过 90%的功效。对于较小样本或 ERR 较低的疾病,在准确估计等位基因频率时功效在 50% - 60%之间,引入误差后功效降至 33% - 38%。不过,在大多数情况下,可以使用不太严格的 LOD 阈值而不牺牲低假阳性率。
4. **AAA 方法的优势**
- 与基于池的关联研究相比,AAA 方法在等位基因频率估计误差方面具有优势。一方面,分析只需要一小部分 SNP 标记,这使得可以使用更高精度的基因分型平台;另一方面,所选的标记面板偏向于混合群体中较高的次要等位基因频率,从而提高了预期的准确性。
- 基于池的关联研究中常用的重复测量和样本细分等增强方法也可以显著提高 AAA 方法的稳健性。
5. **其他误差来源及应对策略**
- 祖先群体等位基因频率的不准确估计可能导致假阳性信号增加。初始实验表明,祖先等位基因分布的误差会增加假阳性信号,因为这些误差模拟了真正风险等位基因的影响。
- 分析假设已知混合系数 P(Q)
0
0
复制全文
相关推荐









