衰老基因:DNA修复与非修复分类研究
立即解锁
发布时间: 2025-08-21 00:42:36 阅读量: 3 订阅数: 16 


智能计算理论与技术进展
# 衰老基因:DNA 修复与非修复分类研究
## 1. 研究背景
随着全球人口预期寿命的显著提升,老年人口数量在许多国家迅速增加。衰老不仅给家庭带来沉重负担,还与心血管疾病、2 型糖尿病、肺部疾病、癌症等多种疾病的发生密切相关。尽管过去对衰老机制进行了大量研究,但具体机制仍未完全明晰。目前流行的一种理论认为,衰老源于未修复 DNA 损伤的积累。尽管细胞内存在有效的 DNA 修复系统,但该系统可能无法修复所有的 DNA 损伤。在衰老过程中,未修复的 DNA 损伤积累会导致 DNA 修复基因表达上调,以应对损伤带来的不利影响。因此,与 DNA 损伤修复相关的基因在衰老过程中起着重要作用。然而,在已确定的众多衰老相关基因中,只有一小部分与 DNA 修复有关。目前,尚未有利用生物信息学技术对衰老相关基因中的 DNA 修复基因进行分类的报道。
## 2. 研究方法
### 2.1 基因列表收集
从 GenAge(Build 15)数据库中获取了 261 个人类衰老相关基因列表,其中 35 个基因被 Wood 等人注释为 DNA 修复基因。将这 261 个衰老相关基因分为两类:226 个非 DNA 修复基因(阴性样本)和 35 个 DNA 修复相关衰老基因(阳性样本)。
### 2.2 GO 属性获取
从基因本体论项目网站下载 GO 数据(版本 1.1.2393),提取所有衰老相关基因的生物过程(BP)注释。将每个 BP 术语视为衰老相关基因的一个特征,并根据衰老基因与该 BP 术语之间是否存在“is a”关系,将其标记为 1 或 0。此过程产生了 2189 个二进制属性。
### 2.3 PPI 属性生成
使用两个人类蛋白质相互作用(PPI)数据集:人类蛋白质参考数据库(HPRD)和生物通用相互作用数据集存储库(BIOGRID)。对这两个数据集进行筛选,筛选标准如下:
1. 人类蛋白质或基因;
2. 对于一个 PPI 对,至少有一个蛋白质是衰老相关基因的产物;
3. 基因相互作用是通过实验确定的。
将筛选后的所有 PPI 数据集合并,生成一个涉及衰老相关基因的 PPI 列表。共有 3811 个蛋白质与衰老相关基因相互作用,每个蛋白质被视为衰老相关基因的一个特征,若衰老基因(或其产物)与该蛋白质相互作用,则标记为 1,否则标记为 0。
### 2.4 数据挖掘算法
本研究使用了四种数据挖掘算法:J48、朴素贝叶斯(NB)、支持向量机(SVM)和随机森林(RF)。
- J48 是 C4.5 算法的开源 Java 实现,用于生成决策树。
- NB 是基于贝叶斯条件概率定理的分类算法,假设所有属性相互独立。
- SVM 使用核函数将描述符投影到高维特征空间进行非线性映射,在多维空间中找到能最大化不同类别之间间隔的最优超平面。
- RF 是一种集成方法,利用多个独立的决策树进行分类或回归。在本研究中,使用 R 语言实现的 RF 算法对所有属性进行排序,使用基尼指数衡量每个属性的相对重要性,每个 RF 模型包含 5000 棵树。
### 2.5 性能评估
采用标准的 5 折交叉验证评估不同分类器的性能,使用受试者工作特征曲线(ROC)、马修斯相关系数(MCC)和总准确率(ACC)来评估分类器的性能。ROC 曲线是真阳性率(灵敏度)与假阳性率(1 - 特异性)的关系图,ROC 曲线下面积(AUC)是灵敏度和特异性之间的权衡指标,AUC 为 1 表示完美预测模型,AUC 为 0.5 表示随机预测。
## 3. 研究结果
### 3.1 属性分析
所有衰老相关基因共有 6000 个属性,包括 2189 个 GO 术语和 3811 个 PPI 属性。这些属性的出现频率各不相同,大多数 GO 属性仅出现一次,大多数 PPI 属性的出现次数少于 10 次。出现次数为 3 次或更多的 GO 属性有 602 个,出现次数为 10 次或更多的 PPI 属性有 587 个。
### 3.2 不同分类算法的性能
测试了不同的出现次数阈值对属性进行筛选,并使用四种算法构建模型。对于 GO 属性,选择 1 到 20 之间的阈值;对于 PPI 属性,设置阈值在 1 到 200 之间,间隔为 10。结果表明,RF 算法是最稳健的算法。NB 和 RF 模型在阈值为 4 时表现最佳,整体最佳性能在阈值为 10 时实现。因此,将阈值为 4 的 GO 属性与阈值为 10 的 PPI 属性相结合。
0
0
复制全文
相关推荐










