基于特征选择和片段组装的线粒体基质蛋白质结构预测
立即解锁
发布时间: 2025-08-23 02:07:50 阅读量: 1 订阅数: 3 

### 基于特征选择和片段组装的线粒体基质蛋白质结构预测
#### 1. 引言
了解蛋白质的天然三维结构是一项极具挑战性的任务,因为这些结构决定了蛋白质的功能,并且对于设计新药至关重要。目前,确定蛋白质结构的实验方法,如X射线晶体学和核磁共振,不仅成本高昂,而且在某些蛋白质结构的测定上存在局限性。由于需要确定大量蛋白质序列的三维结构,蛋白质结构预测的计算方法成为了非常有用的工具。
蛋白质结构预测(PSP)旨在仅根据蛋白质的氨基酸序列确定其三维模型,这在结构生物信息学中具有重要意义。目前,PSP问题主要有两种方法:
- **从头计算方法**:基于序列属性寻找对应于函数(通常是能量函数)全局最小值的结构。这种方法不使用任何蛋白质作为模板,计算成本高,并且随着序列长度的增加,可靠性会降低。
- **同源建模方法**:也称为比较建模,试图基于蛋白质模板来解决结构问题。这种方法基于蛋白质家族中蛋白质的结构保守性,因为三维结构在进化中比序列更保守,被认为是目前解决PSP问题最可靠的方法。
当有与目标蛋白质序列相似的已解决结构的蛋白质时,基于模板的建模方法可以取得良好的效果。然而,当不存在具有已解决结构的同源蛋白质时,则使用自由建模方法。其中,片段组装方法通过其他蛋白质的结构片段来重建蛋白质的结构,相关的方法有Fragment - HMM、FragFold和ROSETTA等。
由于结构预测中使用的所有信息都必须从氨基酸序列中推断出来,因此文献中使用了许多从序列中衍生出来的有用信息。其中,氨基酸的物理化学性质被广泛应用,最常用的性质包括疏水性、极性和电荷。AAindex数据库包含544种氨基酸性质,本文通过特征选择过程从中选择了16种性质。
特征选择(FS)技术在模型构建中变得越来越重要。在PSP问题中,应用特征选择可以提高预测的准确性。FS技术可分为个体特征排名(FR)和特征子集选择(FSS)。FR衡量特征与类的相关性,然后根据得分对特征进行排名并选择排名靠前的特征,但它只能捕捉特征与目标概念的相关性,无法揭示特征之间的冗余和基本相互作用,且难以确定保留的特征数量。FSS则试图找到一组表现良好的特征,它综合了衡量特征与类相关性和特征与特征相互作用的指标。本文使用了混合算法BARS来处理大型数据集,该算法将相关性分析和冗余分析分离,在许多传统高维数据集中被证明比排名方法更有效,比子集评估方法更高效。
许多PSP算法使用接触图来表示预测的结构,而本文的方法使用距离图,它包含了分子中所有氨基酸之间的距离信息,比接触图包含更多信息。但预测距离图比预测接触图更困难,因为这涉及到回归而不是分类。一些作者将预测的距离离散化,提供了接触和连续距离之间的中间表示。
本文的方法是一种基于片段组装的自由建模方法,通过从AAindex数据库中选择的16种氨基酸物理化学性质的相似性,搜索最近邻来选择氨基酸对之间的最佳距离。我们对来自蛋白质数据库(PDB)的线粒体基质蛋白质进行了预测实验,并与其他相关方法进行了比较。
#### 2. 方法
##### 2.1 蛋白质结构的表示
本文使用距离图来表示蛋白质结构,它是一个阶为L的方阵,其中L是蛋白质序列中氨基酸的数量。距离矩阵分为两部分:观察部分(上三角)和预测部分(下三角)。矩阵元素(i, j)(i < j)表示序列中第i个和第j个氨基酸之间的实际距离(以埃为单位)。为了测量氨基酸之间的距离,需要使用每个氨基酸的参考原子,本文使用β - 碳(甘氨酸使用α - 碳)。算法预测的距离存储在距离图的下三角中,元素(i, j)(i > j)表示蛋白质序列中第i个和第j个氨基酸之间的预测距离。
##### 2.2 蛋白质片段知识库的构建
预测系统ASPpred分两个阶段工作:
- **第一阶段**:从训练集中所有蛋白质的所有子序列构建蛋白质片段库。知识库由一组称为预测向量的向量组成,每个向量从一个训练蛋白质子序列中获得,包含该片段两端氨基酸的物理化学性质以及它们之间的实际距离。
- 定义氨基酸序列长度为L的序列为$s_1...s_L$,片段或子序列表示为$s_1...s_b...s_e...s_L$,其中$s_b...s_e$是片段,$s_b$是片段的起始氨基酸,$s_e$是结束氨基酸,且$1 ≤ b < e ≤ L$。
- 物理化学性质定义为$P_1...P_m$,氨基酸$s_j$的性质$P_i$的值定义为$P_i(s_j)$。片段的预测向量定义为$\{B_1, E_1, ..., B_m, E_m, D\}$,其中D是氨基酸$s_b$和$s_e$之间的距离,$B_i$和$E_i$的计算公式如下:
\[B_i = P_i(s_b) + \sum_{j = 1, j \neq b}^{L} \frac{P_i(s_j)}{L|b - j|}, \forall i \in \{1..
0
0
复制全文
相关推荐









