蛋白质生物信息学:从序列到功能的探索
1. 生物信息学的重要性与蛋白质研究的意义
生物信息学是一个广泛且难以准确定义的研究领域。在生命科学中,数据收集取得了巨大进步,但我们对这些复杂数据的理解和构建理论框架的能力往往滞后。计算工具对于弥合数据与科学理解之间的差距至关重要,这正是生物信息学发挥作用的地方。
选择蛋白质生物信息学作为研究主题有两个重要原因。一方面,蛋白质研究在分子科学和工业领域都是一个明确的子领域,蛋白质产品(如药品、工业酶等)起着主导作用。另一方面,与基因组生物学家处理大量注释较少的数据不同,蛋白质研究人员通常需要使用多种方法来处理少数特征明确的分子。
2. 蛋白质的功能与结构
蛋白质具有多种功能,包括酶催化、离子和分子运输、营养供应、肌肉收缩、构成肌腱和软骨、作为抗体以及调节细胞和生理活动等。蛋白质的功能特性取决于其三维结构,蛋白质的天然结构可以通过X射线晶体学、核磁共振(NMR)光谱学、电子显微镜等实验方法确定。在过去40年里,已经确定了超过53,000种蛋白质的结构(截至2009年5月12日),而氨基酸序列已确定的蛋白质超过八百万种(截至2009年5月5日)。多肽链中特定的氨基酸序列会折叠形成具有特定三维结构的紧凑结构域。
3. 蛋白质的构建模块 - 氨基酸
3.1 氨基酸的种类
蛋白质序列由20种不同的化合物——氨基酸组成,它们是蛋白质的构建模块。氨基酸含有一个中心碳原子(Cα),与一个氢原子、一个氨基(NH₂)和一个羧基(COOH)相连,字母R表示侧链,不同氨基酸的侧链不同。
氨基酸根据在水分子存在下的相互作用倾向大致分为疏水和亲水两类: