欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/130565920
免责声明:本文来源于个人知识与开源资料,仅用于学术交流,不包含任何商业技术,欢迎相互学习,不支持转载。
ESMFold 是一种基于预训练语言模型的蛋白质结构预测方法,主要思想是利用大规模预训练蛋白质语言模型来替代 MSA(多序列比对),并且语言模型的规模与结构预测效果具有明显的正相关。ESMFold 的流程分为两个部分:序列预训练和结构预测。
- 序列预训练部分:使用了一个 15 亿参数的 Transformer 模型,叫做 ESM-2,来学习蛋白质序列自身的表征。ESM-2 采用随机 Mask 掉残基来预测被mask残基类型的训练方式,类似于 BERT。ESM-2 还对位置编码做了修改,可以支持更长的氨基酸序列编码。
- 结构预测部分:将预训练好的语言模型 ESM-2 的蛋白质序列 Embedding 和 Atten