生信蛋白分析数据库与ID转换

本文介绍了生信蛋白分析中常用的数据库,如PDB用于分析蛋白结构,ChEMBL进行生物活性和目标蛋白信息查询,并详细阐述了如何使用ChEMBL API进行数据检索,以及BindingDB如何提供小分子亲和力信息。通过这些数据库和工具,数据分析工程师可以深入挖掘蛋白质的功能和潜在药物开发价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于数据分析(工程师)来说,数据库的海量信息可能蕴含着无数的新发现!

目录

前言

一、PDB

1.如有PDBID

二、chembl

1.基本信息

2.转化chemblID为uniprotID

3.使用chembl API 代码检索

 三、bindingd


前言

生物信息学是生命科学与计算机科学等学科的交叉学科;蛋白在生物体中扮演着极为重要的功能,分析蛋白结构、功能也有助于药物的开发。以下常用数据库提供了许多极为重要的参数。


一、PDB

对于分析二三级结构,PDB数据库(RCSB PDB: Homepage)极为有用,且有众多蛋白结构(

### 息学分析相关的数据库推荐 在息学领域,存在多种类型的数据库,涵盖从基因组、转录组到蛋白质结构等多个层面的息。以下是几类重要的数据库及其具体功能介绍: #### 一级核酸数据库 这些数据库存储原始的核酸序列数据,是息学研究的基础资源。 - **GenBank**:由美国国家物技术息中心(NCBI)维护,是一个综合性的核酸序列数据库[^2]。 - **ENA(European Nucleotide Archive)**:欧洲息研究所(EBI)提供的核酸序列档案库[^2]。 - **DDBJ(DNA Data Bank of Japan)**:日本的核酸序列数据库GenBank和ENA共同构成国际核酸序列数据库合作组织(INSDC)[^2]。 #### 基因组数据库 这些数据库专注于基因组组装和注释息。 - **Ensembl**:提供基因组浏览器、基因注释及比较基因组学工具[^3]。 - **UCSC Genome Browser**:加州大学圣克鲁兹分校开发的基因组浏览器,支持多种物种的基因组数据可视化[^1]。 #### 转录组数据库 用于存储和分析基因表达数据。 - **GEO(Gene Expression Omnibus)**:由NCBI维护,包含大量公开的基因表达和高通量实验数据集[^4]。 - **ArrayExpress**:欧洲息研究所(EBI)提供的基因表达数据存储和分析平台[^4]。 - **TCGA(The Cancer Genome Atlas)**:专注于癌症基因组数据的收集和分析,提供多组学数据资源[^4]。 #### 蛋白数据库 存储蛋白质序列、结构及相关功能息。 - **UniProt**:整合了Swiss-Prot、TrEMBL等资源,提供全面的蛋白质序列和功能注释息。 - **PDB(Protein Data Bank)**:全球唯一的物大分子三维结构数据库,包括蛋白质和核酸的实验测定结构[^5]。 #### 文献数据库 用于检索和获取物医学领域的相关文献。 - **PubMed**:由NCBI提供,是最常用的物医学文献搜索引擎之一。 - **HighWire Press**:提供大量免费访问的学术文献资源。 #### 在线分析平台 除了上述数据库外,还有一些集成化的在线分析工具可供使用。 - **Galaxy**:一个开放的、可扩展的科学工作流系统,支持多种息学数据分析任务。 ```python # 示例代码:通过BioPython访问GenBank数据库 from Bio import Entrez, SeqIO Entrez.email = "[email protected]" handle = Entrez.efetch(db="nucleotide", id="NM_001199876", rettype="gb", retmode="text") record = SeqIO.read(handle, "genbank") print(record.description) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值