一、介绍
从DrugBank爬取小分子药物数据,并存入数据库中,由于每一个收录的分子,DrugBank都做了很详尽的描述,信息量非常大,因此将爬取到的信息分两张表保存:一张表(A表)保存基本药物基本信息和化学性质,另一张表(B表)保存与大分子(包括靶标蛋白、酶、转运蛋白)的相互作用。
A表字段
字段名 | 类型 | 解释说明 |
---|---|---|
Compound_Id | int | 化合物Id,化合物的唯一标识 |
Drug_name | varchar(200) | 药物名称 |
accession_number | varchar(80) | 在DrugBank中的变化,以DB为开头 |
groups | Varchar(60) | 1:approved, 2:nutraceutical, 3:llliclit |
4:Investigational, 5:withdrawn, 6:experimental | ||
cas | Varchar(30) | CAS号 |
weight | float | 分子量 |
smiles | Varchar(600) | 分子的smiles格式的字符串 |
Action_mechanism | text | 作用机制描述 |
Absorption | text | 吸收过程描述 |
Protein_binding | text | 蛋白结合率描述 |
metabolism | text | 代谢过程描述 |
Toxicity | text | 毒性描述 |
ex_soluble | Varchar(150) | 实验测的溶解度,由于表述方式不同,只能记录其表述,后期需要训练时,再转化为“易容、可溶、微溶”等分类。该数据常常会空缺。 |
ex_logP | float | 实验测得的logP值,常常空缺。 |
Pred_solubility | float | 由ALOGPS预测的水溶解度,单位为mg/ml偶尔空缺 |
Pred_logP | float | 由ALOGPS预测的logP, 偶尔空缺 |
Pred_logS | float | 由ALOGPS预测的logS, 偶尔空缺 |
Pre_Intestinal_absorption | int | 是否能通过肠胃吸收(预测值),-1:不吸收,1:吸收 |
Pre_bbb | int | 是否能通过血脑屏障(预测值),-1:通不过,1:通过 |
Pre_CYP_2C9 | Varchar(40) | 是否抑制Pre_CYP_2C9 |
Pre_CYP_2D6 | Varchar(40) | 是否抑制Pre_CYP_2D6 |
Pre_CYP_2C19 | Varchar(40) | 是否抑制Pre_CYP_2C19 |
Pre_CYP_3A4 | Varchar(40) | 是否抑制Pre_CYP_3A4 |
Class | Varchar(100) | 分子的分类 |
Sub_class | Varchar(100) | 分子的亚类,可用于相似结构的搜索 |
说明:MOL、SDF、3D-SDF、PDB、SMILES、InChI以文件形式下载后保存
B表字段
字段名 | 类型 | 解释说明 |
---|---|---|
Item_id | int | 记录的id |
Compound_Id | int | Id,化合物的唯一标识,与A表的Compound_Id对应 |
Interatction_target | varchar(400) | 作用于大分子的名称 |
Target_kind | int | 大分子类别,1:蛋白质, 2:核酸, 3:多糖 |
Organism | Varchar(50) | 大分子来源的物种 |
Action_type | Varchar(50) | 与大分子的作用方式,是激动还是抑制 |
Action_relaiton | Varchar(30) | 作用的关系,是靶标还是代谢酶或是转运蛋白 |
Gene_name | Varchar(100) | 基因名称 |
Uniprot_id | Varchar(150) | 大分子在www.uniprot.org数据库中的ID,通过这个id,可以在www.uniprot.org中查询到该大分子的详尽信息 |