信号通路重建研究:整合高内涵RNAi筛选与功能基因网络
立即解锁
发布时间: 2025-08-21 00:42:36 阅读量: 2 订阅数: 16 


智能计算理论与技术进展
### 信号通路重建研究:整合高内涵RNAi筛选与功能基因网络
#### 1. 引言
转录的调控和激活是基因表达最早且最关键的步骤之一。在信号转导级联中,信息从细胞表面受体传递到细胞内效应器,最终激活这一基本过程。过去几年,信号转导通路的计算研究备受关注,本文聚焦于丝裂原活化蛋白激酶(MAPK)通路。该通路在生长因子与细胞表面受体结合时被激活,在多个发育过程中发挥重要作用,会触发多种细胞间反应,包括蛋白质 - 蛋白质相互作用(PPI)、蛋白质 - DNA相互作用(PDI)或RNA - RNA相互作用(RRI)。
然而,大多数计算分析仅关注PPI和基因组数据建模,这两种数据源似乎并不完整,无法涵盖所有相互作用。高内涵筛选(HCS)作为一种新兴的研究细胞过程的工具,通过自动荧光显微镜进行,已在全基因组范围内用于研究果蝇BG - 2细胞系中的信号通路。基于细胞表型依赖于完整信号级联的假设,中断该通路会导致相似的细胞形态,这些形态信息可转化为定量图像描述符,用于对细胞表型进行评分,进而将基因按表型和通路分组并整合到功能基因网络(FGN)中,但此类分析仍处于起步阶段,面临诸多挑战。
本文提出利用HCS推导果蝇的高质量FGN,通过整合多种异质基因组数据,使用线性支持向量机(SVM)分配基因对之间的连锁权重,构建高覆盖率的网络。然后使用改进的整数线性规划(IILP)算法提取MAPK信号通路,并对结果进行验证和评估。
#### 2. 材料与方法
##### 2.1 高内涵筛选数据
高内涵筛选数据的获取流程包括以下几个步骤:
- **细胞培养与图像采集**:使用双链RNA(dsRNA)靶向并抑制特定基因及其后续蛋白质产物的活性。将Kc167细胞置于含有dsRNA的环境中,靶向所有已知的果蝇蛋白激酶和磷酸酶,在384孔板中培养。经过五天的孵育期后,固定细胞并使用试剂染色,以可视化核DNA(蓝色)、聚合的F - 肌动蛋白(绿色)和α - 微管蛋白(红色)。使用Evotec旋转盘共聚焦显微镜自动采集每个孔的三个通道(蓝色、绿色和红色)的十六张图像。
- **细胞图像分割**:为了分析所有细胞的形态,需要先划定每个细胞的边界。采用两步分割程序,首先从DNA通道中提取细胞核,然后从F - 肌动蛋白和α - 微管蛋白通道中提取细胞体。使用基于梯度向量场(GVF)的方法检测细胞核中心,然后使用标记控制的分水岭算法完全分割细胞核,从而获得细胞核和细胞体的详细形状和边界信息。
- **分割细胞图像的特征提取**:细胞表型的识别是一个分类任务,依赖于合适且丰富的描述性图像特征。本研究捕获了几何和外观属性,使用了属于五个不同图像类别的211个形态特征,包括85个小波特征、10个几何区域特征、48个Zernike矩、14个Haralick纹理特征和54个形状描述符特征。由于数据集和表型模型需要自适应更新,采用无监督特征选择方法,基于k - 最近邻方法进行迭代特征消除,最终选择了12个图像特征来量化分割后的细胞。
- **细胞表型的统计特性**:为了生成能够充分描述细胞表型的统计参数,从荧光标记的细胞中提取了各种类型的参数。在每个表型组中,使用细胞数量、面积和周长的平均值,以及单次处理对应的平均细胞数量、面积和周长。共选择了18个图像描述符来表示HCS图像中细胞的统计特性。通过计算基因对之间图像描述符的皮尔逊相关系数(PCC)对HCS数据进行评分,仅保留PCC值大于零的结果,因为正值表示两个基因的图像描述符具有相似的表型。
以下是高内涵筛选数据获取流程的mermaid流程图:
```mermaid
graph LR
A[细胞培养与图像采集] --> B[细胞图像分割]
B --> C[分割细胞图像的特征提取]
C --> D[细胞表型的统计特性]
```
##### 2.2 基因组和蛋白质组数据集
为了构建高覆盖率和高质量的FGN,本文整合了HCS与多种基因组和蛋白质组数据集,包括PPI、基因表达微阵列、基因共现、基因组邻域、基因融合、文本挖掘和基因同源性数据。
- **PPI和基因表达谱**:PPI数据可建模为连通图,节点表示蛋白质,边表示物理相互作用。为了利用基因表达谱,计算PCC作为基因对功能相似性的度量。本研究计算了微阵列集中基因对的PCC,前提是它们的蛋白质产物存在已知的PPI连接。该数据集包含6772个蛋白质和19372个相互作用。基因表达谱虽不描述直接物理相互作用,但可推断相似功能,本研究整合了来自GEO数据库的四个微阵列实验的数据,涉及73个条件和13046个基因。
- **其他基因组数据**:两个基因之间的基因组关联意味着它们具有相似的功能。例如,执行相同功能的一组基因通常在相似物种中出现,在基因组上位置相近或参与基因融合事件。因此,使用基因共现(即系统发育谱)、基因组邻域、基因融合、文本挖掘和基因同源性数据来扩展FGN。这些数据集均来自STRING数据库,每个预测都给出了一个范围在[0, 1]的个体得分,反映了相互作用为真的置信度。
| 数据集类型 | 数据来源 | 数据特点 |
| ---- | ---- | ---- |
| PPI | 建模为连通图 | 节点为蛋白质,边为物理相互作用 |
| 基因表达微阵列 | GEO数据库 | 计算PCC推断基因功能相似性 |
| 基因共现 | STRING数据库 | 反映基因在相似物种中的出现情况 |
| 基因组邻域 | STRING数据库 | 体现基因在基因组上的位置关系 |
| 基因融合 | STRING数据库 | 涉及基因融合事件 |
| 文本挖掘 | STRING数据库 | 从文本中挖掘基因关联信息 |
| 基因同源性 | STRING数据库 | 基于基因同源性判断功能相似性 |
##### 2.3 功能基因网络构建
FGN的强大程度取决于可整合的数据集数量和质量。以往大多数方法仅关注PPI和基因表达谱的整合,而本文提出使用来自HCS的高质量表型数据、来自BIND的PPI物理相互作用数据、来自GEO的微阵列推断信息以及来自STRING数据库的一系列基因组数据。
使用线性SVM整合这八个个体数据源的得分,综合得分反映了每个基因对相互作用的置信水平。具体来说,使用无界线性SVM分类器,其输入包括近2862个基因相互作用对。其中,580个基因对存在于至少一个KEGG通路中,被选为真阳性金标准(GSP);定义真阴性金标准(GSN)为在KEGG中注释但不在同一通路中的基因对集合,为了与GSP平衡,仅选择580个基因对作为GSN。对于GSP和GSN基因对,最终输出分别设置为1和0,反映基因对之间功能相似的概率。使用GSP和GSN基因集训练线性SVM,实验结果显示10倍交叉验证准确率约为87%。训练后的SVM用于为非GSP和非GSN基因对分配实值得分,并将这些得分归一化到[0, 1]范围。通过这种方法构建了更准确、覆盖率更高的FGN,用于后续信号通路的提取。
以下是功能基因网络构建的步骤列表:
1. 确定八个个体数据源,包括HCS、PPI、微阵列等数据。
2. 选择580个存在于至少一个KEGG通路中的基因对作为GSP,580个在KEGG中注释但不在同一通路中的基因对作为GSN。
3. 将GSP和GSN基因对的最终输出分别设置为1和0。
4. 使用GSP和GSN基因集训练线性SVM。
5. 用训练后的SVM为非GSP和非GSN基因对分配实值得分,并归一化到[0, 1]范围。
6. 构建FGN用于信号通路提取。
#### 3. 实验与结果
##### 3.1 提取果蝇MAPK信号通路
以KEGG数据库中果蝇的MAPK信号通路为金标准验证本文方法。实验中研究了MAPKKK信号通路,该通路从膜蛋白Torso开始信号启动,以激活两个转录因子Tll和Hkb结束。
为了解决通路检测问题,将[3]中提出的整数线性规划算法(ILP)扩展为带有加权参数α的IILP算法。该算法被表述为一个优化任务,旨在找到从膜蛋白开始到转录因子结束的路径。给定起始膜蛋白、结束转录因子和FGN,IILP模型描述如下:
\[
\begin{align*}
&\underset{x,y}{\text{arg min}}\left(\sum_{i = 1}^{N}\sum_{j = 1}^{N}W_{ij}y_{ij}-\alpha\sum_{i = 1}^{N}\sum_{j = 1}^{N}y_{ij}+\lambda\sum_{i = 1}^{N}x_{i}\right)\\
&\text{subject to:}\\
&y_{ij}\leq x_{i}, \quad y_{ij}\leq x_{j}\\
&\sum_{j = 1}^{N}y_{ij}\geq 1, \quad \text{if } x_{i} \text{ is either a starting or ending node in SP}\\
&\sum_{i = 1}^{N}y_{ij}\geq 2, \quad \text{if } x_{i} \text{ is an ordinary node in SP}\\
&x_{i} = 1, \quad \text{if } x_{i} \text{ is a known node in SP}\\
&x_{i}\in\{0,1\}, \quad i = 1,2,\cdots,N\\
&y_{ij}\in\{0,1\}, \quad i,j = 1,2,\cdots,N
\end{align*}
\]
其中,$x_{i}$表示蛋白质$i$是否为信号通路(SP)的组成部分,$y_{ij}$表示边$(i, j)$是否为SP的一部分,$W_{ij}$是边$(i, j)$的权重,$\lambda$是用于控制边权重得分和SP大小之间平衡的正常数参数,$N$是节点总数。
需要选择两个重要的标量参数$\lambda$和$\alpha$。参数$\alpha$用于降低小权重对确定最终SP的影响,参数$\lambda$用于控制提取的SP的长度。在计算中,使用以下公式确定这些参数:
\[
\alpha=\frac{\sum_{i,j = 1}^{N}W_{ij}}{N}
\]
结果设置$\lambda$为0.83,$\alpha$为0.90,对应于$D$的最大值。通过这种方法获得的SP与KEGG中的通路相比,涵盖了其所有组件,并且还显示了KEGG通路中不存在的组件,可用于指导未来的实验性通路分析。
使用P值统计和GO术语富集两种测量方法评估分配给预测SP的蛋白质的功能相似性。P值基于在随机加权网络中找到预测SP的概率,与随机网络比较后获得的P值小于0.004,表明具有高度显著性。GO富集(PGO)也用于评估通路的功能富集情况。
以下是提取果蝇MAPK信号通路的步骤列表:
1. 以KEGG数据库中的果蝇MAPK信号通路为金标准。
2. 确定MAPKKK信号通路的起始膜蛋白Torso和结束转录因子Tll、Hkb。
3. 扩展ILP算法为IILP算法,设置目标函数和约束条件。
4. 选择参数$\lambda$和$\alpha$,计算$\alpha$的值。
5. 运行IILP算法提取SP。
6. 比较提取的SP与KEGG通路,评估其覆盖情况。
7. 使用P值统计和GO术语富集评估预测SP的蛋白质功能相似性。
**待续**
### 信号通路重建研究:整合高内涵RNAi筛选与功能基因网络
#### 3.2 结果分析与讨论
通过上述实验,成功提取了果蝇的MAPK信号通路,并对其进行了评估。与KEGG数据库中的标准通路相比,提取的通路不仅覆盖了所有已知组件,还发现了一些额外的组件,这为进一步研究MAPK信号通路提供了新的线索。
从P值统计结果来看,P值小于0.004,表明提取的通路在随机网络中出现的概率极低,具有高度的显著性。这说明本文提出的方法能够有效地从FGN中提取出有生物学意义的信号通路。
GO术语富集分析则从功能层面验证了提取的通路的合理性。通过对通路中蛋白质的功能富集分析,可以发现这些蛋白质在特定的生物学过程中具有显著的富集,进一步证明了提取的通路与生物学功能的相关性。
为了更直观地展示提取的通路与KEGG通路的关系,我们可以使用以下mermaid流程图:
```mermaid
graph LR
A[KEGG MAPK通路] --> B[提取的MAPK通路]
B --> C{额外组件}
C -->|有| D[用于未来实验分析]
C -->|无| E[与KEGG通路一致]
```
此外,我们还比较了本文方法构建的FGN与不使用图像数据构建的FGN。结果表明,使用HCS图像数据构建的FGN能够提供更丰富的信息,从而提高了通路提取的准确性和覆盖率。这说明图像数据在基因功能推断和FGN构建中具有重要的作用。
#### 4. 结论
本文提出了一种基于高内涵筛选(HCS)和异质基因组数据的信号通路重建方法。通过整合HCS实验数据、PPI数据、基因表达微阵列数据等多种数据源,使用线性支持向量机(SVM)构建了一个更准确、更高覆盖率的功能基因网络(FGN)。然后,使用改进的整数线性规划(IILP)算法从FGN中提取果蝇的MAPK信号通路,并对结果进行了验证和评估。
实验结果表明,本文方法能够有效地提取出与KEGG数据库中标准通路一致的MAPK信号通路,并且还发现了一些额外的组件,为进一步研究该通路提供了新的方向。同时,通过P值统计和GO术语富集分析,验证了提取的通路具有高度的显著性和生物学功能相关性。
综上所述,本文提出的方法为信号通路的重建和研究提供了一种有效的手段,能够帮助我们更好地理解基因之间的相互作用和生物学过程。未来的研究可以进一步扩展该方法,应用于其他物种和信号通路的研究,以及结合更多的数据源和算法,提高通路重建的准确性和可靠性。
以下是本文方法的主要步骤总结表格:
| 步骤 | 具体内容 |
| ---- | ---- |
| 高内涵筛选数据获取 | 细胞培养与图像采集、细胞图像分割、特征提取、统计特性分析 |
| 基因组和蛋白质组数据集整合 | PPI、基因表达微阵列、基因共现等数据整合 |
| 功能基因网络构建 | 使用线性SVM整合多数据源得分,训练模型构建FGN |
| 信号通路提取 | 扩展ILP算法为IILP算法,提取果蝇MAPK信号通路 |
| 结果评估 | P值统计、GO术语富集分析评估通路功能相似性 |
通过以上步骤,我们完成了从数据获取到信号通路提取和评估的整个过程,为信号通路的研究提供了全面的解决方案。
0
0
复制全文
相关推荐








