探索重叠RNA转录本的调控机制

立即解锁

发布时间: 2025-08-30 01:17:22 阅读量: 16 订阅数: 21

层级生成双聚类分析miRNA

### 探索重叠RNA转录本的调控机制 #### 1. 预备知识在基因组研究中，为了准确描述和分析相关数据，我们需要一些基本的符号表示。以下是关于数组和转录本的基本符号说明： |符号|含义| | ---- | ---- | |i, j, s, t|分别代表探针i、实验j、片段s、转录本t| |xi|探针i的基因组位置| |yij|实验j中探针i的强度| |5′[s,t], 3′[s,t]|片段s或转录本t的5′和3′末端| ||x - x′||基因组上的线性距离（bp）| |ts|片段s的类型标签| |θs|片段s的参数| |δit|探针i到转录本t的3′末端的距离|xi - 3′t|| |Ti|与探针i重叠的转录本集合| |γtj|实验j中转录本t的强度| |λt|转录本t的3′对数线性斜率| 断点集B = (b1, ..., bN) 是一个有序的基因组位置列表，它将基因组划分为一组不重叠的区间，称为片段。分割是一组将完整基因组划分的片段集合。对于给定的断点集B，我们用SB表示由这些断点定义的分割。如果s ∈ SB，那么s是一个基因组区间，其端点（5′s和3′s）是列表B中的连续元素。分割算法会为每个片段分配一个类型ts和一组参数θs，用于描述该片段内的探针值。转录本是一个基因组区间，由其起始和结束点5′t和3′t 来表征。它是从一个或多个细胞中的基因组转录而来的单一连贯信息。它可能经过编辑，也可能以未编辑的形式存在，与产生它的基因组匹配时会显示为一个区间。重叠的转录本会产生复杂的转录区域。转录区域是基因组的一部分，可能构成单个映射转录本的一部分或全部，也可能是多个相邻且重叠的转录本。在之前的研究中，通过分割来分析平铺微阵列数据最初用于比较基因组杂交分析。Picard等人描述了第一个基于动态规划的分割算法，用于在阵列比较基因组杂交（array - CGH）实验中发现拷贝数变异区域。他们后来扩展了算法，使用混合动态规划/期望最大化方法对片段进行自动标记。这些方法的计算效率源于一个基本假设，即它们识别的片段将基因组划分为不重叠的、空间连贯的区间，这一假设使得可以使用动态规划方法来发现最优分割。平铺微阵列也用于测量基因组区域的转录，分割算法同样被用于揭示这些数据集中持续转录的区域。Huber等人改编了Picard的分割算法，从平铺阵列中识别转录区域。David等人首次发表了酵母全基因组平铺微阵列转录研究。平铺微阵列的一个额外特点是能够通过使用链特异性探针和保留样本链特异性的实验方案来发现链特异性转录。除了微阵列，cDNA测序也是识别未知转录本的标准方法。Miura等人对表达的cDNA标签进行测序，生成了酵母基因组中5′和3′转录本端点的目录。测序可以直接测量单个转录本，但只有当读取长度相对于转录本长度足够长时，才能提供转录本重叠、起始和结束点的结构信息。近年来，新的高通量短读长测序技术的应用使得RNA - seq成为全基因组转录测量的常用方法。Nagalakshmi等人首次通过RNA - seq在酿酒酵母中提供了不考虑链特异性的转录视图，Wilhelm等人在相关酵母菌株中扩展了这一结果，实现了链特异性分析。与传统测序产生较长的读取不同，这些未配对末端短读长测序技术无法完整呈现转录本的全貌，并且和微阵列一样存在转录本混合的问题。有些测序方案产生的读取对转录本的链不敏感，因此下游的计算分析需要将链区分作为目标之一。为了揭示两种密切相关的酿酒酵母菌株S288C和Σ1278b在转录调控上的差异，我们设计了一组实验。使用的阵列以约50个碱基对的分辨率探测S288C基因组，每个阵列有两个通道Cy3和Cy5，用于同时测量两种菌株的表达。除了单倍体（mat - α）数据集，我们还在丰富培养基中生成了二倍体表达数据，并对每个实验进行了技术重复。将每个阵列的每个通道视为一个独立的逻辑实验，我们共有八个实验用于分割和分析。数据通过分位数归一化方法在实验间进行了归一化处理。 #### 2. 使用多重约束进行表达分割我们的算法分割阶段将基因组划分为一组完整的不重叠区域。每个片段被标记为ts = TRANSCRIBED（转录）或ts = BACKGROUND（背景），并分配一组局部参数来模拟该片段内的微阵列探针观测值。分割过程会考虑多个微阵列实验作为输入，并学习一个能共同解释所有输入实验的单一分割。片段可能会根据实验特定情况分配局部参数，但片段的位置和分割它们的断点在所有实验中是相同的。每个标签（TRANSCRIBED和BACKGROUND）对应一个模型类，具有不同的复杂度，选择更复杂的类需要付出惩罚。算法从两个类中选择：一个是平坦模型类，它为给定片段拟合均值和方差，代表BACKGROUND片段标签；另一个是线性模型类，它为片段中探针的对数强度拟合一条直线，用于模拟TRANSCRIBED标签。线性模型类捕捉了我们实验方案中逆转录酶步骤产生的3′衰减效应。这两个模型类可以用它们的对数似然函数表示： \[ L^{(1)}_j (x_1, x_2, \mu_j, \sigma) = \frac{1}{2} \log(\sigma) \sum_{i:x_1\leq x_i\leq x_2} \frac{(y_{ij} - \mu_j)^2}{2\sigma^2} \] \[ L^{(2)}_j (x_1, x_2, \mu_j, \lambda, \sigma) = \Pi + \frac{1}{2} \log(\sigma) \sum_{i:x_1\leq x_i\leq x_2} \frac{(y_{ij} - \log(\mu_j e^{\delta_i \lambda}))^2}{2\sigma^2} \] 其