免费论文查重: 大雅 万方 维普 turnitin paperpass

探究计算机技术在转录因子结合位点识别及应用

最后更新时间:2024-02-27 作者:用户投稿原创标记本站原创 点赞:9634 浏览:34824
论文导读:转变成有生命作用的蛋白质分子的过程。其中转录调控是基因表达的关键步骤,调控基因转录是由转录因子通过特异性结合调控区域的DNA序列来完成的,转录因子结合位点是与转录因子结合的长度通常在5~20bp范围内的短小DN断,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,但又不完全相同
摘 要 在生物信息学中,录因子结合位点与转录因子相互作用调控基因的转录过程。对转录因子结合位点的识别,是生物信息学的核心理由之一,简称为模体识别。如何高效完成模体识别对理解调控转录机制,建立调控转录模式有着重要的作用。本文重点描述了对转录因子结合位点识别研究的历程、近年来业界普遍采用的三类模体识别的研究策略、以及对其中各类具有典型特种的多种主流模体识别算法做出分析,初步形成整体脉络,并对下一代转录因子结合位点识别理由提出了观点。
【关键词】转录因子结合位点 计算机技术
近年来随着基因组计划的执行,海量的基因序列原始数据被发现。为了阐述数据的生物作用,数学、计算机学等学科被广泛结合运用,在研究过程中决定基因在生命工程中作用的基因表达就成了生物信息学主要的研究课题之一。基因表达是指基因在生物体内的转录、剪接、翻译以及转变成有生命作用的蛋白质分子的过程。
其中转录调控是基因表达的关键步骤,调控基因转录是由转录因子通过特异性结合调控区域的DNA序列来完成的,转录因子结合位点是与转录因子结合的长度通常在5~20 bp范围内的短小DN断,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,但又不完全相同。对经过生物实验验证的已知位点进行分析可知,转录因子结合位点往往是在相关基因序列中具有保守性,可以表现出特定的模式,所以也被称作模体。与其它常见的序列模体信号相比,转录因子结合位点模体除了长度较短以外,其碱基组成也更加灵活,容许较多的变体。识别转录因子结合位点模体理由在业内通常简化成为模体识别。
解决模体识别理由,需要运用生物学、数学和计算机学等学科的综合研究成果,在数学和计算机学的作用下,模体识别可以形象的认为是在庞杂的复杂的背景信号中找到具有相对保守性的微小特征信号的模型。
而这类微小特征信号因为模体的片段较短,而较短的序列在规模较大基因组中重复出现的次数很多, 另外模体又现实存在一定的模体变体, 这使得背景中的噪音信号对所关注的信号有着很大的干扰,减少这种干扰就是模体识别理由的难点
1 模体的表示策略
在生物信息学领域,通常用三种模型来表现模体。分别是:一致序列(Consensus)模型、权值矩阵模型(Weight Matrix Model, WMM)、可视化模型。

1.1 一致序列(Consensus)模型

一致序列模型是指取各个模体实例中同一位置出现次数最多的碱基作为一致序列该位置的碱基,这样组成的序列就被称作一致序列。这样一致序列模型是对模体的一种大致性表示,一致序列模型的结果并不一定存在于被表示DNA序列中。以表1作为例子来说明:

1.2 权值矩阵模型

由一致序列模型表示的模体除了简单直观在精确性上与实际要求相差很远,随着算法的发展,人们发现用权值矩阵矩阵更能表现出模体的特性。
矩阵的行代表了不同的碱基,矩阵的列代表了碱基序列的位置。假设该矩阵为 W, 那么 W(i,j)表示第 i 个碱基在碱基位置 j 出现的概率。以上表为例可以得出矩阵W(4,5),如图1所示。
可以在权值矩阵模型下用似然函数来评价生物序列模体的保守程度。

1.3 可视化模型

logo模型是可视化模型的典型代表,它依据信息论用形象直观的图形方式来表示结合位点的特征。
在logo模型中,每个位上的值是所有在该位置上出现的碱基叠加生成,该位置上值的高度等于该位置上碱基出现的信息量之和,该位置上碱基的排列按照信息量的大小从上向下排列。例如我们把已在真实数据库公布的模体用logo模型表示,如图2。
logo模型可以用直观图形地表示出结合位点的保守度,以及碱基在具体位置上的分布和影响。
2 转录因子结合位点识别研究历程
根据转录因子结合位点在相关基因序列中的保守性,近年来人们开发了很多识别它们的算法。
较直观使用的研究主要是基于字串枚举的策略 ,其原理是:在给定的共表达基因上游区域中,模体序列的出现频率比其背景序列片段现的频率要高。因此,通过穷尽列举输入序列中所有可能的候选模体,计算出每个候选模体的实际现次数与其期望出现次数进行比较衡量,选择具有显著统计特性的候选模体。
其中1984年Helden等人提出的Oligo-analysis策略;1992年 Pesole等人提出的模式驱动列举(WordUp ) ;这两种策略虽然简单直观但有两个明显的不足:时间复杂度高、仅适用于模体较小的情况,同时不能允许模体出现变体。接着,Helden对Oligo-analysis进行了扩展,2000年提出了dyad-analysis算法。该策略对两端保守的模体识别率较高, 但当模体保守区域长度定义后,搜索到的模体不能有变化,两端保守区域也不能有变体的存在,因此只能应用于某些特定结构的模体识别。
2002年,Sinha,S等人提出了YMF法,即基于三阶马尔科夫链的简单穷举法。与之前算法不同,YMF可以用于预测的模体种类较多,但仍然有着枚举法的通用弱点--如果模体较长则时间复杂度变得很差,识别精度也降低很快。为了能够对结果更复杂,特征不明显的较长(十几至几十碱基)模体进行识别,2002年Eskin和Pevner提出了前缀树法(Mitra)使用前缀树描述搜索空间,通过分割搜索空间,删除弱表达子空间,修剪完成后获得的树中各路径即是显著性模体。这种策略可以有效地减少搜索空间,能够搜索较长的模体和组合型模体,缺点是模体长度需要预先设定,搜索空间较大。随后在MITRA基础上,Pesi等人提出了后缀树法(Weeder)策略。Weeder法对候选模体集并不是通过直接修剪搜索空间来获得最终结果,而是通过对各候选模体在序列中实际现判定条件的严格限制,减少符合设定条件的模体数来得到。和Mitra策略相比Weeder策略不需要对模体长度进行预先设定。 全文地址:www.7ctime.com/jsjkxlw/lw43348.html上一论文:关于应用项目教学法促进计算机课程学习