生物信息学预测miRNA的靶基因
动植物中的miRNA 可以用直接克隆的方法加以鉴定。一些实验室已经建立了不同组织、不同发育时期或不同生长条件下的miRNA 基因文库。但该方法对低丰度miRNAs 的鉴定却相当困难,且不可避免大量的重复测序。由于大部分成熟的miRNAs 序列是高度保守的,所以可以通过表达序列标签(EST)和基因组序列(GSS)的生物信息学比对,来搜索或预测在其他生物中的未知miRNAs,再根据miRNAs 与靶基因mRNAs 完全或部分互补的特性预测其靶基因。实验证明,生物信息学方法是预测和发现新的miRNA 的一个有效方法,它是以基因组序列和计算机程序鉴定为基础的方法。目前,通过各种计算机软件以及其他计算工具已经成功地预测和鉴定了动植物中的大多数miRNA。
近年来,许多实验室开发出了应用于预测miRNA及其靶基因的计算机软件(表1,表2),这些软件各有优缺点,主要依据miRNA靶位点的保守性、miRNA与其靶位点的互补性、miRNA-mRNA双链之间的热稳定性及附近序列的二级结构等信息编写其程序。其中TargetScan提出了“种子区”的概念,增加了预测的精确度;miRanda 是将miRNAmRNA之间的序列匹配,保守性及热稳定性作为计算参数,有比较好的检出率,但是假阳性率也较高;DIANAmicroT则主要考虑miRNA调控单个靶基因的情况,同时考虑中央突起以及miRNA 在3′端与mRNA的结合RNAhybrid 的研究重点在RNA二级结构预测方面,能够更快速准确地计算miRNA-mRNA双链的自由能,降低了假阳性率;部分学者的研究结果显示,PicTar和TargetScan这两种软件的预测方法、预测的靶位点在整体上是相似的,而与其他多数软件的预测结果则相去甚远。但RNA22 与其他算法不同,不考虑物种间的保守性,检出率较高。
通过比较分析这些miRNA和靶基因预测软件,大致可将其分为第一代和第二代两大类预测软件。第一代miRNA及其靶基因预测软件主要侧重以下3 点:①靶基因非翻译区的跨物种保守性;②靶基因与种子序列的互补性;③miRNA靶基因二聚体热力学稳定性。而第二代预测软件是在第一代预测软件的基础上大多从“突破物种间保守”来设计的,如microTar、miTarget等引入了机器学习方法来提取特征参数,尝试从统计学的角度更好地反应miRNA 与靶基因相互作用的真实过程,以弥补保守性这个限制而丢失了的靶基因,取得了一定程度的成功。
目前,很难评价哪种方法是最好的。尽管各种方法的基本原理都是相关的,但由于动物miRNA的靶位点很小,而且miRNA与靶位点是不完全互补,因此计算方法中极小的差别就能产生相差很远的预测结果。并且对于计算位点保守性的得分标准,3′UTR的邻位序列的定义和分析以及对3′UTR的长度和其核苷酸组成考虑等,不同方法间都有显著的差异,这也会造成结果的差异。
编辑: gaowei2010