热门关键字:  生物  基因  细胞  动物  蛋白
当前位置 :| 主页>实验>RNA实验>cDNA文库>

EST电子延伸克隆

From:绿谷生物网 Updated:2007-12-20

      EST电子延伸系统主要包括以下几个部分组成:预处理(pre-processing)、聚类(clustering)、拼接(assembly)和分析(analysis)。
一、预处理
Ø用crossmatch程序,去除载体序列(载体序列库:ftp://ncbi.nlm.nih.gov/repository/vector)。
        处理时应注意的问题:
        1、如果是用自已的EST数据库延伸,最好用phred-qa 'filename'的方法进行base calling质量鉴定,然后再用phrap进行组装时就可以充分利用phred的打分情况。一般来说,30分意味着正确率约为99.9%。
        2、BLAST的EV值得选好,根据比对的数据库大小,EV值适当地进行调整。如果是比对人源EST库,可在1e-30--1e-40之间。在phrap组装contig以后,需要判定有效组装的contig,这里有一个contig得分情况应该参考,不然,phrap可能组建出N多方案,如果只靠跟种子的同源性筛选contig,很容易把本来就错误的contig拿来做下一轮的种子。
Ø将ESTs序列将与人重复序列库(RepBas:http://www.girinst.org)比较,去除重复序列,提高拼接的效率。
Ø其它潜在的污染序列,有几种污染属于研究前沿,至今没有很好的解决。包括:来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子(不是以GT或GC开头和AG结尾的内含子)的EST,这些都会影响拼接的成功率和正确率。

二、聚类(clustering)
        在对大量ESTs数据进行分析时,情况比较复杂,从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。
        聚类分为不严格的和严格的聚类(loose and stringent clustering):
        不严格的聚类:不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中,表达基因ESTs数据的覆盖率高,含有同一基因不同的转录形式,如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site)而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本,信噪比低,序列的忠实性低。这种系统的代表,如STACK采用的基于字的聚类算法,即d-square聚类。
        严格的聚类:严格的聚类系统产生高度相关的聚类成员,因此忠实性更加可靠。但是,表达基因ESTs数据的覆盖率低,因此所含有的同一基因的不同转录形式少。这种系统的代表,如TIGR的Gene Indices所采用的类似于BLAST和FASTA的序列比对程序FLAST。

最新评论共有 0 位网友发表了评论
发表评论
评论内容:请自觉遵守互联网相关政策法规,评论不得超过250字。
用户名: 密码:
匿名?
注册