序列比对正文.docx
《序列比对正文.docx》由会员分享,可在线阅读,更多相关《序列比对正文.docx(5页珍藏版)》请在三一文库上搜索。
1、一 前言DNA蛋白质序列比对是生物信息学中的基本手段,深入了解比对算法的核心内容是学 习掌握生物信息学的必需内容。本专题通过 Perl程序分别实现动态规划算法与模糊匹配 的方式(即字符串相似度算法),处理比较多条序列,从而比较两种算法的区别和优劣。 进而通过实际操作(程序运行)了解动态规划算法与其它算法之间的区别,掌握动态规划 算法的特点和优势。二本论动态规划算法动态规划解决序列比对问题的基本思想:使用迭代法计算出两个序列的相似分值,并 存入一个得分矩阵中,根据得分矩阵 回溯寻找最优的比对序列.序列比对是动态规划的一个重要应用。序列比对问题通常是使用编辑操作(替换、插 入、删除一个要素等)进行
2、序列转换。每次操作对应不同成本,目标是找到编辑序列的最 低成本。可以很自然地想到使用递归解决这个问题,序列 A到B的最优编辑通过以下措施 之一实现:插入B的第一个字符,对A和B的剩余序列进行最优比对;删去 A的第一个字 符,对A和B进行最优比对;用B的第一个字符替换A的第一个字符,对A的剩余序列和 B进行最优比对。局部比对可在矩阵中列表表示,单元 (i,j)表示A1.i到b1.j最优 比对的成本1。单元(i,j)的成本计算可通过累加相邻单元的操作成本并选择最优解实现。两条序列分别作为横坐标和纵坐标放置,组成一个路径矩阵,即得分矩阵,矩阵元素(i,j)值为比对的得分值。在得分矩阵中到达位置为 (
3、i,j)的某一个元素有三种可能的路 径:通过位置i- 1,j- 1的对角方向,没有空位罚分:通过列j的垂直方向,通过行i的 水平方向,空位罚分的值 取决于插入空格的个数。序列比对序列同源(homology)指的是序列来自相同的祖先,意味着这些序列具有相同的进化历史,而序列的相似性 (similarity) 指的是两序列在某参数条件下的相像,它可以用相同残基的百分比或是其 他的方法来表示。列之间的相似度是可以量化的参数,列是否同源需要有进化事实的验 证,显著的相似性通常意味着同源是运用某种特定的数学模型或算法 ,找出两个或多个 序列之间的最大匹配碱基或残基数,比对算法的结果在很大程度上反映了序列
4、之间的相 似性程度以及它们的生物学特征。动态规划序列比对算法动态规划算法比较序列相似度程序如下:open(INFILE,、生信比对算法应用专题比对序列.txt) or die "Can't生信比对算法应用专题比对序列.txt $!"open(OUTFILE, '>C:UsersAdministratorDesktop') or die "Can't open : $!" while(<INFILE>) if ( $_ = / SEQUENCE1:/ ) $_=s/ SEQUENCE1:和.0"字
5、符用单元存放的数组是从1开始计数的单元中,开 始扫描!和"字符串"如果遇到字符串单元相同的时候权值相乘最后得到一个 /92"!./#.0"/92 即为匹 配度”根据/92的值进行冒泡排序"权值由大到小排列4。模糊匹配序列比对算法程序下面是采用模糊匹配方法对2个文本中的序列进行的相似度处理程序: #!/usr/bin/perl use strict;use Tie:File;my $count=0;tie my array ,'Tie:File'," 数据 1",memory=>0 ;何等数据绑定成数组的
6、形式,给内存 为250MB控制程序的内存利用,维持稳定和性能open OUT1,"数据 2" or die "$!" ; /open IN,">./字符串相似的数据4txt" #将相似的数据导入到这个表中my ip=array;/my data=<OUT1> /for(my $i=0;$i<=$#ip;$i+)for (data) my $s2=$_; chomp($s2); chomp($ip$i);if (leng($ip$i,$s2)if (levenshtein($ip$i,$s2)/leng11($i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 正文
链接地址:https://www.31doc.com/p-13362514.html