DALIGNER, 查找读取之间的所有重要局部对齐方式

分享于 

30分钟阅读

GitHub

  繁體 雙語
Find all significant local alignments between reads
  • 源代码名称:DALIGNER
  • 源代码网址:http://www.github.com/thegenemyers/DALIGNER
  • DALIGNER源代码文档
  • DALIGNER源代码下载
  • Git URL:
    git://www.github.com/thegenemyers/DALIGNER.git
    Git Clone代码到本地:
    git clone http://www.github.com/thegenemyers/DALIGNER
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/thegenemyers/DALIGNER
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    Daligner: Dazzler"重叠"模块

    作者: 。

    :2016年04月10日

    对于排版文档,使用范例,以及设计哲学请到我的博客。

    下面的命令允许在Dazzler数据库中的读编码之间找到所有重要的局部。 假设是读取来自 PACBIO RS 2 长读序列器。 这是长而嘈杂的读数,平均高达 15%。

    Recall数据库具有当前分区,它将它的分成大小为blocks块,可以方便地在生成包含数据集数据集的读取的排序文件的排序文件的排序文件的排序文件中进行处理。 对齐记录是简单的,不记录一个对齐点,但是一组跟踪点,通常每 100bp 或者所需的对齐。

    
    1. daligner [-vbAI]
    
    
     [-k<int(14)>] [-w<int(6)>] [-h<int(35)>] [-t<int>] [-M<int>] [-P<dir(/tmp)>]
    
    
     [-e<double(.70)] [-l<int(1000)] [-s<int(100)>] [-H<int>] [-T<int(4)>]
    
    
     [-m<track>]+ <subject:db|dam> <target:db|dam>.. .
    
    
    
    

    在trimmed目标/或者更高版本base搜索中,与搜索局部对齐( 至少为-l基本对)的<目标> 块的列表中的序列比较。 找到的本地对齐将在一个稀疏编码中输出,该对齐点上的跟踪点记录每个读取( 默认 100 bp )的-s基对。 将读取的方向和本地对齐方式与下面几个已经创建的文件的一个已经创建文件的。 -v选项打开一个详细报告模式,该模式提供计算的每个主要步骤的统计信息。 程序默认运行 4个线程,但这可以能设置为-T选项的任何功率 2.

    选项 -k。-h和-w控制初始过滤搜索,以便在读取之间查找可能的MATCHES。 具体地说,搜索代码查找一对宽度为 2w的斜线,其中包含两个读取的精确匹配k-mers ( 默认 14 ),这样k hits hits的基数就会被( 默认 26 = 64 ) ( 默认 35 )。 当前实现中,k 不能大于 32. 如果设置了-b选项,则daligner假定数据具有强大的组合偏差( 比如 )。 在rich的时候,根据组合偏差动态调整k 大小,从而使mers使用的是有效的specificity。

    在指定masked时间间隔时,将忽略任何包含任何遮罩间隔的数据库或者数据库的读取,这将忽略包含任何遮罩间隔的数据库。 区间轨迹是一个轨迹,例如由DBdust创建的"灰尘"轨迹,用于对未剪裁或者修剪的数据库进行编码。

    某些k-mers are显著超过( 比如 )。 to运行。这些k mers会产生过多的匹配的k 对,左unaddressed会导致daligner溢出可以用的物理内存。 处理这个问题的一种方法是显式设置-t参数,该参数可以在主题或者目标块中使用多次。 但是处理这种情况的更好方法是让程序自动选择满足给定内存使用限制的值,该值由参数指定为指定的内存用量限制。 默认情况下,daligner将使用物理内存量作为-M的选择。 如果要使用更少的node,请只在 24Gb HPC集群上表示 8Gb,因为你希望在 node 上运行 3 daligner作业,然后指定 -M8. 指定-M0基本上表明,你不希望daligner自我调整k,以适应给定的内存量。

    在字符串的--/bo/[bb,be]/中,每个对齐都被记录为的索引( 在修剪后的数据库中),分别表示读取的是同一条或者相反的链,而 [ab,ae] 和 [bb,be] 分别是一个和两个字符。 对于每个主题,说明X 和Y,程序报告在X 中读取的对齐方式,b 读取,反之亦然。 但是,如果-A选项设置为(",则只在读取过程中重叠并重复读取,而b 读取读取,如果读取索引小于b 读索引,则报告 further。 在这两种情况下,如果-I选项设置为("i"for"标识"),则同时在不同的部分之间重叠。 总之,命令"daligner -A X Y"生成单个文件 X.Y.. las,"daligner X Y"生成 2个文件 X.Y.. las 和 Y.X.las ( 除非X=Y只有一个文件,X.X. las是生成的)。 其中一个文件中的重叠记录按照LAsort的描述进行排序。 为了生成上述. las 文件,默认情况下,在子目录/tmp 中生成了几个临时. las 文件,分别为两个线程。 你可以通过指定这里活动在-P选项中发生的目录来覆盖这里位置。

    默认情况下,在拆分数据库或者DBs时,daligner比最小截断集( 通常为 1或者 2 )的数据库中的读取之间的所有重叠都要。 然而,HGAP汇编流水线只需要修正大读。8Kbp 或者 over,所以只需要读一读是一个大读的地方的重叠。 通过设置-H参数,可以改变 daligner,以便它只报告一个读取超过N 个基对的重叠。

    默认参数设置适用于原始Pacbio数据,daligner可以用于高效地查找正确读取或者它的他噪音读取。 例如对于针对. dams的应用程序,我们运行"daligner -k20 -h60 -e。85"和修正的读取,我们通常运行"daligner -k25 -w5 -h60 -e.95 -s500",在这些设置中,它非常。

    
    2. LAsort [-va] <align:las>.. .
    
    
    
    

    对 命令行 上指定的每个. las 对齐文件排序。 对于每个文件,它读取文件中的所有重叠,并按照( a,b,o,ab )的字典顺序排序,假设每个对齐都记录为 [ab,ae] x [bb,be]。 然后将它们全部写入一个名为 <align> (。假定输入文件为 <,将>. las 对齐)的文件。 设置-v选项后,程序将报告读取和写入的记录数。 如果设置-a选项,则在排序读取到引用的映射时,它按( a,ab )的字典顺序排序。

    如果. las 文件由damapper生成,局部对齐被组织成链,链的LA段是连续的,并且在文件中有序排列。 LAsort可以检测到它已经传递了这样的文件,如果把链作为一个单元,并在链的基础上排序。

    
    3. LAmerge [-va] <merge:las> <parts:las>.. .
    
    
    
    

    将. las 文件 <部件> 合并到一个选择的排序文件 <merge>,这里假定输入 <部件> 文件已经排序。 由于操作系统限制,<部件> 文件的数量必须为 252. 设置-v选项后,程序报告读取和写入的记录的#。 -a选项表示对上面的LAsort进行了排序。

    如果. las 文件由damapper生成,局部对齐被组织成链,链的LA段是连续的,并且在文件中有序排列。 在合并这些文件时,LAmerge将链作为一个单元,并在链的第一个基础上命令它们。

    如果你使用的是 aggregate sort LAmerge和 LAsort together可以执行一个"外部"排序,从而生成一个集合的排序文件集合,其中包含daligner的集合( 或者,如果设置了-a选项),则会按顺序排序。 特别是,这意味着一个给定的读取的所有对齐方式都会在一个文件中连续找到。 因此,需要查看给定读取的所有对齐的计算可以在这些已经排序文件的简单顺序扫描中操作。

    
    4. LAshow [-caroUF] [-i<int(4)>] [-w<int(100)>] [-b<int(10)>]
    
    
     <src1:db|dam> [ <src2:db|dam> ]
    
    
     <align:las> [ <reads:FILE> | <reads:range>.. . ]
    
    
    
    

    LAshow生成指定. las 文件中包含的本地对齐列表,它的中a 和b 读取来自src1或者src1和 scr2. 如果给定了读取范围的文件或者列表,则只显示文件或者列表中指定的集合中的重叠。 有关如何解释读取范围的文件和列表的解释,请参见 DBshow。 如果设置-F选项,则在显示中将反转a-和b-的角色。

    如果给定-c选项,则显示一个卡通渲染,如果设置了-a或者 R 选项,则显示本地对齐方式。 -a选项在显示的每个段中精确地设置-w列,而 R 选项在显示的每个段中确切地放置 -w。 当希望视觉比较两个包含相同内容的对齐方式时,R 显示模式很有用。 如果设置了 -c。-a和 R 标志,那么动画首先出现,然后是-a对齐,最后是 R 对齐。 -i选项设置动画和/或者对齐显示的缩进,如果它们被请求。 选项设置对齐显示中对齐段两边的符号数,而指定将大写用于DNA序列而非默认的小写字符。 如果设置了-o选项,则只显示与( 序列的每一端都会出现一个序列结束) 重叠的对齐方式。 如果给出-F选项,那么A-和b的角色将被翻转。

    在检查LAshow输出时,要记住描述读取时间间隔的坐标是从从 0开始到从开始的位置。 也就是说,坐标c 指的是 c-1'st和c'之间的位置,区间 [b,e] 捕获b'到 e-1'根的e b 基。 我们给出了一个卡通和( 部分) 对齐的例子,我们将解释几个附加的重要点:

    
     1 1,865 c [18,479..20,216] x [ 1,707..0> (24,451 x 7,283 bps, 19 trace pts)
    
    
    
     18479 4235
    
    
     A ========+----------+======> dif/(len1+len2) = 478/(1737+1707) = 27.76%
    
    
     B <======+-----------
    
    
     5576
    
    
    
     18469 agccgcctag[tgcctcgcaaacgc-t-cggggcggcgt-gaaagcgg--
    
    
     ::::::::::[||||||||||||||*|*|||*|||*|||*||||||||**
    
    
     1717 ctcttcttta[tgcctcgcaaacgccttcggcgcg-cgttgaaagcggtt 17.9%
    
    
    
     18513 -ccggtgggtc--agtggcgagttctggcagtgcgctggg-ctgcgaaat
    
    
     *||||||*|||**|||||*||||*|*|*|||**|||||||*||*||||||
    
    
     1669 gccggtgcgtcgcagtgg-gagt-c-gtcag--cgctggggcttcgaaat 24.0%
    
    
    
    . . . 
    
    
    
    

    一个洛杉矶的显示始终以一条线给出,然后b 读取,然后指定方向( 例如 )。 "n'对于同一个股'c'对于相反的方向) 后面的间隔和b 间隔是对齐的两个读取的长度和跟踪点的数目。 ,注意,在B-read read,B 间隔 gives coordinate coordinate coordinate idea idea idea idea idea characters characters characters characters characters characters。 在 alignment alignment注意在每一行的起始位置显示坐标,并给出每个行的第一个字符左边的"记号标记"的坐标。 我们可以用一个角度括号代替一个矩形括号,在这个例子中,我们用一个角括号 <> 来表示这一点,这个例子在读的开头开始。 最后,观察到在卡通中数字不是坐标,而是指出两个对齐间隔的左和右的长度。 最后,观察到在卡通中数字不是坐标,而是指出两个对齐间隔的左和右的长度。

    随着damapper的引入,. las 文件现在可以包含链。 如果LAshow检测到它已经通过一个带有链信息的文件,那么它在左侧显示标记,显示链结构 e.g.:

    
    > 117 37,630 c [ 253.. 7,980] x [ 331,430.. 324,027] ~ 10.5%
    
    
     + 117 37,628 n [ 253.. 7,983] x [21,493,673..21,501,079] ~ 10.6%
    
    
     + 117 57 c [ 253.. 1,086] x [ 2,008,164.. 2,007,369] ~ 9.8%
    
    
     - 117 57 c [ 1,300.. 7,982] x [ 2,007,351.. 2,000,945] ~ 10.7%
    
    
    > 117 15 c [ 7,992.. 8,716] x [ 242,529.. 241,822] ~ 7.8%
    
    
     - 117 15 c [ 8,752..14,299] x [ 241,824.. 236,425] ~ 10.7%
    
    
     - 117 15 c [14,133..14,832] x [ 236,630.. 235,953] ~ 12.1%
    
    
     + 117 37,628 n [ 7,992.. 8,716] x [19,202,357..19,203,064] ~ 7.7%
    
    
     - 117 37,628 n [ 8,752..14,832] x [19,203,062..19,208,974] ~ 10.9%
    
    
    
    

    链以> 或者+ 字符开始,其中> 表示这是最高得分链,+ 表示接近最佳的链( 由-n参数控制到 damapper )。 链的每一个附加的LA都用一个- 字符标记。

    
    5. LAdump [-cdtlo] <src1:db|dam> [ <src2:db|dam> ]
    
    
     <align:las> [ <reads:FILE> | <reads:range>.. . ]
    
    
    
    

    LAshow一样,LAdump允许在. las 文件中显示堆的子集的本地对齐( LAs ) 并选择它的中的信息。 区别在于信息是用非常简单的" 1-code"ascii格式编写的,这样可以方便地读取和解析信息以便进一步使用。 对每一个读,对的读在一行。 -c请求一个进一步输出LA段的坐标的输出。 -d选项请求输出的差异数,-t请求输出跟踪点信息,-l请求输出两个读取的长度。 最后,-o请求只输出正确重叠的LAs。

    这种格式很简单。 每个请求的信息都在一行中出现。 每行的第一个字符是一个" 1-code"字符,它告诉你在一行中需要什么信息。 其他行包含每个项被单个空格分隔的信息。 跟踪点给出了位于LA的跟踪点的数目,随后紧跟着许多行,其中包含一对整数,其中包含每个连续跟踪点间隔的差异和b 位移。

    
     P #a #b #o #c - (#a,#b^#o) have an LA between them where #o is 'n' or 'c' and
    
    
     #c is '>' (start of best chain), '+' (start of alternate chain),
    
    
     '-' (continuation of chain), or '.' (no chains in file).
    
    
     L #la #lb - #la is the length of the a-read and #lb that of the b-read
    
    
     C #ab #ae #bb #be - #a[#ab,#ae] aligns with #b^#o[#bb,#be]
    
    
     D # - there are # differences in the LA
    
    
     T #n - there are #n trace point intervals for the LA
    
    
     (#d #y )^#n - there are #d difference aligning the #y bp's of B with the
    
    
     next fixed-size interval of A
    
    
     + X # - Total amount of X (X = P or T)
    
    
     % X # - Maximum amount of X in any pile (X = P or T)
    
    
     @ T # - Maximum number of trace points in any trace
    
    
    
    

    以+。%, 或者 @ 开头的1-code行始终是输出中的第一行。 它们提供关于输出中包含的内容的大小信息。 特别是,文件中的'+ X #'给出 LAs ( X=P )的总数) 或者跟踪点间隔( X=T )的总数。 '% X #'给定的最大 LAs ( X=P ) 或者最大跟踪点间隔的最大数量。 最后 @ # 给出文件内跟踪中跟踪点间隔的最大 #。

    
    6. LAindex -v <source:las>.. .
    
    
    
    

    LAindex对一个或者多个排序的. las 文件进行一系列的处理,并为每个文件生成一个"桩索引"。 如果输入文件具有 NAME" x.las",则它的索引文件的NAME 为"。. x. las。idx"。 对于在. las 文件中编码的每个读取堆,索引包含与文件中的第一个本地对齐的偏移量。 这个索引以4 个 64位 整数开始,对上面描述的数字 %。+ T。% T 和 @ T 进行编码,然后为每一个开始读取文件的堆设置偏移量。 索引旨在允许处理堆的程序在任何 momment int时间更有效地读取所需的堆,而不是按照顺序扫描. las 文件。

    
    7. LAcat [-v] <source:las>> <target>.las
    
    
    
    

    指定模板 NAME <源> 在其中包含单个 #-sign 时,在 # 替换为1 时,查找 MATCH的所有文件 replace 1,2 replace。3。 如果不存在. las 扩展,则添加。 然后将这些文件按顺序连接到单个. las 文件中,并将结果传递到标准输出。 -v选项报告连接的文件,并将它们的内部数报告为标准错误( 当标准输出接收连接文件时)。

    
    8. LAsplit [-v] <target:las> (<parts:int> | <path:db|dam>) <<source>.las
    
    
    
    

    如果第二个参数为整数n,则将对齐文件 <source>划分为标准输入,可以使用模板 <target>的所有对齐记录。 n 文件的NAME 是字符串 <目标>,其中发生的单个 #-sign 替换为i,并在需要时添加一个扩展。

    If参数refers数据库路径> <路径然后将输入对齐文件划分为块. las 文件。read文件 all <路径> template template generated template template template。 -v选项报告生成的文件和内部的标准错误。

    
    9. LAcheck [-vS] <src1:db|dam> [ <src2:db|dam> ] <align:las>.. .
    
    
    
    

    LAcheck检查每个. las 文件的结构完整性,其中a-和b 序列来自src1或者src1和 scr2. 也就是说,它确保每个文件都是合理的. las 文件,比如 数值不符合,记录数正确,等等。 如果设置了-S选项,则它进一步检查对齐是否按排序顺序排序。 如果设置-v选项,则为每个. las 文件输出一行,表示文件是确定的或者报告第一个错误。 如果未设置-v选项,则程序将以静默方式运行。 如果每个文件都被认为很好,则退出状态为 0,如果至少有一个文件损坏,则 1为。

    引入damapper之后,LAcheck检查文件是否有链信息,如果有,则检查链的有效性,并假设链是用-a选项进行排序的,并使用选项进行排序。

    
    10. HPC.daligner [-vbad] [-t<int>] [-w<int(6)>] [-l<int(1000)] [-s<int(100)] [-P<dir(/tmp)>]
    
    
     [-M<int>] [-B<int(4)>] [-D<int( 250)>] [-T<int(4)>] [-f<name>]
    
    
     ( [-k<int(14)>] [-h<int(35)>] [-e<double(.70)] [-H<int>]
    
    
     [-k<int(20)>] [-h<int(50)>] [-e<double(.85)] <ref:db|dam> )
    
    
     [-m<track>]+ <reads:db|dam> [<first:int>[-<last:int>]]
    
    
    
    

    如果-f选项,或者在两个数据库中以前缀 <名称> 开始,或者根据数据库参数(。<引用> 和 <读取> ) 中给定的一个或者两个数据库参数,HPC.daligner 将一个 UNIX shell script 写入一个系列的文件以开始 prefix。 首先介绍重叠脚本及其效果,然后对比较脚本进行比较。

    Overlap: 由一系列命令组成,它们有效地在拆分数据库的所有块上运行 daligner,然后在 externally sorts externally externally externally externally data data data数据库分割成数据库分割成的块的数目。 如果按LAcat连接的排序文件将包含排序顺序( 读,然后读。) 中的所有对齐。 并且,对于给定的读取,所有的重叠都不会被分割,因这里可以并行地运行工件分析器。

    数据库以前必须被DBsplit和所有参数除 -a。-D。-f。-B和-D之外,都传递到对daligner的调用。 这些参数的默认值是 daligner。 -v和-a标志被传递给LAsort和LAmerge的所有调用。 稍后将描述所有其他选项。 对于分成N 个子块的数据库,对daligner的调用将生成在每个块对上的. las 文件。 在( logD N ) 阶段,这些合并的文件数量减少了,直到每行有1 个文件,每行的第2 个文件都是4 个。 因这里在最后一个有N 个排序的. las 文件,当连接的时候会给出一个。

    -B选项( 默认 4 ) 给出每个调用的块比较的块比较数。 一些必须包含 B-1 比较,第一个 B-2 块比较较少,但 HPCdaligner"计划者"能够最好地给出每个命令的平均负荷。 -D选项( 默认 250 ) 提供了将在单个LAmerge命令中合并的最大文件数。 计划程序在所有的( logD N ) 级别上执行d 路的合并,以保存最后的中间文件数。

    如果整数的第一个和 <最后一个> 丢失,那么生成的脚本是针对数据库中的每个块的。 ,if第1 个版本,然后通过 <第 last> 创建块的第1 个版本,并在第2 行中创建块,第2 块通过。

    Comparison: consists <</>/reads reads ref>中所有读取的命令序列。记录文件序列中的所有局部对齐方式。 <参考>。las,<读取>。2. <参考>。las,。 其中,<读取>。<引用>。k 包含所有 <引用> 和 <reads>的k 块之间的对齐。 parameters -k,和-e默认值设置更严格的重叠脚本的参数,。-H和默认值都是distinct的数据集,期望使用 -A。-I和 -H options。 如果整数的第一个和 <最后一个> 丢失,那么生成的脚本是针对数据库 <reads>中的每一个块生成的。 if <的第一个版本,那么 HPC.daligner 会生成一个脚本,它通过 <最后的> (。<最后一个> = <第一个> 如果不存在) 来比较块的<against against DAM ref ref。

    HPC.daligner 和其他HPC的命令脚本输出。 <x> 程序由一个注释行开始( 以 #) 开头,后面是一个可以能包含 shell 命令长列表的命令)。 Command,注释为"作业"并在括号中给出 said number,因为块中的每个 命令行 都可以被调用,因为块中的每个命令都不依赖块,块中的任何命令依赖于块。 剩下的命令块阻止house阻止blocks因为它们可以由启动/服务器执行,或者使用LAcheck检查. las 文件的完整性,或者使用rm删除中间文件。 每个块应按照给定的顺序执行,并在执行下一个块之前完成。

    如果设置了-f选项,那么每个命令块都会写入一个带有 <名称>的NAME的文件中。#。 描述在 <命令中使用的命令,它是指定文件中的命令块,<描述> 是对其他命令块文件执行的顺序,描述是对该命令块执行的( 非常) 简短的符号提示。 例如"hpc。daligner -fJOBS DB"将生成以下文件:

    
     JOBS.01.OVL
    
    
     JOBS.02.CHECK.OPT
    
    
     JOBS.03.MERGE
    
    
     JOBS.04.CHECK.OPT
    
    
     JOBS.05.RM.OPT
    
    
    
    

    命令块的数量因. las 文件外部类型所需合并舍入数的不同而不同。 带有后缀. OPT的文件是可选的,虽然我们极力推荐一个运行所有复选块,但不需要执行。

    一个新的-d选项请求将文件组织到子目录集合,以便不要将大型基因组的底层操作系统。 回忆一下,对于数据库分为N 个块,daligner将生成。文件。 使用-d选项集,从 1到N 创建表单"工作 <>"的N 子目录( 关于 HPC.daligner 中调用的目录),然后在任何子目录中出现最多 2N 个文件。

    例如:

    
    //Recall G.db from the example in DAZZ_DB/README
    
    
    
    > cat G.db
    
    
    files = 1
    
    
     1862 G Sim
    
    
    blocks = 2
    
    
    size = 11 cutoff = 0 all = 0
    
    
     0 0
    
    
     1024 1024
    
    
     1862 1862
    
    
    > HPCdaligner -mdust -t5 G | csh -v//Run the HPCdaligner script
    
    
    
    # Dazzler jobs (2)
    
    
    dazzler -d -t5 -mdust G.1 G.1
    
    
    dazzler -d -t5 -mdust G.2 G.1 G.2
    
    
    # Initial sort jobs (4)
    
    
    LAsort G.1.G.1.*.las && LAmerge G.L1.1.1 G.1.G.1.*.S.las && rm G.1.G.1.*.S.las
    
    
    LAsort G.1.G.2.*.las && LAmerge G.L1.1.2 G.1.G.2.*.S.las && rm G.1.G.2.*.S.las
    
    
    LAsort G.2.G.1.*.las && LAmerge G.L1.2.1 G.2.G.1.*.S.las && rm G.2.G.1.*.S.las
    
    
    LAsort G.2.G.2.*.las && LAmerge G.L1.2.2 G.2.G.2.*.S.las && rm G.2.G.2.*.S.las
    
    
    # Level 1 jobs (2)
    
    
    LAmerge G.1 G.L1.1.1 G.L1.1.2 && rm G.L1.1.1.las G.L1.1.2.las
    
    
    LAmerge G.2 G.L1.2.1 G.L1.2.2 && rm G.L1.2.1.las G.L1.2.2.las
    
    
    
    > LAshow -c -a:G -w50 G.1 | more//Take a look at the result!
    
    
    
    G.1: 34,510 records
    
    
    
     1 9 c [ 0.. 1,876] x [ 9,017..10,825] ( 18 trace pts)
    
    
    
     12645
    
    
     A ---------+====> dif/(len1+len2) = 398/(1876+1808) = 21.61%
    
    
     B <====+---------
    
    
     9017
    
    
    
     1.. ........gtg-cggt--caggggtgcctgc-t-t-atcgcaatgtta
    
    
     |||*||||**||||||||*||||*|*|*||**|*|*||||
    
    
     9008 gagaggccaagtggcggtggcaggggtg-ctgcgtcttatatccaggtta 27.5%
    
    
    
     35 ta-ctgggtggttaaacttagccaggaaacctgttgaaataa-acggtgg
    
    
     ||*|||||||||||||*|**|*||*|*||||||*|**|||||*|*|||||
    
    
     9057 tagctgggtggttaaa-tctg-ca-g-aacctg-t--aataacatggtgg 24.0%
    
    
    
     83 -ctagtggcttgccgtttacccaacagaagcataatgaaa-tttgaaagt
    
    
     *||||||||*||||||||*||**||||*|||**|||||||*||||*||||
    
    
     9100 gctagtggc-tgccgttt-ccgcacag-agc--aatgaaaatttg-aagt 20.0%
    
    
    
     131 ggtaggttcctgctgtct-acatacagaacgacggagcgaaaaggtaccg
    
    
     ||*|||||||||||||*|*||||*|*|*||||||||||*||||||||||*
    
    
     9144 gg-aggttcctgctgt-tcacat-c-ggacgacggagc-aaaaggtacc- 16.0%
    
    
    
    ...
    
    
    
    > LAcat G> G.las//Combine G.1.las & G.2.las into a single. las file
    
    
    > LAshow G G | more//Take another look, now at G.las
    
    
    
    G: 62,654 records
    
    
     1 9 c [ 0.. 1,876] x [ 9,017..10,825] : <398 diffs ( 18 trace pts)
    
    
     1 38 c [ 0.. 7,107] x [ 5,381..12,330] : <1,614 diffs ( 71 trace pts)
    
    
     1 49 n [ 5,493..14,521] x [ 0.. 9,065] : <2,028 diffs ( 91 trace pts)
    
    
     1 68 n [12,809..14,521] x [ 0.. 1,758] : <373 diffs ( 17 trace pts)
    
    
     1 147 c [ 0..13,352] x [ 854..14,069] : <2,993 diffs (133 trace pts)
    
    
     1 231 n [10,892..14,521] x [ 0.. 3,735] : <816 diffs ( 37 trace pts)
    
    
     1 292 c [ 3,835..14,521] x [ 0..10,702] : <2,353 diffs (107 trace pts)
    
    
     1 335 n [ 7,569..14,521] x [ 0.. 7,033] : <1,544 diffs ( 70 trace pts)
    
    
     1 377 c [ 9,602..14,521] x [ 0.. 5,009] : <1,104 diffs ( 49 trace pts)
    
    
     1 414 c [ 6,804..14,521] x [ 0.. 7,812] : <1,745 diffs ( 77 trace pts)
    
    
     1 415 c [ 0.. 3,613] x [ 7,685..11,224] : <840 diffs ( 36 trace pts)
    
    
     1 445 c [ 9,828..14,521] x [ 0.. 4,789] : <1,036 diffs ( 47 trace pts)
    
    
     1 464 n [ 0.. 1,942] x [12,416..14,281] : <411 diffs ( 19 trace pts)
    
    
    
    ...
    
    
    
    

    LOC  Local  FIND  align  对齐  
    相关文章