Multiple Alignments
MULTIPLE ALIGNMENT MODE를 선택한 후 ALIGNMENT menu로 들어가 multiple alignments를 실시한다.
Multiple alignments 는 3단계로 이루어진다.
1) 모든 서열들은 서로 간에 비교된다 (pairwise alignments);
2) 유사성으로 서열들의 개략적인 grouping을 기술하는 dendrogram (like a phylogenetic tree) 이 형성된다 (stored in a file).
3) 마지막으로 dendrogram을 guide로 사용하여 multiple alignment를 실시한다.
이 3 단계는 DO COMPLETE ALIGNMENT option을 선택하면 자동으로 수행된다. 기존의 guide tree file을 사용하여 첫 번째 단계 (pairwise alignments; guide tree)를 생략할 수도 있다 (DO ALIGNMENT FROM GUIDE TREE); 또는 multiple alignment 없이 guide tree 만을 만들 수 있다 (PRODUCE GUIDE TREE ONLY).
REALIGN SELECTED SEQUENCES 은 배열된 상태가 좋지 않을 때 재배열을 위해 사용된다. 서열들은 명칭들에서 선택될 수 있다 - see Editing Alignments for more details. 선택되지 않은 서열들은 고정되고 (fixed), 이들만을 포함하여 profile 이 만들어진다. 이 profile에 선택된 서열들 각각이 차례로 재배열된다. 재배열된 서열들은 배열의 끝에 하나의 group으로 전개된다.
REALIGN SELECTED SEQUENCE RANGE 은 alignment의 적은 영역을 재배열하는데 사용된다. Sequence display area에서 클릭하여 잔기 범위를 선택한 다음 multiple alignment을 수행한다. 마지막으로 새로운 alignment를 먼저의 full sequence alignment에 가져다 붙인다.
설정값으로 gap penalties가 subrange의 각 말단에 말단의 gap들에 벌점을 주기위해 사용된다. 만약 REALIGN SEGMENT END GAP PENALTIES option 이 꺼져있으면, gap들은 residue range의 끝에 cost 없이 넣어질 수 있다.
ALIGNMENT PARAMETERS 은 다음과 같은 사양의 sub-menu를 보여준다.
RESET NEW GAPS BEFORE ALIGNMENT 은 parameter들을 변화시켜 다시 alignment하기를 원한다면 multiple alignment 동안 서열들에 삽입되는 새로운 gap들을 제거한다. 이것은 2번째 multiple alignment를 하기 직전에만 효과를 발휘한다. 이것이 작동되건 아니건 alignment 후에는 계통수를 만들 수 있다. 이것을 끄면 두 번째 multiple alignment를 하여도 새로운 gap들은 유지된다. 이것은 alignment를 점차적으로 반복할 수 있도록 해준다. 가끔 alignment는 2, 3번의 반복으로 증진될 수 있다.
RESET ALL GAPS BEFORE ALIGNMENT 는 서열 입력 file로부터 읽혀진 것들을 포함한 모든 gap들을 제거할 것이다. 이것은 두 번째 multiple alignment 직전에만 효과를 발휘한다. 이것이 작동되건 아니건 alignment 후에는 계통수를 만들 수 있다. 이것을 끄면 두 번째 multiple alignment를 하여도 새로운 gap들은 유지된다. 이것은 alignment를 점차적으로 반복할 수 있도록 해준다. 가끔 alignment는 2, 3번의 반복으로 증진될 수 있다.
PAIRWISE ALIGNMENT PARAMETERS 는 초기 배열들의 속도와 정밀도를 조절한다.
MULTIPLE ALIGNMENT PARAMETERS 는 마지막 multiple alignment들의 gap들을 조절한다.
PROTEIN GAP PARAMETERS 는 단백질 서열에만 사용되는 것으로 여러 가지 parameter들을 볼 수 있는 일시적인 창을 전개한다. (SECONDARY STRUCTURE PARAMETERS는 Profile Alignment Mode에서만 사용하는 것으로 gap penalty masks하고만 사용되는 여러 가지 parameters을 바꿀 수 있도록 한다)
SAVE LOG FILE 는 alignment calculation scores를 filename 에 기록한다. log file 명칭은 입력한 서열의 filename과 같으며 확장자가 .log이다.
OUTPUT FORMAT OPTIONS
5가지의 다른 alignment formats (CLUSTAL, GCG, NBRF/PIR, PHYLIP and GDE)으로부터 선택할 수 있다. 하나 이상을 선택할 수도 있다 (원하면 5개 모두도 선택할 수 있다)
CLUSTAL format output is a self explanatory alignment format. It shows the sequences aligned in blocks. It can be read in again at a later date to (for example) calculate a phylogenetic tree or add in new sequences by profile alignment.
GCG output can be used by any of the GCG programs that can work on multiple alignments (e.g. PRETTY, PROFILEMAKE, PLOTALIGN). It is the same as the GCG .msf format files (multiple sequence file); new in version 7 of GCG.
PHYLIP format output can be used for input to the PHYLIP package of Joe Felsenstein. This is a very widely used package for doing every imaginable form of phylogenetic analysis (MUCH more than the the modest introduction offered by this program).
NBRF/PIR: this is the same as the standard PIR format with ONE ADDITION. Gap characters "-" are used to indicate the positions of gaps in the multiple alignment. These files can be re-used as input in any part of clustal that allows sequences (or alignments or profiles) to be read in.
GDE: this format is used by the GDE package of Steven Smith and is understood by SEQLAB in GCG 9 or later.
GDE OUTPUT CASE: sequences in GDE format may be written in either upper or lower case.
CLUSTALW SEQUENCE NUMBERS: 잔기 수들이 alignment lines의 끝에 clustalw format으로 첨가된다.
OUTPUT ORDER 는 output alignments 서열들의 순서를 조절하는데 사용된다. 설정값으로 서열들이 배열된 순서를 사용하여 (from the guide tree/dendrogram) 가깝게 연관된 서열들을 자동으로 grouping 한다. 이것은 원래 입력한 순서와 동일하도록 전환될 수 있다.
PARAMETER OUTPUT: 이 option 은 alignment 동안 parameter file (suffix.par)에 있는 모든 parameter setting들을 저장한다. 이 파일은 동일한 parameter들을 사용하여 ClustalW를 다시 가동하는데 사용될 수 있다.
ALIGNMENT PARAMETERS
PAIRWISE ALIGNMENT PARAMETERS
서열들의 모든 쌍 사이에 거리가 계산되고 이들은 최종 multiple alignment로 인도하는 계통수를 구측하는데 사용된다. Score들은 별도의 pairwise alignment들로부터 계산된다. 이것들은 두가지 방법을 사용하여 계산된다: dynamic programming (slow but accurate) 또는 Wilbur and Lipman 방법 (extremely fast but approximate).
PAIRWISE ALIGNMENTS option을 사용하여 두 개의 방법 중 선택할 수 있다. Slow/accurate 방법은 짧은 서열들에는 충분히 빠르나 많은 (e.g. >100) 긴 (e.g. >1000 residue) 서열들에는 매우 느릴 것이다.
SLOW-ACCURATE alignment parameters: 이 parameter들은 배열들의 속도에 아무런 영향을 미치지 않는다. 이들은 최초의 배열을 만드는데 사용되고, 그 후 이 배열은 percent identity score들을 만들기 위해 rescore 된다. 이 % score들이 스크린에 전개되는 것이다. 이 score들은 tree들을 위해 distance들로 전환된다.
Gap Open Penalty: 배열에서 gap을 만드는데 대한 벌점
Gap Extension Penalty: gap을 1개의 잔기씩 느리는데 따른 벌점
Protein Weight Matrix: 각 아미노산의 서로에 대한 유사성을 표시하는 scoring table
Load protein matrix: file로부터 comparison table를 읽을 수 있도록 해준다.
DNA weight matrix: match들과 mismatch들에 정해진 score들 (including IUB ambiguity codes).
Load DNA matrix: file로부터 comparison table를 읽을 수 있도록 해준다.
matrix input format의 상세한 내용은 하단에 있는 Multiple alignment parameters의 MATRIX option을 참조하라.
FAST-APPROXIMATE alignment parameters: 이 similarity score들은 4개의 parameter들에 의해 조절되는 fast, approximate, global alignment들로부터 계산된다. 2개의 기술이 이들 배열을 매우 빠르게 만드는데 사용된다: 1) 단지 정확히 일치하는 절편들 (k-tuples)이 고려된다; 2) 단지 'best' diagonal들 (the ones with most k-tuple matches)이 사용된다.
GAP PENALTY: 이것은 fast alignment들에서 각각의 gap에 대한 벌점이다. 이것은 극단적인 값들을 제외하고는 속도와 정밀도에 거의 영향을 주지 않는다.
K-TUPLE SIZE: 이것은 사용되는 서열에서 정확히 일치하는 절편들의 크기이다. 빠른 속도를 원하면 증가시키고 (max= 2 for proteins; 4 for DNA), 정밀도를 위해서는 감소시킨다. 더 긴 서열들 (e.g. >1000 residues)의 경우라면 설정값을 증가시키기를 바랄 것이다.
TOP DIAGONALS: 각 사선 (in an imaginary dot-matrix plot)에서 k-tuple match들의 수가 계산된다. 가장 좋은 것들 (with most matches)만이 배열에 사용된다. 이 parameter는 값을 지정한다. Decrease for speed; increase for sensitivity.
WINDOW SIZE: 이것은 사용될 'best' 사선들 각각의 주변에 있는 사선들의 수이다. Decrease for speed; increase for sensitivity.
MULTIPLE ALIGNMENT PARAMETERS
이 parameter들은 최종 multiple alignment를 조절한다. 이것은 이 프로그램의 핵심이며 그 세부적인 것은 복잡하다. Parameter들과 scoring system의 사용을 완전히 이해하기 위해서는 문서를 참조하라.
최종 multiple alignment의 각 단계는 두 개의 배열이나 서열들을 배열하는 것으로 구상된다. 이것은 GUIDE TREE에 있는 branching order를 따라 단계적으로 진행된다. 이것을 조절하는 기본적인 parameter들은 여러 가지 identical/non-indentical 잔기들에 대한 gap 벌점들과 score들이다.
The GAP OPENING and EXTENSION PENALTIES 는 여기서 정해질 수 있다. 이것들은 매번 새로운 gap을 여는데 드는 비용과 gap에서의 모든 항목에 대한 비용을 조절한다. Gap opening penalty를 증가시키면 gap들은 적어지고, gap extension penalty를 증가시키면 gap들은 짧아진다. 말단의 gap들은 벌점을 받지 않는다.
The DELAY DIVERGENT SEQUENCES switch는 먼 서열들의 배열을 가장 가깝게 연관된 서열들이 배열될 때까지 늦춘다. 정해진 값은 서열의 첨가를 늦추는데 요구되는 percent identity level을 보여준다; 다른 서열들에 이 수준보다 less identical 서열들은 나중에 배열될 것이다.
The TRANSITION WEIGHT 는 transition들 (A<-->G or C<-->T i.e. purine-purine or pyrimidine-pyrimidine substitutions)에 0에서 1 사이의 가중치 (weight)를 준다; 가중치 0은 transition들이 mismatch들로 기록되고, 반면 가중치 1은 transition들에 match score를 준다. 연관이 먼 DNA 서열들에 대해서 가중치는 0에 근접하여야할 것이며; 가깝게 연관된 서열들에 대해서는 보다 높은 score를 지정하는 것이 유용할 것이다. 설정값은 0.5로 정해져 있다.
The PROTEIN WEIGHT MATRIX option은 일련의 weight matrix들을 선택하도록 해준다. 단백질 alignment들을 위해서는 동일하지 않은 아미노산들의 유사성을 결정하기 위해 weight matrix를 사용하여야만 한다. 예를 들어 Phe와 배열된 Tyr는 Pro와 배열된 것보다 'better'라고 판정된다.
세가지 'in-built' series of weight matrix들이 제공된다. 각각은 다른 진화적인 거리에서는 다르게 작동하는 여러개의 matrix들로 구성되어 있다 (To see the exact details, read the documentation). 간단히 우리는 memory에 여러 가지 matrix들을 저장한다. 이것들은 full range of amino acid distance에 걸쳐있다 (from almost identical sequences to highly divergent ones). 매우 유사한 서열들에 대해서는 동일한 것들과 가장 우세한 보존 치환에 높은 점수를 주는 strict weight matrix를 사용하는 것이 최선이다. 보다 분기된 서열들에 대해서는 자주 일어나는 치환들에 높은 점수를 주는 "softer" matrix들을 사용하는 것이 적당하다.
1) BLOSUM (Henikoff). 이 matrices는 data base similarity (homology searches)를 수행하는데 이용될 수 있는 가장 좋은 것으로 보인다. 현재 사용되는 matrices는 Blosum 80, 62, 45 그리고 30이다. BLOSUM 은 앞서의 Clustal X version들에서는 설정값으로 사용하였다.
2) PAM (Dayhoff). 이것들은 70년대 이래 매우 널리 사용되어왔다. 여기서 사용되는 것은 PAM 20, 60, 120, 350 matrices이다.
3) GONNET. 이 matrices는 Dayhoff의 것 (above)과 거의 동일한 방식으로 유도된 것이다. 그러나 훨씬 최신이고 보다 큰 data set에 근거하고 있다. 이것들은 Dayhoff series보다 정밀해 보인다. 여기서 사용하는 것은 GONNET 80, 120, 160, 250그리고 350 matrices이다. 이 series는 Clustal X version 1.8에서 설정값이다.
여기서는 또한 두 개의 동일한 아미노산들에 10점을 주고 그렇지 않으면 영점을 주는 identity matrix도 제공한다. 이 matrix은 별로 유용하지 않다.
Load protein matrix: file을 comparison matrix로 읽을 수 있도록 해준다. 이것은 single matrix이거나 a series of matrices일 수도 있다(see below for format).
DNA WEIGHT MATRIX option은 핵산서열들을 배열하는데 사용되는 하나의 matrix (not a series)를 선택하게 한다. 두 개의 hard-coded matrix들이 이용된다:
1) IUB. 이것은 핵산서열들의 비교를 위해 BESTFIT에 의해 사용되는 default scoring matrix이다. X'들과 N'들은 어떤 IUB ambiguity symbol들과도 일치하는 것으로 취급된다. All match들은 score 1.9; IUB symbol들에 대한 모든 mismatch들은 score 0.
2) CLUSTALW(1.6). A previous system used by ClustalW, in which matches score 1.0 and mismatches score 0. All matches for IUB symbols also score 0.
Load DNA matrix: file (just one matrix, not a series)을 핵산비교 matrix로 읽을 수 있도록 해준다.
SINGLE MATRIX INPUT FORMAT
Single matrix에 사용되는 형식은 BLAST program과 동일하다. 새로운 weight matrix에서의 score들은 유사성들이어야 한다. 비록 matrix는 자동적으로 모두 positive scores들로 조정되지만 NEGATIVE MATRIX option이 선택되지 않는 한 양의 값은 물론이고 음의 값도 사용할 수 있다. # 기호로 시작되는 모든 line들은 comment들로 추정된다. 첫 번째 non-comment line은 어떤 순서이던지 1 letter code를 사용하고 * 기호가 뒤따르는 아미노산의 목록을 포함하여야 한다. 이것에는 각 아미노산에 대해 하나의 행과 하나의 열을 가지는 score들의 square matrix가 뒤따라야 한다. Matrix의 마지막 행과 열은 (corresponding to the * character) 전체 matrix에 걸쳐 최소한의 score를 가진다.
MATRIX SERIES INPUT FORMAT
ClustalX는 배열될 서열들의 mean percent identity에 따라 다른 matrix들을 사용한다. 일련의 matrix와 matrix series file에서 각 matrix에 대한 percent identity의 범위를 지정할 수 있다. 이 file은 file의 시작에 있는 CLUSTAL_SERIES라는 단어에 의해 자동적으로 인식된다. 그러면 series에 있는 각 matrix는 MATRIX라는 단어로 시작되는 하나의 line에 지정된다. 이것을 matrix를 의뢰하기 위하는 sequence percent identities의 lower and upper limits가 뒤따른다. Matrix line에서의 마지막 entry는 Blast format matrix file의 명칭이다 (see above for details of the single matrix file format).
Example.
CLUSTAL_SERIES
MATRIX 81 100 /us1/user/julie/matrices/blosum80
MATRIX 61 80 /us1/user/julie/matrices/blosum62
MATRIX 31 60 /us1/user/julie/matrices/blosum45
MATRIX 0 30 /us1/user/julie/matrices/blosum30
PROTEIN GAP PARAMETERS
RESIDUE SPECIFIC PENALTIES 는 아미노산에 특이적인 gap penalties로서 alignment 나 sequence 내의 각 위치에서 gap opening penalties를 감소시키거나 증가시킨다. See the documentation for details. 예를 들어 glycine 이 풍부한 위치들은 valine이 많은 위치들 보다 이웃하는 gap을 가지는 경향이 있다.
HYDROPHILIC GAP PENALTIES 는 친수성 아미노산들이 연이은 곳 (5 or more residues)에서 gap의 가능성을 증가시키는데 사용된다; 이들은 gap이 흔한 loop 나 random coil 영역을 이루는 경향이 있다. 친수성으로 여겨지는 잔기들은 HYDROPHILIC RESIDUES로 넣어진다.
GAP SEPARATION DISTANCE 는 gap들이 서로 너무 가까워지는 기회를 줄이려고 노력한다. 이 거리보다 가깝게 떨어진 gap들은 다른 gap들보다 많은 벌점을 받는다. 이것은 가까운 gap들을 막지는 않는다; 다만 덜 자주 나타나도록 하여 alignment가 block 처럼 보이도록 조장한다.
END GAP SEPARATION 는 너무 가까운 gap들을 피하기 위한 목적으로 (set by GAP SEPARATION DISTANCE above) end gap들을 internal gap들처럼 취급한다. 이것을 끄면 end gap들은 이 목적을 위해 무시될 것이다. 이것은 end gap들이 생물학적으로 의미가 없는 fragment들을 배열하고자 할 때 유용하다.