3. BLAST
3-1.
¾Ë°í¸®Áò
BLAST´Â
FASTA¿Í ¸¶Âù°¡Áö°í "Word Based Method"¸¦ ÀÌ¿ëÇÑ´Ù.
ÇÏÁö¸¸ FASTA¿Í´Â ´Þ¸®
º°µµÀÇ pre-formatted °Ë»ö µ¥ÀÌÅͺ£À̽º¸¦ ÇÊ¿ä·Î ÇÑ´Ù.
½ÇÁ¦ À¯»ç¼º °Ë»ö °úÁ¤Àº ´ÙÀ½°ú °°´Ù.
1) ¿ì¼±
°Ë»öÀ» query ¼¿·ÎºÎÅÍ 3°³ÀÇ ´Ü¹éÁú ȤÀº 11°³ÀÇ ¿°±â·Î ÀÌ·ç¾îÁø
´Ü¾îµé°ú T ÀÌ»óÀÇ Á¡¼ö¸¦ °¡Áö´Â Á¶ÇÕÀ» ¸¸µç´Ù. ¸¸µé¾îÁø Á¶ÇÕµéÀ» °¢°¢ ¼¿ µ¥ÀÌÅͺ£À̽ºÀÇ
¼¿µé°ú ºñ±³ÇÑ´Ù.
2) ¸¸¾à
°¢°¢ÀÇ ´Ü¾î Á¶ÇÕµé°ú °°Àº ¼¿ÀÌ ¼¿
database¿¡¼ ¹ß°ßÀÌ µÇ¸é BLAST´Â
¿· ´Ü¾îµé·Î À¯»ç¼º °Ë»öÀ» È®Àå ½ÃÄÑ ³ª°£´Ù.
À̶§ gapÀº Çã¿ëÇÏÁö
¾Ê´Â´Ù.
3) È®ÀåÀ»
¸¶Ä£ ÈÄ µ¥ÀÌÅͺ£À̽º ¼¿ Áß ÀÏÁ¤ °ª ÀÌ»óÀÇ
HSP(High-scoring Segment Pairs)¸¦
°¡Áø ¼¿µéÀ» ÃßÃâÇϰí À̶§ Áߺ¹µÇÁö ¾Ê´Â °¢°¢ÀÇ HSPµéÀº Åë°èÀûÀÎ test¸¦
°ÅÃÄ ¿¬°áÇÑ´Ù.
3-2.
Âü°í
»çÇ×
1) BLAST¿¡¼ ±âº»ÀûÀ¸·Î Á¦°øÇÏ´Â ¼¿ µ¥ÀÌÅͺ£À̽º(non-redundant, nr)¿¡´Â EST µ¥ÀÌÅͺ£À̽º°¡ Æ÷ÇԵǾî ÀÖÁö ¾Ê´Ù.
2) BLAST´Â query ¼¿°ú
gap ¾øÀÌ ÀÏÁ¤ °ª ÀÌ»óÀÇ HSP¸¦
±â·ÏÇÏÁö ¸øÇÏ´Â ¼¿µéÀ» ¹Ì¸® Á¦°ÅÇÑ´Ù. ±×·¡¼
FASTA¿¡ ºñÇØ ÈξÀ ºñ±³ ¼Óµµ°¡
ºü¸£´Ù. ÇÏÁö¸¸ µÎ ¼¿ÀÌ Æ¯Á¤ ºÎºÐÀÌ ³ôÀº ÀÏÄ¡¼ºÀ» °¡Áö°í ÀÖÁö´Â
¾ÊÁö¸¸ ´ëºÎºÐÀÇ ¼¿¿¡¼ À¯»ç¼ºÀ» °¡Áö°í ÀÖ´Â °æ¿ì¿¡´Â BLAST°¡ °Ë»öÀ»
ÇØ ³¾ ¼ö ¾ø´Ù.
3) ¶Ç´Ù¸¥ BLASTÀÇ
´ÜÁ¡Àº Àß º¸Á¸µÇ¾îÀÖÀ¸³ª Å« Àǹ̰¡ ¾ø´Â ¼¿µéÀÇ ºÎºÐ¿¡ ¹Î°¨ÇÏ´Ù´Â °ÍÀÌ´Ù. Áï
short repeat sequence³ª ƯÁ¤ÇÑ residueµéÀÌ ¸¹ÀÌ Á¸ÀçÇÏ´Â ¼¿ (GC ȤÀº AT rich)µéÀÌ
±× ¿¹°¡ µÉ ¼ö Àִµ¥ ÀÌ·± ¼¿µéÀ»
query ¼¿·Î ÀÌ¿ëÇÏ¿´À» °æ¿ì
¸¹Àº Áß¿äÇÏÁö ¾ÊÀº ¼¿µéÀÌ °á°ú·Î ³ª¿À°Ô µÈ´Ù. ÀÌ·± °á°úµéÀ» ÇÇÇϱâ À§ÇØ BLAST´Â filtering ÇÏ´Â
±â´ÉÀ» ±âº»°ªÀ¸·Î °¡Áö°í ÀÖ´Ù. °á±¹ repeat
sequence°°Àº °ÍµéÀº °Ë»öÇϱâ
ÀÌÀü¿¡ Á¦°ÅµÈ´Ù´Â »ç½ÇÀ» ±â¾ïÇØ¾ß ÇÑ´Ù.
4) FASTA¿Í ¸¶Âù°¡Áö·Î
BLASTµµ ´Ü¹éÁú ¼¿À» À§ÇØ
°³¹ßµÈ ÇÁ·Î±×·¥ÀÌ´Ù. ¿°±â ¼¿ÀÇ °Ë»öÀÌ °¡´ÉÇÏÁö¸¸ sensitivity°¡ ¶³¾îÁö¹Ç·Î
¿°±â ¼¿·Î ¿°±â µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇØ ÁøÈÀûÀ¸·Î ¶³¾îÁ®ÀÖ´Â ¼¿À» ã°íÀÚ ÇÑ´Ù¸é FASTA¸¦
»ç¿ëÇÏ´Â °Ô ³´´Ù.
3-3. BLASTÀÇ Á¾·ù
blastp |
´Ü¹éÁú ¼¿°£ÀÇ ºñ±³ |
blastn |
¿°±â ¼¿°£ÀÇ ºñ±³ |
blastx |
ÀÔ·ÂÇÑ ¿°±â ¼¿À» 6°³ÀÇ frameÀ¸·Î º¯È¯ ÈÄ ´Ü¹éÁú ¼¿ µ¥ÀÌÅͺ£À̽º¿Í ºñ±³ |
tblastn |
¿°±â¼¿ database¸¦ 6 frameÀ¸·Î º¯È¯ ÈÄ ÀÔ·ÂÇÑ ´Ü¹éÁú ¼¿°ú ºñ±³ |
tblastx |
ÀÔ·ÂÇÑ ¿°±â ¼¿°ú ¿°±â¼¿ database¸¦ ¸ðµÎ 6 frameÀ¸·Î º¯È¯ ÈÄ ºñ±³ |
3-4. °Ë»ö ÆÄ¶ó¹ÌÅ͵é
-H, HISTOGRAM: °Ë»ö ÈÄ °á°ú¿¡ histogramÀ» Æ÷ÇÔ¿©ºÎ¸¦ °áÁ¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº Æ÷ÇÔÇÑ´Ù.
-V, DESCRIPTIONS: °á°ú¿¡¼ º¸¿©ÁÖ´Â À¯»ç¼ºÀ» °¡Áø ¼¿µéÀÇ °¹¼ö¸¦ Á¤ÇÑ´Ù. ±âº»°ªÀº 100°³ÀÇ À¯»ç¼ºÀ» °¡Áø ¼¿µé¿¡ ´ëÇÑ °£´ÜÇÑ Á¤º¸¸¦ °á°ú¿¡¼ º¸¿©ÁØ´Ù.
-B, ALIGNMENT: °Ë»ö °á°ú ÈÄ ¹è¿À» º¸¿©ÁÖ´Â ¼¿µéÀÇ °¹¼ö·Î ±âº»°ªÀº 50°³ÀÌ´Ù.
-E, EXPECT: µÎ ¼¿ÀÇ statistical significance threshold °ªÀÌ´Ù. Áï ¾î´À Á¤µµ ÀÌ»óÀÇ °ªÀ» °¡Á®¾ß µÎ ¼¿ÀÌ À¯»çÇÏ´Ù°í Á¤ÀÇÇÒ ¼ö Àִ°¡¿¡ ´ëÇÑ °ªÀ» Á¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº 10ÀÌ´Ù. ÀÌ °ªÀº Karlin°ú AltschulÀÇ stochastic model¿¡ ÀÇÇϸé 10°³ÀÇ ¼¿ÀÇ ÀÏÄ¡´Â ¿ì¿¬È÷ ÀϾ ¼ö ÀÖ´Ù°í Á¤ÀÇÇÑ´Ù..
-S, CUTOFF: high-scoring segment pairµéÀÇ cutoff¸¦ Á¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº EXPECT value·ÎºÎÅÍ °è»ê µÈ °ªÀ» ÀÌ¿ëÇÑ´Ù.
MATRIX: À¯»ç¼º °Ë»ö¿¡ ÀÌ¿ëµÇ´Â scoring matrixÀÇ Á¾·ù·Î ±âº»°ªÀº BLOSUM62ÀÌ´Ù. BLASTP, BLASTX, TBLASTN, TBLASTXÀÇ °æ¿ì ¿É¼ÇÀ¸·Î PAM40, PAM120, PAM250, IDENTITYµîÀÇ matrix¸¦ ÀÌ¿ëÇÑ´Ù. ÇÏÁö¸¸ BLASTNÀÇ °æ¿ì¿¡´Â ´Ù¸¥ MATRIX¸¦ ¼±ÅÃÇÏ½Ç ¼ö ¾ø´Ù.
STRAND: TBLASTNÀÇ °æ¿ì¿¡´Â topȤÀº bottom strand Áß ¼±ÅÃÇÏ¿© °Ë»öÀ» ÇÒ ¼ö ÀÖ´Ù. ±×¸®°í BLASTN, BLASTX, TBLASTXÀÇ °æ¿ì¿¡µµ quary sequenceÁß topȤÀº bottom strandÀÇ open reading frameÀ» ¼±ÅÃÇÏ¿© °Ë»öÇÒ ¼ö ÀÖ´Ù.
FILTER: Åë°èÀûÀ¸·Î´Â Áß¿äÇÑ °ªÀ» °¡ÁöÁö¸¸ »ý¹°ÇÐÀûÀ¸·Î´Â Àǹ̰¡ ¾ø´Â ¼¿µéÀ» Á¦°ÅÇÏ´Â ¿É¼ÇÀÌ´Ù. Low compositional complexity¸¦ °¡Áø ¼¿µéÀº Wootton°ú Federhen¿¡ ÀÇÇØ °³¹ßµÈ SEG programÀÌ ÀÌ¿ëµÇ°í internal repeatµéÀº Claverie¿Í States¿¡ ÀÇÇØ °³¹ßµÈ XNU program À» ÀÌ¿ëÇÑ´Ù. BLASTNÀÇ °æ¿ì¿¡´Â Tatusov¿Í Lipman¿¡ ÀÇÇØ °³¹ßµÈ DUST°¡ ÀÌ¿ëµÈ´Ù. ÀÔ·ÂÇÑ ¼¿ Áß ÀϺΰ¡ low complexity sequence·Î ÀνÄÀÌ µÇ¸é blast´Â ¿°±âÀÇ °æ¿ì "N"À¸·Î ´Ü¹éÁúÀÇ °æ¿ì "X"·Î Ç¥½ÃÇÑ´Ù. ±×·¡¼ ½ÇÁ¦ ÀÔ·ÂÀ» Á¤È®È÷ ÇßÀ½¿¡µµ ºÒ±¸ÇÏ°í °á°ú¿Í ÇÔ²² Ãâ·ÂµÇ´Â ÀÔ·Â ¼¿¿¡´Â "NNNNNNN"ȤÀº "XXXXXXX"°¡ Æ÷ÇԵǾî ÀÖ´Â °ÍÀ» °¡²û º¼ ¼ö ÀÖ´Ù. ±âº»°ªÀº filteringÀ» ÇÏ´Â programµéÀ» ÀÌ¿ëÇÏ°Ô µÇ¾îÀÖ°í »ç¿ëÀÚ°¡ ¿øÇÏ´Â °æ¿ì filter¸¦ ¼±ÅÃÇÏÁö ¾ÊÀ» ¼ö ÀÖ´Ù. FilterÀÇ ±â´ÉÀº ¿ÀÁ÷ ÀÔ·ÂÇÑ ¼¿¿¡ ÇÑÇØ¼¸¸ Àû¿ëµÈ´Ù.
NCBI-gi: accession number ¿Í locus nameÀ̿ܿ¡µµ gi ¹øÈ£¸¦ °°ÀÌ º¸¿©ÁÙ ¼ö ÀÖ´Â ¿É¼ÇÀÌ´Ù.
3-5.
BLASTÀÇ
°á°ú
ÇØ¼®
±âº»ÀûÀ¸·Î °á°úÀÇ ÇüÅ´ FASTAÀÇ °á°ú Ãâ·Â
ÇüÅÂ¿Í À¯»çÇÏ´Ù. °á°ú´Â
P-value ¼øÀ¸·Î º¸¿©ÁØ´Ù. ÀϹÝÀûÀ¸·Î °¡Àå Å« Àǹ̸¦ °¡Áö´Â °ªÀº P-value¿Í High scoreÀÌ´Ù. Àǹ̰¡
ÀÖ´Ù°í »ý°¢µÇ´Â ´Ü¹éÁú ¼¿ÀÇ °æ¿ì
P-value´Â °¡´ÉÇÑ ÇÑ À۾ƾß
Çϰí High score´Â Ä¿¾ß ÇÑ´Ù.
DNAÀÇ
°æ¿ì ÀǹÌÀÖ´Â ¼¿ÀÇ P-value°¡
0.0001º¸´Ù ÀÛ´õ¶óµµ µÎ ¼¿ÀÌ
¿¬°ü¿¡ ¾øÀ» °¡´É¼ºÀÌ Å©´Ù. High scoreº¸´Ù
P-value°¡ ¼¿ÀÇ ±æÀÌ¿¡ ´ëÇØ ¿µÇâÀ» ¹ÞÁö ¾ÊÀ¸¹Ç·Î ÀÇ¹Ì ÀÖ´Â ¼¿ÀÎÁö
ÆÇ´ÜÇÒ ¶§ ´õ Áß¿äÇÑ ±âÁØÀÌ µÈ´Ù. P-value°¡ e-100º¸´Ù ÀÛÀº °æ¿ì´Â ÀϹÝÀûÀ¸·Î °°Àº Á¾ÀÇ
°°Àº ¼¿·Î °í·ÁµÈ´Ù. P-value°¡
e-50-e-100»çÀÌÀÏ ¶§´Â ¾ÆÁÖ À¯»çÇÑ ¼¿·Î °í·ÁÇÒ ¼ö ÀÖ´Ù. P-value°¡ e-10-e-50»çÀÌÀÏ ¶§´Â ¿¬°üµÈ ¼¿·Î °í·ÁÇÒ ¼ö ÀÖ´Ù. P-value°¡
0.1-e-5»çÀÌÀÏ ¶§´Â ¿¬°ü¼ºÀ» °¡Áú °¡´É¼ºÀº ÀÖÀ¸³ª »ó´çÈ÷ ¸Õ °ü°è¸¦
°¡Áö°í ÀÖÀ» °¡´É¼ºÀÌ ÀÖ´Ù. ÀϹÝÀûÀ¸·Î P-value°¡ 0.1º¸´Ù
Å« °æ¿ì¿¡´Â Å« Àǹ̸¦ °¡Áø´Ù°í ÇÒ ¼ö ¾ø´Ù.
3-6. BLAST 2.0
BLAST 2.0Àº ±âÁ¸ÀÇ blast¿¡
gapÀ» µµÀÔÇÏ´Â ±â´ÉÀÌ Ãß°¡µÇ¾ú´Ù. ÀϹÝÀûÀ¸·Î blast °Ë»öÀ»
¼öÇàÇÏ¸é °á°ú°¡ ²÷¾îÁø ¸î °³ÀÇ Á¶°¢µé·Î Ãâ·ÂÀÌ µÇ´Âµ¥, blast 2.0¿¡¼´Â gapÀ»
µµÀÔÇÏ¿© FASTA¿Í °°ÀÌ insertion°ú
deletionÀ» µµÀÔÇÏ¿© »óµ¿¼ºÀÌ
ÀÖ´Â Á¶°¢µéÀ» ¿¬°áÇÏ¿© °á°ú¸¦ º¸¿©ÁØ´Ù.
±× ÀÌ¿ÜÀÇ ¿É¼ÇÀº ±âº»ÀûÀÎ blastÀÇ
¿É¼Ç°ú µ¿ÀÏÇÏ°í ´Ù¸¥ ºÎºÐÀº ´ÙÀ½°ú °°´Ù.
Graphical Overview : °á°ú¿¡¼ ÀÔ·ÂÇÑ ¼¿°ú À¯»çÇÑ ºÎºÐÀ» ±×¸²À¸·Î Ç¥½ÃÇØ ÁÖ´Â ¿É¼ÇÀÌ´Ù.
Query Genetic Codes (blastx only) : blastx¿¡¼ translationÀ» ÇÒ ¶§ ¾î¶² genetic code¸¦ »ç¿ëÇÏ´Â °¡¸¦ ¼±ÅÃÇÒ ¼ö ÀÖ´Â ¿É¼ÇÀÌ´Ù.
BLAST2.0 °Ë»ö °á°ú·Î´Â 'bit' score¿Í Expect value¸¦ º¸¿©ÁØ´Ù. »ç¿ëÇÑ ÃøÁ¤Çà·Ä¿¡ µû¶ó °ªÀÌ ´Þ¶óÁö´Â high score¿Í´Â ´Þ¸® bit score´Â ÃøÁ¤ Çà·ÄÀÇ ¿µÇâÀ» ¹ÞÁö ¾Ê´Â´Ù. Expect value´Â Åë°èÀûÀÎ Àǹ̰¡ ÀÖÀ¸¸ç ƯÁ¤ µ¥ÀÌÅͺ£À̽º¿¡¼ ¿ì¿¬È÷ (by chance) ÇØ´ç Á¡¼ö¸¦ °¡Áö¸é¼ ¹è¿µÉ ¼ö ÀÖ´Â ¼¿µéÀÇ °¹¼ö¸¦ ÀǹÌÇÑ´Ù. ¶Ç µÎ ¼¿ »çÀÌÀÇ expect value´Â ¿ì¿¬È÷ ÇØ´ç Á¡¼ö¸¦ °¡Áö¸ç ¹è¿ÇÏ´Â È®·üÀ» ÀǹÌÇÑ´Ù. µû¶ó¼ °ªÀÌ ÀÛÀ» ¼ö·Ï ¼¿Àº ´õ Àǹ̰¡ ÀÖÀ¸¸ç °Ë»ö °á°ú ¼¿µéµµ E-value°¡ ÀÛÀº ¼ø¼´ë·Î ³ª¿ÇÑ´Ù. Expect value´Â µ¥ÀÌÅͺ£À̽ºÀÇ Å©±â¿¡ µû¶ó ¹Ù²î¸ç (µ¥ÀÌÅͺ£À̽º°¡ Ä¿Áú ¼ö·Ï ¿ì¿¬È÷ ÇØ´ç Á¡¼öÀÇ ¹è¿À» ÇÒ ¼¿ÀÇ ¼ö¸¦ ¸¹¾ÆÁü) °á°ú¸¦ ¹è¿Çϴµ¥ ±âÁØÀ¸·Î »ï±â ÁÁÀº °ªÀÌ¸ç °°Àº query·Î ´Ù¸¥ µ¥ÀÌÅͺ£À̽º °Ë»ö °á°úµéÀ» ºñ±³ÇÒ ¶§ »ç¿ëÇÒ ¼ö ÀÖ´Â °ªÀÌ´Ù.
3-7.
PSI-BLAST
¶ÇÇÑ
NCBI¿¡¼´Â PSI(Position-Specific Iterated)-BLAST¸¦ ÃÖ±Ù °³¹ßÇÏ¿© ¼ºñ½ºÇϰí ÀÖ´Ù. PSI-BLAST´Â
ÀÏ¹Ý BLASTÀÇ ±â´É¿¡ motifÀ̳ª
profileÀÇ ºñ±³ ±â´ÉÀ» Ãß°¡ÇÑ
ÇÁ·Î±×·¥ÀÌ´Ù. Áï PSI-BLAST´Â
±âº»ÀûÀÎ BLAST°Ë»öÀ» ¼öÇàÇÑ ÈÄ ±× °á°ú¸¦ ÀÌ¿ëÇÏ¿© multiple alignment¸¦ ¼öÇàÇÑ´Ù. Multiple alignment¸¦ ÅëÇØ position-specific
score matrix¸¦ Á¦ÀÛÇϰí ÀÌ matrix¸¦
ÀÌ¿ëÇÏ¿© ´Ù½Ã BLAST °Ë»öÀ» ¼öÇàÇÑ´Ù.
Áï ÀÏ¹Ý °Ë»ö°ú motif, profile°Ë»öÀ»
µ¿½Ã¿¡ ¼öÇàÇÏ°Ô µÇ´Â °ÍÀÌ´Ù. ÁøÈÀûÀ¸·Î ¸Ö¸® ¶³¾îÁ® ÀÖ´Â homolog ¼¿À»
ã´Âµ¥ À¯¸®ÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ´Ù.