3. BLAST

3-1. ¾Ë°í¸®Áò
       
BLAST´Â FASTA¿Í ¸¶Âù°¡Áö°í "Word Based Method"¸¦ ÀÌ¿ëÇÑ´Ù. ÇÏÁö¸¸ FASTA¿Í´Â ´Þ¸® º°µµÀÇ pre-formatted °Ë»ö µ¥ÀÌÅͺ£À̽º¸¦ ÇÊ¿ä·Î ÇÑ´Ù.  


          
½ÇÁ¦ À¯»ç¼º °Ë»ö °úÁ¤Àº ´ÙÀ½°ú °°´Ù.

1) ¿ì¼± °Ë»öÀ» query ¼­¿­·ÎºÎÅÍ 3°³ÀÇ ´Ü¹éÁú ȤÀº 11°³ÀÇ ¿°±â·Î ÀÌ·ç¾îÁø ´Ü¾îµé°ú T ÀÌ»óÀÇ Á¡¼ö¸¦ °¡Áö´Â Á¶ÇÕÀ» ¸¸µç´Ù.  ¸¸µé¾îÁø Á¶ÇÕµéÀ» °¢°¢ ¼­¿­ µ¥ÀÌÅͺ£À̽ºÀÇ ¼­¿­µé°ú ºñ±³ÇÑ´Ù.
2)
 ¸¸¾à °¢°¢ÀÇ ´Ü¾î Á¶ÇÕµé°ú °°Àº ¼­¿­ÀÌ ¼­¿­ database¿¡¼­ ¹ß°ßÀÌ µÇ¸é BLAST´Â ¿· ´Ü¾îµé·Î À¯»ç¼º °Ë»öÀ» È®Àå ½ÃÄÑ ³ª°£´Ù. À̶§ gapÀº Çã¿ëÇÏÁö ¾Ê´Â´Ù.
3)
 È®ÀåÀ» ¸¶Ä£ ÈÄ µ¥ÀÌÅͺ£À̽º ¼­¿­ Áß ÀÏÁ¤ °ª ÀÌ»óÀÇ HSP(High-scoring Segment Pairs)¸¦ °¡Áø ¼­¿­µéÀ» ÃßÃâÇϰí À̶§ Áߺ¹µÇÁö ¾Ê´Â °¢°¢ÀÇ HSPµéÀº Åë°èÀûÀÎ test¸¦ °ÅÃÄ ¿¬°áÇÑ´Ù.

3-2. Âü°í »çÇ×
1) BLAST¿¡¼­ ±âº»ÀûÀ¸·Î Á¦°øÇÏ´Â ¼­¿­ µ¥ÀÌÅͺ£À̽º(non-redundant, nr)¿¡´Â EST µ¥ÀÌÅͺ£À̽º°¡ Æ÷ÇԵǾî ÀÖÁö ¾Ê´Ù.
2)
 BLAST´Â query ¼­¿­°ú gap ¾øÀÌ ÀÏÁ¤ °ª ÀÌ»óÀÇ HSP¸¦ ±â·ÏÇÏÁö ¸øÇÏ´Â ¼­¿­µéÀ» ¹Ì¸® Á¦°ÅÇÑ´Ù.  ±×·¡¼­ FASTA¿¡ ºñÇØ ÈξÀ ºñ±³ ¼Óµµ°¡ ºü¸£´Ù. ÇÏÁö¸¸ µÎ ¼­¿­ÀÌ Æ¯Á¤ ºÎºÐÀÌ ³ôÀº ÀÏÄ¡¼ºÀ» °¡Áö°í ÀÖÁö´Â ¾ÊÁö¸¸ ´ëºÎºÐÀÇ ¼­¿­¿¡¼­ À¯»ç¼ºÀ» °¡Áö°í ÀÖ´Â °æ¿ì¿¡´Â BLAST°¡ °Ë»öÀ» ÇØ ³¾ ¼ö ¾ø´Ù.
3)
 ¶Ç´Ù¸¥ BLASTÀÇ ´ÜÁ¡Àº Àß º¸Á¸µÇ¾îÀÖÀ¸³ª Å« Àǹ̰¡ ¾ø´Â ¼­¿­µéÀÇ ºÎºÐ¿¡ ¹Î°¨ÇÏ´Ù´Â °ÍÀÌ´Ù.  Áï short repeat sequence³ª ƯÁ¤ÇÑ residueµéÀÌ ¸¹ÀÌ Á¸ÀçÇÏ´Â ¼­¿­ (GC ȤÀº AT rich)µéÀÌ ±× ¿¹°¡ µÉ ¼ö Àִµ¥ ÀÌ·± ¼­¿­µéÀ» query ¼­¿­·Î ÀÌ¿ëÇÏ¿´À» °æ¿ì ¸¹Àº Áß¿äÇÏÁö ¾ÊÀº ¼­¿­µéÀÌ °á°ú·Î ³ª¿À°Ô µÈ´Ù.  ÀÌ·± °á°úµéÀ» ÇÇÇϱâ À§ÇØ BLAST´Â filtering ÇÏ´Â ±â´ÉÀ» ±âº»°ªÀ¸·Î °¡Áö°í ÀÖ´Ù.  °á±¹ repeat sequence°°Àº °ÍµéÀº °Ë»öÇϱâ ÀÌÀü¿¡ Á¦°ÅµÈ´Ù´Â »ç½ÇÀ» ±â¾ïÇØ¾ß ÇÑ´Ù.
4)
 FASTA¿Í ¸¶Âù°¡Áö·Î BLASTµµ ´Ü¹éÁú ¼­¿­À» À§ÇØ °³¹ßµÈ ÇÁ·Î±×·¥ÀÌ´Ù. ¿°±â ¼­¿­ÀÇ °Ë»öÀÌ °¡´ÉÇÏÁö¸¸ sensitivity°¡ ¶³¾îÁö¹Ç·Î ¿°±â ¼­¿­·Î ¿°±â µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇØ ÁøÈ­ÀûÀ¸·Î ¶³¾îÁ®ÀÖ´Â ¼­¿­À» ã°íÀÚ ÇÑ´Ù¸é FASTA¸¦ »ç¿ëÇÏ´Â °Ô ³´´Ù.

3-3. BLASTÀÇ Á¾·ù

blastp

´Ü¹éÁú ¼­¿­°£ÀÇ ºñ±³

blastn

¿°±â ¼­¿­°£ÀÇ ºñ±³

blastx

ÀÔ·ÂÇÑ ¿°±â ¼­¿­À» 6°³ÀÇ frameÀ¸·Î º¯È¯ ÈÄ ´Ü¹éÁú ¼­¿­ µ¥ÀÌÅͺ£À̽º¿Í ºñ±³

tblastn

¿°±â¼­¿­ database¸¦ 6 frameÀ¸·Î º¯È¯ ÈÄ ÀÔ·ÂÇÑ ´Ü¹éÁú ¼­¿­°ú ºñ±³

tblastx

ÀÔ·ÂÇÑ ¿°±â ¼­¿­°ú ¿°±â¼­¿­  database¸¦ ¸ðµÎ 6 frameÀ¸·Î º¯È¯ ÈÄ ºñ±³

3-4. °Ë»ö ÆÄ¶ó¹ÌÅ͵é

-H, HISTOGRAM: °Ë»ö ÈÄ °á°ú¿¡ histogramÀ» Æ÷ÇÔ¿©ºÎ¸¦ °áÁ¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº Æ÷ÇÔÇÑ´Ù.

-V, DESCRIPTIONS: °á°ú¿¡¼­ º¸¿©ÁÖ´Â À¯»ç¼ºÀ» °¡Áø ¼­¿­µéÀÇ °¹¼ö¸¦ Á¤ÇÑ´Ù.  ±âº»°ªÀº 100°³ÀÇ À¯»ç¼ºÀ» °¡Áø ¼­¿­µé¿¡ ´ëÇÑ °£´ÜÇÑ Á¤º¸¸¦ °á°ú¿¡¼­ º¸¿©ÁØ´Ù.

-B, ALIGNMENT: °Ë»ö °á°ú ÈÄ ¹è¿­À» º¸¿©ÁÖ´Â ¼­¿­µéÀÇ °¹¼ö·Î ±âº»°ªÀº 50°³ÀÌ´Ù.

-E, EXPECT: µÎ ¼­¿­ÀÇ statistical significance threshold °ªÀÌ´Ù.  Áï ¾î´À Á¤µµ ÀÌ»óÀÇ °ªÀ» °¡Á®¾ß µÎ ¼­¿­ÀÌ À¯»çÇÏ´Ù°í Á¤ÀÇÇÒ ¼ö Àִ°¡¿¡ ´ëÇÑ °ªÀ» Á¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº 10ÀÌ´Ù.  ÀÌ °ªÀº Karlin°ú AltschulÀÇ stochastic model¿¡ ÀÇÇϸé 10°³ÀÇ ¼­¿­ÀÇ ÀÏÄ¡´Â ¿ì¿¬È÷ ÀϾ ¼ö ÀÖ´Ù°í Á¤ÀÇÇÑ´Ù..

-S, CUTOFF: high-scoring segment pairµéÀÇ cutoff¸¦ Á¤ÇÏ´Â ¿É¼ÇÀ¸·Î ±âº»°ªÀº EXPECT value·ÎºÎÅÍ °è»ê µÈ °ªÀ» ÀÌ¿ëÇÑ´Ù.

MATRIX: À¯»ç¼º °Ë»ö¿¡ ÀÌ¿ëµÇ´Â scoring matrixÀÇ Á¾·ù·Î ±âº»°ªÀº BLOSUM62ÀÌ´Ù. BLASTP, BLASTX, TBLASTN, TBLASTXÀÇ °æ¿ì ¿É¼ÇÀ¸·Î PAM40, PAM120, PAM250, IDENTITYµîÀÇ matrix¸¦ ÀÌ¿ëÇÑ´Ù.  ÇÏÁö¸¸ BLASTNÀÇ °æ¿ì¿¡´Â ´Ù¸¥ MATRIX¸¦ ¼±ÅÃÇÏ½Ç ¼ö ¾ø´Ù.

STRAND: TBLASTNÀÇ °æ¿ì¿¡´Â topȤÀº bottom strand Áß ¼±ÅÃÇÏ¿© °Ë»öÀ» ÇÒ ¼ö ÀÖ´Ù.  ±×¸®°í BLASTN, BLASTX, TBLASTXÀÇ °æ¿ì¿¡µµ quary sequenceÁß topȤÀº bottom strandÀÇ open reading frameÀ» ¼±ÅÃÇÏ¿© °Ë»öÇÒ ¼ö ÀÖ´Ù.

FILTER: Åë°èÀûÀ¸·Î´Â Áß¿äÇÑ °ªÀ»  °¡ÁöÁö¸¸ »ý¹°ÇÐÀûÀ¸·Î´Â Àǹ̰¡ ¾ø´Â ¼­¿­µéÀ» Á¦°ÅÇÏ´Â ¿É¼ÇÀÌ´Ù.  Low compositional complexity¸¦ °¡Áø ¼­¿­µéÀº Wootton°ú Federhen¿¡ ÀÇÇØ °³¹ßµÈ SEG programÀÌ ÀÌ¿ëµÇ°í internal repeatµéÀº Claverie¿Í States¿¡ ÀÇÇØ °³¹ßµÈ XNU program À» ÀÌ¿ëÇÑ´Ù.  BLASTNÀÇ °æ¿ì¿¡´Â Tatusov¿Í Lipman¿¡ ÀÇÇØ °³¹ßµÈ DUST°¡ ÀÌ¿ëµÈ´Ù.  ÀÔ·ÂÇÑ ¼­¿­ Áß ÀϺΰ¡ low complexity sequence·Î ÀνÄÀÌ µÇ¸é blast´Â ¿°±âÀÇ °æ¿ì "N"À¸·Î ´Ü¹éÁúÀÇ °æ¿ì "X"·Î Ç¥½ÃÇÑ´Ù.  ±×·¡¼­ ½ÇÁ¦ ÀÔ·ÂÀ» Á¤È®È÷ ÇßÀ½¿¡µµ ºÒ±¸ÇÏ°í °á°ú¿Í ÇÔ²² Ãâ·ÂµÇ´Â ÀÔ·Â ¼­¿­¿¡´Â "NNNNNNN"ȤÀº "XXXXXXX"°¡ Æ÷ÇԵǾî ÀÖ´Â °ÍÀ» °¡²û º¼ ¼ö ÀÖ´Ù.  ±âº»°ªÀº filteringÀ» ÇÏ´Â programµéÀ» ÀÌ¿ëÇÏ°Ô µÇ¾îÀÖ°í »ç¿ëÀÚ°¡ ¿øÇÏ´Â °æ¿ì filter¸¦ ¼±ÅÃÇÏÁö ¾ÊÀ» ¼ö ÀÖ´Ù.  FilterÀÇ ±â´ÉÀº ¿ÀÁ÷ ÀÔ·ÂÇÑ ¼­¿­¿¡ ÇÑÇØ¼­¸¸ Àû¿ëµÈ´Ù.

NCBI-gi: accession number ¿Í locus nameÀ̿ܿ¡µµ gi ¹øÈ£¸¦ °°ÀÌ º¸¿©ÁÙ ¼ö ÀÖ´Â ¿É¼ÇÀÌ´Ù.

3-5. BLASTÀÇ °á°ú ÇØ¼®
       
±âº»ÀûÀ¸·Î °á°úÀÇ ÇüÅ´ FASTAÀÇ °á°ú Ãâ·Â ÇüÅÂ¿Í À¯»çÇÏ´Ù.  °á°ú´Â P-value ¼øÀ¸·Î º¸¿©ÁØ´Ù.  ÀϹÝÀûÀ¸·Î °¡Àå Å« Àǹ̸¦ °¡Áö´Â °ªÀº P-value¿Í High scoreÀÌ´Ù. Àǹ̰¡ ÀÖ´Ù°í »ý°¢µÇ´Â ´Ü¹éÁú ¼­¿­ÀÇ °æ¿ì P-value´Â °¡´ÉÇÑ ÇÑ ÀÛ¾Æ¾ß Çϰí High score´Â Ä¿¾ß ÇÑ´Ù.  DNAÀÇ °æ¿ì ÀǹÌÀÖ´Â ¼­¿­ÀÇ P-value°¡ 0.0001º¸´Ù ÀÛ´õ¶óµµ µÎ ¼­¿­ÀÌ ¿¬°ü¿¡ ¾øÀ» °¡´É¼ºÀÌ Å©´Ù.         High scoreº¸´Ù  P-value°¡ ¼­¿­ÀÇ ±æÀÌ¿¡ ´ëÇØ ¿µÇâÀ» ¹ÞÁö ¾ÊÀ¸¹Ç·Î ÀÇ¹Ì ÀÖ´Â ¼­¿­ÀÎÁö ÆÇ´ÜÇÒ ¶§ ´õ Áß¿äÇÑ ±âÁØÀÌ µÈ´Ù.  P-value°¡ e-100º¸´Ù ÀÛÀº °æ¿ì´Â ÀϹÝÀûÀ¸·Î °°Àº Á¾ÀÇ °°Àº ¼­¿­·Î °í·ÁµÈ´Ù.  P-value°¡ e-50-e-100»çÀÌÀÏ ¶§´Â ¾ÆÁÖ À¯»çÇÑ ¼­¿­·Î °í·ÁÇÒ ¼ö ÀÖ´Ù.  P-value°¡ e-10-e-50»çÀÌÀÏ ¶§´Â ¿¬°üµÈ ¼­¿­·Î °í·ÁÇÒ ¼ö ÀÖ´Ù.  P-value°¡ 0.1-e-5»çÀÌÀÏ ¶§´Â ¿¬°ü¼ºÀ» °¡Áú °¡´É¼ºÀº ÀÖÀ¸³ª »ó´çÈ÷ ¸Õ °ü°è¸¦ °¡Áö°í ÀÖÀ» °¡´É¼ºÀÌ ÀÖ´Ù.  ÀϹÝÀûÀ¸·Î P-value°¡ 0.1º¸´Ù Å« °æ¿ì¿¡´Â Å« Àǹ̸¦ °¡Áø´Ù°í ÇÒ ¼ö ¾ø´Ù.

3-6. BLAST 2.0
       BLAST 2.0
Àº ±âÁ¸ÀÇ blast¿¡ gapÀ» µµÀÔÇÏ´Â ±â´ÉÀÌ Ãß°¡µÇ¾ú´Ù. ÀϹÝÀûÀ¸·Î blast °Ë»öÀ» ¼öÇàÇÏ¸é °á°ú°¡ ²÷¾îÁø ¸î °³ÀÇ Á¶°¢µé·Î Ãâ·ÂÀÌ µÇ´Âµ¥, blast 2.0¿¡¼­´Â gapÀ» µµÀÔÇÏ¿© FASTA¿Í °°ÀÌ insertion°ú deletionÀ» µµÀÔÇÏ¿© »óµ¿¼ºÀÌ ÀÖ´Â Á¶°¢µéÀ» ¿¬°áÇÏ¿© °á°ú¸¦ º¸¿©ÁØ´Ù. ±× ÀÌ¿ÜÀÇ ¿É¼ÇÀº ±âº»ÀûÀÎ blastÀÇ ¿É¼Ç°ú µ¿ÀÏÇÏ°í ´Ù¸¥ ºÎºÐÀº ´ÙÀ½°ú °°´Ù.

Graphical Overview : °á°ú¿¡¼­ ÀÔ·ÂÇÑ ¼­¿­°ú À¯»çÇÑ ºÎºÐÀ» ±×¸²À¸·Î Ç¥½ÃÇØ ÁÖ´Â ¿É¼ÇÀÌ´Ù.

Query Genetic Codes (blastx only) : blastx¿¡¼­ translationÀ» ÇÒ ¶§ ¾î¶² genetic code¸¦ »ç¿ëÇÏ´Â °¡¸¦ ¼±ÅÃÇÒ ¼ö ÀÖ´Â ¿É¼ÇÀÌ´Ù.

  BLAST2.0 °Ë»ö °á°ú·Î´Â 'bit' score¿Í Expect value¸¦ º¸¿©ÁØ´Ù.  »ç¿ëÇÑ ÃøÁ¤Çà·Ä¿¡ µû¶ó °ªÀÌ ´Þ¶óÁö´Â high score¿Í´Â ´Þ¸® bit score´Â ÃøÁ¤ Çà·ÄÀÇ ¿µÇâÀ» ¹ÞÁö ¾Ê´Â´Ù.  Expect value´Â Åë°èÀûÀÎ Àǹ̰¡ ÀÖÀ¸¸ç ƯÁ¤ µ¥ÀÌÅͺ£À̽º¿¡¼­ ¿ì¿¬È÷ (by chance) ÇØ´ç Á¡¼ö¸¦ °¡Áö¸é¼­ ¹è¿­µÉ ¼ö ÀÖ´Â ¼­¿­µéÀÇ °¹¼ö¸¦ ÀǹÌÇÑ´Ù.  ¶Ç µÎ ¼­¿­ »çÀÌÀÇ expect value´Â ¿ì¿¬È÷ ÇØ´ç Á¡¼ö¸¦ °¡Áö¸ç ¹è¿­ÇÏ´Â È®·üÀ» ÀǹÌÇÑ´Ù.  µû¶ó¼­ °ªÀÌ ÀÛÀ» ¼ö·Ï ¼­¿­Àº ´õ Àǹ̰¡ ÀÖÀ¸¸ç °Ë»ö °á°ú ¼­¿­µéµµ E-value°¡ ÀÛÀº ¼ø¼­´ë·Î ³ª¿­ÇÑ´Ù.  Expect value´Â µ¥ÀÌÅͺ£À̽ºÀÇ Å©±â¿¡ µû¶ó ¹Ù²î¸ç (µ¥ÀÌÅͺ£À̽º°¡ Ä¿Áú ¼ö·Ï ¿ì¿¬È÷ ÇØ´ç Á¡¼öÀÇ ¹è¿­À» ÇÒ ¼­¿­ÀÇ ¼ö¸¦ ¸¹¾ÆÁü) °á°ú¸¦ ¹è¿­Çϴµ¥ ±âÁØÀ¸·Î »ï±â ÁÁÀº °ªÀÌ¸ç °°Àº query·Î ´Ù¸¥ µ¥ÀÌÅͺ£À̽º °Ë»ö °á°úµéÀ» ºñ±³ÇÒ ¶§ »ç¿ëÇÒ ¼ö ÀÖ´Â °ªÀÌ´Ù. 

3-7. PSI-BLAST
       ¶ÇÇÑ NCBI¿¡¼­´Â PSI(Position-Specific Iterated)-BLAST¸¦ ÃÖ±Ù °³¹ßÇÏ¿© ¼­ºñ½ºÇϰí ÀÖ´Ù.  PSI-BLAST´Â ÀÏ¹Ý BLASTÀÇ ±â´É¿¡ motifÀ̳ª profileÀÇ ºñ±³ ±â´ÉÀ» Ãß°¡ÇÑ ÇÁ·Î±×·¥ÀÌ´Ù.  Áï PSI-BLAST´Â ±âº»ÀûÀÎ BLAST°Ë»öÀ» ¼öÇàÇÑ ÈÄ ±× °á°ú¸¦ ÀÌ¿ëÇÏ¿© multiple alignment¸¦ ¼öÇàÇÑ´Ù.  Multiple alignment¸¦ ÅëÇØ position-specific score matrix¸¦ Á¦ÀÛÇϰí ÀÌ matrix¸¦ ÀÌ¿ëÇÏ¿© ´Ù½Ã BLAST °Ë»öÀ» ¼öÇàÇÑ´Ù.  Áï ÀÏ¹Ý °Ë»ö°ú motif, profile°Ë»öÀ» µ¿½Ã¿¡ ¼öÇàÇÏ°Ô µÇ´Â °ÍÀÌ´Ù.  ÁøÈ­ÀûÀ¸·Î ¸Ö¸® ¶³¾îÁ® ÀÖ´Â homolog ¼­¿­À» ã´Âµ¥ À¯¸®ÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ´Ù.