Practical database searching (½ÇÁ¦ÀûÀÎ ÀÚ·á°Ë»ö)

(By Steven E. Brenner)

 

¾î¶² ´Ù¸¥ ±â¼úº¸´Ùµµ ÀÚ·á°Ë»ö¿¡ ÀÇÇØ ´õ¸¹Àº ¼­¿­µéÀÇ Æ¯¼ºµéÀÌ ÃßÁ¤µÇ¾îÁ³´Ù. BLAST´Â ºü¸£°í ¹ÏÀ» ¸¸ÇÏÁö¸¸ ±× ¼­¿­ºñ±³ °úÁ¤Àº ½ÇÇèÀûÀÎ µðÀÚÀΰú ÇØ¼®ÀÇ °ßÁö¿¡¼­ ¸Å¿ì ÁÖÀDZí°Ô ¼öÇàµÇ¾î¾ß¸¸ ÇÑ´Ù. ÀÚ·á°Ë»öÀÇ ±âº»ÀûÀÎ ¿ä°Çµé, °Ë»ö°á°úµé¿¡ ¿µÇâÀ» ¹ÌÄ¥ ¼ö ÀÖ´Â ¿ä¼Òµé, ¸¶Áö¸·À¸·Î ±× °á°úµéÀ» ÇØ¼®ÇÏ´Â °úÁ¤µéÀÌ ¿©±â¼­ ³íÀÇµÉ °ÍÀÌ´Ù.

 

Database search experiment

        BLAST ÀÚ·á°Ë»öÀÇ µðÀÚÀÎÀº °ü½ÉÀÖ´Â ÁúÀÇ ¼­¿­¿¡ °üÇØ¼­ ¾î¶² Á¤º¸¸¦ ¾ò¾î³¾ °ÍÀΰ¡°¡ °í·ÁµÇ¾î¾ß¸¸ ÇÑ´Ù. ÁÖ Á¦¾àÀº ÀÚ·á°Ë»öÀº ´ÜÁö À¯»ç¼ºÀ» º¸¿©ÁÙ »ÓÀ̶ó´Â °ÍÀÌ´Ù. ±×·¯³ª ÀÌ À¯»ç¼ºÀ¸·ÎºÎÅÍ »óµ¿¼º (Áï ÁøÈ­Àû °ü°è)ÀÌ À¯ÃßµÉ ¼ö ÀÖ°í, À̰ÍÀ¸·ÎºÎÅÍ ±â´ÉÀ» À¯ÃßÇÒ ¼ö ÀÖ´Ù´Â °ÍÀÌ´Ù. ºñ·Ï »óµ¿¼º Ãß·ÐÀº ÁÖÀDZí°Ô ¼öÇàµÈ ¼­¿­ºñ±³¿¡¼­ ¹ÏÀ» ¸¸Çϱâ´Â ÇÏÁö¸¸ »óµ¿¼ºÀº À§ÇèÀ» ³»Æ÷Çϰí ÀÖ´Ù. Box 1Àº ¹ÏÀ» ¸¸Çϰí Á¤¹ÐÇÑ ÀÚ·á°Ë»öÀ» ¼öÇàÇÏ´Â ÁöħÀ» Á¦°øÇϰí ÀÖ´Ù.
 

Box 1. Database searching: basic consideration

¡ß Àü stepÀ» ¼÷ÁöÇ϶ó.

¡ß ÇöÀç À̿밡´ÉÇÑ °¡Àå Å« µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇ϶ó.

¡ß DNA º¸´Ù´Â proteinÀ» ºñ±³Ç϶ó.

¡ß Low-complexity ¿µ¿ªµé¿¡ ´ëÇØ query¸¦ ¿©°ú½ÃÄѶó.

¡ß ScoreµéÀ» E valueµé·Î ÇØ¼®Ç϶ó.

¡ß ´ëºÎºÐÀÇ homologµéÀº pairwise ¼­¿­ºñ±³·Î´Â ã¾ÆÁöÁö ¾Ê´Â´Ù´Â °ÍÀ» ÀνÄÇ϶ó.

¡ß ´À¸®³ª º¸´Ù °­·ÂÇÑ ¹æ¹ýµéÀ» »ç¿ëÇϰí, ¹Ýº¹ÀûÀÎ ÇÁ·Î±×·¥Àº ÁÖÀǸ¦ Ç϶ó.

        ½ÇÇèÀ» Á¦´ë·Î °èȹÇϱâ À§Çؼ­´Â Àû¿ëµÇ´Â ±â¼ú¿¡ ´ëÇÑ ÀÌÇØ°¡ ÇÊ¿äÇÏ´Ù. ±Ùº»ÀûÀ¸·Î ÀÚ·á°Ë»öÀº °£´ÜÇÑ ÀÏÀÌ´Ù: query ¼­¿­Àº µ¥ÀÌÅͺ£À̽º ¾ÈÀÇ ¼­¿­µé (targetÀ̶ó ºÒ¸²) °¢°¢°ú Áö¿ªÀûÀ¸·Î ¹è¿­µÈ´Ù. BLAST¿Í FASTA °°Àº ´ëºÎºÐÀÇ ÇÁ·Î±×·¥µé ¹è¿­°úÁ¤ÀÇ ¼Óµµ¸¦ ³ôÀ̱â À§ÇØ heuristics¸¦ »ç¿ëÇÑ´Ù. ¹Ý¸é Smith-Waterman ¾Ë°í¸®Áò (¿¹¸¦ µé¾î SSEARCH¿¡¼­¿Í °°ÀÌ ÁõÁøµÈ)Àº query ¼­¿­À» µ¥ÀÌÅͺ£À̽ºÀÇ °¢ target°ú ¾ö¹ÐÇÏ°Ô ºñ±³ÇÑ´Ù.

        °¢ ¹è¿­·ÎºÎÅÍ score°¡ °è»êµÇ°í °¡Àå ÁÁÀº score¸¦ °¡Áø query-target ½ÖµéÀÌ »ç¿ëÀÚ¿¡°Ô º¸°íµÈ´Ù. ÀüÇüÀûÀ¸·Î Åë°èÇÐÀº ÀÌ·¯ÇÑ scoreµéÀÇ ÇØ¼®À» ÁõÁø½Ãų ¼ö ÀÖµµ·Ï µ½±â À§ÇØ »ç¿ëµÈ´Ù. ÀÌ·¯ÇÑ °úÁ¤ÀÇ º¸´Ù ÀÚ¼¼ÇÑ ±â¼úÀº ¾Õ¿¡¼­ ±â¼úµÇ¾ú´Ù. BLAST°¡ ¼­¿­ºñ±³¿¡ °¡Àå ³Î¸® »ç¿ëµÇ±â´Â ÇÏÁö¸¸ ´Ù¸¥ ÇÁ·Î±×·¥µéµµ ¸¹ÀÌ ÀÖ´Ù.

 

Databases, programs and comparison types

        ½ÇÇèÀÇ Á¶Á÷È­´Â ¾î¶² À¯ÇüÀÇ ¼­¿­µéÀ» ºñ±³ÇÒ °ÍÀΰ¡¿¡ ´ëÇÑ °áÁ¤¿¡¼­ºÎÅÍ ½ÃÀ۵ȴÙ: DNA, ´Ü¹éÁú, ¶Ç´Â DNAÀ» ´Ü¹éÁú·Î. °í·ÁÇÏ´Â ¼­¿­ÀÌ ´Ü¹éÁúÀ̰ųª ´Ü¹éÁú¿¡ ´ëÇÑ code¶ó¸é °Ë»öÀº ´Ü¹éÁú ¼öÁØ¿¡¼­ ÁøÇàµÇ¾î¾ß¸¸ ÇÒ °ÍÀÌ´Ù. ¿Ö³ÄÇÏ¸é ´Ü¹éÁúµéÀº DNA º¸´Ù ÈξÀ »óµ¿¼ºÀÌ ³·Àº °Íµµ ã¾Æ³¾ ¼ö Àֱ⠶§¹®ÀÌ´Ù. ¿¹¸¦ µé¾î, DNA ºñ±³¿¡¼­´Â °¢ codon¿¡´Â »¡¸® º¯À̰¡ ÀϾ´Â 3¹øÂ° base¿Í noncoding frameµé (À̰ÍÀº DNA¸¦ ´Ü¹éÁú·Î °Ë»öÇÏ´Â µ¥¼­µµ ¹ß»ýÇÏÁö¸¸)ÀÇ ºñ±³¿¡¼­ ¹ß»ýÇÏ´Â noise°¡ Àֱ⠶§¹®ÀÌ´Ù. ±× ¿Ü¿¡µµ ¾Æ¹Ì³ë»êµéÀº µ¿Àϼº°ú ºñµ¿ÀϼºÀÇ ´Ü¼øÇÑ Àνĺ¸´Ù´Â ¾î´À Á¤µµÀÇ À¯»ç¼ºÀ» È®ÀÎÇÏ°Ô ¸¸µå´Â È­ÇÐÀûÀΠƯ¼ºÀ» °¡Áö±â ¶§¹®ÀÌ´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯µé ¶§¹®¿¡ DNA ´ë ´Ü¹éÁú ºñ±³ (blastn ÇÁ·Î±×·¥À» »ç¿ëÇÏ¿©)´Â µ¥ÀÌÅͺ£À̽º¿¡¼­ ¼­¿­ÀÇ µ¿ÀÏÇÑ ¿µ¿ªµéÀ» ã´Âµ¥¸¸ »ç¿ëÇÑ´Ù. ±×·¯ÇÑ °Ë»öÀº À¯ÀüÀÚ°¡ ÀÌ¹Ì ¹ßÇ¥µÇ¾ú´ÂÁö ¿©ºÎ¸¦ ã°í ¾îµð¿¡¼­ ¹ßÇöµÇ´ÂÁö ¶Ç´Â ¾î´À °÷¿¡ splice ¿¬Á¢ÀÌ ÀÖ´ÂÁö¸¦ °áÁ¤Çϱâ À§ÇØ »ç¿ëÇÒ °ÍÀÌ´Ù. °£´ÜÈ÷ ¸»ÇØ ´Ü¹éÁú ¼öÁØÀÇ °Ë»öµéÀº ÁøÈ­ÀûÀ¸·Î ¿¬°üµÈ À¯ÀüÀÚµéÀ» ã´Âµ¥ ÀûÀýÇϰí, ¹Ý¸é¿¡ DNA °Ë»öÀº ¼­¿­»óÀÇ °ÅÀÇ µ¿ÀÏÇÑ ¿µ¿ªµéÀ» ¾Ë¾Æ³»´Âµ¥ ÁÁ´Ù.

        ´ÙÀ½À¸·Î °Ë»öÇÒ µ¥ÀÌÅͺ£À̽º¸¦ ¼±ÅÃÇÏ´Â °ÍÀÌ Áß¿äÇÏ´Ù. »óµ¿¼º °Ë»ö¿¡¼­´Â NCBI website »ó¿¡¼­ °¡Àå ¸¹ÀÌ Ã£´Â µ¥ÀÌÅͺ£À̽º´Â nr µ¥ÀÌÅͺ£À̽ºÀÌ´Ù. nr ´Ü¹éÁú µ¥ÀÌÅͺ£À̽º´Â ¿©·¯ °¡Áö sourceµé·ÎºÎÅÍ ÀÚ·áµéÀ» ¼öÁýÇϰí, ¹Ýº¹µÇ´Â µ¿ÀÏÇÑ ¼­¿­µéÀ» Á¦°ÅÇÏ¿© ´ëºÎºÐ ¾Ë·ÁÁø ´Ü¹éÁúµéÀÇ Áý´ÜÀ» º¸¿©ÁØ´Ù. NCBI nr µ¥ÀÌÅͺ£À̽º´Â °¡´ÉÇÑ ¸¹Àº ¼­¿­µéÀ» Æ÷ÇÔ½Ã۱â À§ÇØ ÀÚÁÖ °³Á¤µÈ´Ù. ºÐ¸íÈ÷ ÇѹøÀÇ °Ë»öÀ¸·Î´Â µ¥ÀÌÅͺ£À̽º¿¡ Æ÷ÇÔµÇÁö ¾ÊÀº ¼­¿­À» ã¾Æ³»Áö ¸øÇÒ °ÍÀÌ´Ù. µ¥ÀÌÅͺ£À̽º´Â ¸Å¿ì ºü¸¥ ¼Óµµ·Î Áõ°¡Çϰí Àֱ⠶§¹®¿¡ °¡Àå ÃÖ½ÅÀÇ °ÍÀ» »ç¿ëÇØ¾ß¸¸ ÇÑ´Ù. ¿©·¯ °¡Áö ƯȭµÈ µ¥ÀÌÅͺ£À̽ºµéµµ ÀÖ´Ù. ±× °¢°¢Àº nr µ¥ÀÌÅͺ£À̽ºÀÇ ÇÏÀ§Áý´ÜÀÌ´Ù. E-value Åë°èÇÐÀº µ¥ÀÌÅͺ£À̽ºÀÇ Å©±â¿¡ ¿µÇâÀ» ¹ÞÀ¸¹Ç·Î ¾Ë·ÁÁø ±¸Á¶ÀÇ ´Ü¹éÁúµéÀ» ã´Âµ¥ Èï¹Ì°¡ ÀÖ´Ù¸é º¸´Ù ÀÛÀº pdb µ¥ÀÌÅͺ£À̽º¸¦ ã´Â °ÍÀÌ ÁÁ´Ù.

        DNA µ¥ÀÌÅͺ£À̽º¸¦ ´Ü¹éÁú ¼öÁØ¿¡¼­ °Ë»öÇϱ⸦ ¿øÇÒ ¼öµµ ÀÖ´Ù. ÇÁ·Î±×·¥Àº ÀÚµ¿À¸·Î DNA¸¦ 6°³ÀÇ reading frameÀ¸·Î ¹Ù²Ù¾î ÀÌµé °¢°¢À» ºñ±³ÇÏ´Â ¹æ¹ýÀ» »ç¿ëÇÑ´Ù. GSSs, ESTs, STSs, HTGSs¸¦ Á¦¿ÜÇÏ°í ´ëºÎºÐÀÇ ¾Ë·ÁÁø DNA ¼­¿­µéÀ» °¡Áø nr DNA µ¥ÀÌÅͺ£À̽º´Â »õ·Î¿î À¯ÀüÀÚµéÀ» ã´Âµ¥ À¯¿ëÇÏ´Ù; ÀÌ µ¥ÀÌÅͺ£À̽º¿¡¼­ È®ÀÎµÈ À¯ÀüÀÚµéÀº ÀÌ¹Ì ´Ü¹éÁú nr µ¥ÀÌÅͺ£À̽º¿¡ ÀÖÀ» °ÍÀÌ´Ù. GSS, EST, STS, HTGS µ¥ÀÌÅͺ£À̽ºµé¿¡ ´ëÇÑ °Ë»öµéÀº »õ·Î¿î »óµ¿¼º À¯ÀüÀÚµéÀ» ãÀ» ¼ö ÀÖÀ¸¸é ¹ßÇö Àڷᳪ °Ô³ð map À§Ä¡¸¦ ¾Æ´Âµ¥ ƯÈ÷ À¯¿ëÇÏ´Ù.

        Queryµé°ú µ¥ÀÌÅͺ£À̽º À¯ÇüµéÀÇ ´Ù¸¥ Á¶ÇÕ ¶§¹®¿¡ ¿©·¯ °¡Áö º¯ÇüÀÇ BLAST°¡ ÀÖ´Ù (Ç¥ 1 ÂüÁ¶). Gapped alignments¸¦ Áö¿øÇÏ´Â °¡Àå ÃÖ½ÅÀÇ BLAST ¹öÀüÀ» »ç¿ëÇÏ´Â °ÍÀÌ ¹Ù¶÷Á÷ÇÏ´Ù. ¿À·¡µÈ ¹öÀüµéÀº ´À¸®°í, ÀûÀº homologµéÀ» ã¾Æ³»¸ç ¾à°£ÀÇ Åë°èÀûÀÎ ¹®Á¦Á¡À» °¡Áö°í ÀÖ´Ù. ÀÌ ÇÁ·Î±×·¥µéÀº WWW¿¡¼­ ¿îÇàµÉ ¼ö ÀÖÀ¸¸ç ´Ù¿î·Îµå ¹Þ¾Æ¼­ »ç¿ëÇÒ ¼öµµ ÀÖ´Ù. ¶Ç´Ù¸¥ ¼±ÅÃÀº FASTA package¸¦ »ç¿ëÇÏ´Â °ÍÀÌ´Ù. FASTA ÇÁ·Î±×·¥Àº ´À¸®±â´Â ÇÏÁö¸¸ BLAST º¸´Ù È¿°úÀûÀÌ´Ù. ÀÌ package´Â ¶ÇÇÑ ¾ö¹ÐÇÑ Smith-Waterman algorithmÀ¸·Î º¸°­µÈ SSEARCH¸¦ Æ÷ÇÔÇϰí ÀÖ´Ù. PSI-BLAST¿Í °°Àº ¹Ýº¹ÀûÀÎ ÇÁ·Î±×·¥µéÀº À߸øµÈ °á°ú¸¦ ³ºÀ» ¼ö ÀÖÀ¸¹Ç·Î ¿îÇàÇϴµ¥ °¢º°ÇÑ ÁÖÀǰ¡ ÇÊ¿äÇÏ´Ù. ±×·¯³ª ¼øÀüÈ÷ pairwise ¹æ¹ýº¸´Ù´Â ´õ ¸¹Àº homologµéÀ» ãÀ» °¡´É¼ºÀÌ ÀÖ´Ù.
 

Ç¥ 1. BLAST¿¡¼­ °¡´ÉÇÑ °Ë»öµéa

program

query

database

comparison

common use

blastn

DNA

DNA

DNA level

Seek identical DNA sequences and splicing patterns

blastp

protein

protein

protein level

Find homologous proteins

blastx

DNA

protein

protein level

Analyze new DNA to find genes and seek homologous proteins

tblastn

protein

DNA

protein level

Search for genes in unannotated DNA

tblastx

DNA

DNA

protein level

Discover gene structure

a FASTA¿¡¼­µµ À¯»çÇÑ °Ë»öÀÌ ÀÌ·ç¾îÁø´Ù.

 

Filtering

        µ¥ÀÌÅͺ£À̽º °Ë»öµéÀÇ Åë°èÇÐÀº ¹«°üÇÑ ¼­¿­µéÀº ¼­·Î°£¿¡ ¿ÏÀüÈ÷ ¹«ÀÛÀ§ÀûÀÎ °ÍÀ¸·Î º»´Ù°í ÃßÁ¤ÇÑ´Ù. ±×·¯³ª ¼­¿­»óÀÇ ¾î¶² À¯ÇüµéÀº ÀÌ·¯ÇÑ ±ÔÄ¢¿¡ ¹ÝÇÑ´Ù. °¡Àå ÀϹÝÀûÀÎ ¿¹¿Ü´Â ¸î°¡Áö ´Ù¸¥ ÀܱâµéÀÌ ±æ°Ô ¿¬°áµÈ °æ¿ì (polyalanine°ú °°Àº)ÀÌ´Ù. ±×·¯ÇÑ ¿µ¿ªµéÀº ¸Å¿ì ³ôÀº match score¸¦ °¡Áú °ÍÀÌ´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯ ¶§¹®¿¡ NCBI BLAST ¼­¹ö´Â ¸¸¾à 'default filtering'À» ¼±ÅÃÇϸé SEG ÇÁ·Î±×·¥À» »ç¿ëÇÏ¿© ÀÚµ¿ÀûÀ¸·Î ´Ü¹éÁúµé¿¡¼­ ±×·¯ÇÑ ºÎºÐµéÀ» (X·Î ´ëÄ¡ÇÏ¿©) Á¦°ÅÇÑ´Ù. DNA ¼­¿­µéµµ À¯»çÇÏ°Ô DUST¿¡ ÀÇÇØ °¡·ÁÁø´Ù. ÀÌ·± ÇÁ·Î±×·¥µéÀÌ ¹®Á¦°¡ µÇ´Â matchµéÀ» ÀÚµ¿ÀûÀ¸·Î Á¦°ÅÇϱâ´Â ÇÏÁö¸¸ ¾î¶² ¹®Á¦µéÀº ºüÁ® ³ª¿Ã ¼ö ÀÖ´Ù. ´õ±º´Ù³ª ÀϺκÐÀÇ ¼­¿­ÀÌ °¡·ÁÁö¸é ºÐ¸íÇÑ hitµéÀÌ ºüÁú ¼öµµ ÀÖ´Ù. ±×·¯¹Ç·Î ´Ù¸¥ masking º¯¼öµéÀ» »ç¿ëÇÏ´Â °ÍÀÌ µµ¿òÀÌ µÉ ¼öµµ ÀÖ´Ù.

        ´Ù¸¥ Á¾·ùÀÇ filteringµµ °¡²û ¹Ù¶÷Á÷ÇÏ´Ù. ¿¹¸¦ µé¾î iterative searchµéÀº coiled coilÀ̳ª transmembrane helixµéÀ» ´àÀº ´Ü¹éÁú ¿µ¿ªµé¿¡ ÀÇÇØ ¿À¿°µÇ±â ½±´Ù. ¹®Á¦´Â ÀÌ·± ÀϹÝÀûÀΠƯ¼ºµé¿¡¼­¸¸ À¯»çÇÑ ´Ü¹éÁúÀº Ãʱ⿡ ÀÏÄ¡ÇÒÁö ¸ð¸¥´Ù´Â °ÍÀÌ´Ù. ±×·¸°Ô µÇ¸é ÀÌ·± ºÎÀûÀýÇÑ Æ¯¼ºµéÀÌ °­Á¶µÇ¾î °á±¹ ¸¹Àº À߸øµÈ hitµéÀ» ¾ß±â½ÃŲ´Ù. CysteineÀÌ ¸¹Àº ´Ü¹éÁúµéµµ ³ôÀº scoreµéÀ» ¾òÀ» ¼ö ÀÖ´Ù. ƯÈ÷ ÀÌ·± Ư¼ºµéÀÌ ¿©°úµÇÁö ¾ÊÀ¸¸é ¹è¿­ °á°úµéÀ» ÁÖÀDZí°Ô »ìÆì ºÎÁ¤È®ÇÑ match°¡ ¹ß»ýÇÏÁö ¾Êµµ·Ï Á¶½ÉÇÏ¿©¾ß ÇÑ´Ù.

 

Alignment, algorithmic and output parameters

        ¼¼°¡Áö ¼¼Æ®ÀÇ ´Ù¸¥ º¯¼öµé ¿ª½Ã °Ë»ö °á°ú¿¡ ¿µÇâÀ» ¹ÌÄ¡³ª Å« ÁÖÀǸ¦ ±â¿ïÀÏ ÇÊ¿ä´Â ¾ø´Ù. ù°, matrix¿Í gap º¯¼öµéÀº µÎ ¼­¿­»çÀÌÀÇ À¯»ç¼ºÀÌ ¾î¶»°Ô °áÁ¤µÇ´ÂÁö¸¦ °áÁ¤ÇÑ´Ù. ÇÑ ´Ü¹éÁú ³»ÀÇ µÎ °³ÀÇ ÀܱⰡ ¹è¿­µÉ ¶§, ÇÁ·Î±×·¥Àº matrix¸¦ »ç¿ëÇÏ¿© ¾Æ¹Ì³ë»êµéÀÌ À¯»çÇÑÁö (±×·¯¸é Á¡¼ö¸¦ ¹Þ´Â´Ù) ¶Ç´Â ´Ù¸¥Áö ¿©ºÎ¸¦ °áÁ¤ÇÑ´Ù. BLAST¿¡¼­ default matrix´Â BLOSUM62¶ó ºÒ¸®¸ç ÀÌ ÇÁ·Î±×·¥Àº ÇöÀç·Î¼­´Â ´Ù¸¥ matrixµé·Î´Â ½Å·ÚÇÒ ¸¸ÇÏÁö ¾Ê´Ù.  Gap º¯¼öµéÀº ÇϳªÀÇ ¹è¿­ÀÌ gapÀ» °¡Áú ¶§ ¾ó¸¶³ª °¨Á¡À» ÇÒÁö °áÁ¤ÇÑ´Ù: existence parameter´Â gapÀ» °¡Áö´Âµ¥ ´ëÇØ °íÁ¤µÈ ºñ¿ëÀ̰í per-position ºñ¿ëÀº ±æÀÌ (ÀܱâµéÀÇ ¼ö)¿¡ µû¸£´Â °ÍÀÌ´Ù. ÀüÇüÀûÀ¸·Î gapÀ» ³Ö´Âµ¥´Â Å« ºñ¿ëÀÌ µé°í ÀûÁö¸¸ Ãß°¡ÀûÀÎ ºñ¿ëÀÌ µé±â ¶§¹®¿¡ ±ä gapÀϼö·Ï ³ª»Ú´Ù. À̰͵éÀ» º¯È­½ÃÄ×À» ¶§ ¾ò´Â À̵æÀº °ÅÀÇ ¾ø´Ù.

        µÎ ¹øÂ° º¯¼öµéÀÇ ¼¼Æ®´Â BLAST°¡ »ç¿ëÇÏ´Â heuristics¸¦ °áÁ¤ÇÑ´Ù. ÀÌ·¯ÇÑ ¼ýÀÚµéÀ» º¯È­½ÃÅ´À¸·Î½á ÇÁ·Î±×·¥Àº õõÈ÷ µ¹¸é¼­ º¸´Ù ¿¹¹ÎÇØÁö°Å³ª ¶Ç´Â ´õ ¸¹Àº homologµéÀ» ÀÒ¾î¹ö¸®¸é¼­ »¡¸® µ¹ ¼ö ÀÖ´Ù. BLAST¿¡¼­ ÀÌ·¯ÇÑ º¯¼öµéÀº ¸Å¿ì º¹ÀâÇϱ⠶§¹®¿¡ ¿©±â¼­ ¿ÏÀüÈ÷ ¼³¸íÇϱⰡ °ï¶õÇÏ´Ù. ÇöÀç´Â »ç¿ëÀÚµéÀÌ ÀÌ·¯ÇÑ ¼±Åûç¾çµéÀ» default·ÎºÎÅÍ ¹Ù²Ù´Â °æ¿ì´Â ¸Å¿ì µå¹°´Ù. FASTA ÇÁ·Î±×·¥Àº ±×·¯ÇÑ º¯¼ö°¡ ÇѰ¡Áö Àִµ¥ ±×°ÍÀº ktupÀÌ´Ù. ÀÌ °ªÀÌ 1ÀÏ °æ¿ì´Â BLAST º¸´Ù ´À¸®³ª º¸´Ù Á¤¹ÐÇϰí, 2ÀÌ¸é ºü¸£³ª ´ú È¿°úÀûÀÌ´Ù.

        ¼¼ ¹øÂ° º¯¼öµéÀÇ ¼¼Æ®´Â ¾ó¸¶³ª ¸¹Àº °á°ú°¡ º¸°íµÇ´Â Áö¸¦ Á¶ÀýÇÑ´Ù. ¼³Á¤°ªÀ¸·Î ÇÁ·Î±×·¥Àº E value°¡ 10±îÁö¿¡ ÇØ´çÇÏ´Â matchµé¸¸À» º¸°íÇÑ´Ù. MatchµéÀÇ Àüü ¼ö´Â ÃÖ´ë 500À¸·Î ÇÑÁ¤µÇ¾î ÀÖÀ¸¸ç, ¹è¿­¿¡ °üÇÑ ÀÚ¼¼ÇÑ Á¤º¸´Â 100°³±îÁöÀÌ´Ù. ´õ ¸¹Àº matchµéÀ» ¾òÀ¸·Á¸é ÀÌ °ªµéÀ» Áõ°¡½ÃÄÑ¾ß ÇÑ´Ù.

 

Interpretation of results

        ¼­¿­°Ë»ö°á°úµéÀÇ ÇØ¼®Àº ¿ì¼± matchµéÀÌ »óµ¿¼ºÀ» ÀǹÌÇÒ Á¤µµ·Î ½Å·ÚÇÒ¸¸ÇÑ Áö¸¦ Æò°¡ÇÏ´Â °ÍÀÌ´Ù. À̰ÍÀ» ¼öÇàÇÏ´Â °¡Àå È¿°úÀûÀÎ ¹æ¹ýÀº Åë°èÀûÀÎ °ªÀ̳ª E valueµéÀ» »ç¿ëÇÏ´Â °ÍÀÌ´Ù. E valueµéÀº raw ¶Ç´Â bit scoreµé º¸´Ù À¯¿ëÇÏ°í ¶ÇÇÑ percentage identity º¸´Ùµµ ÈξÀ °­·ÂÇÏ´Ù. ´ÙÇེ·´°Ôµµ FASTA, SSEARCH, NCBI gapped BLAST¿¡¼­ÀÇ E valueµéÀº Á¤È®ÇØ º¸À̸ç, µû¶ó¼­ ÇØ¼®ÇϱⰡ ½±´Ù.

        ¾î¶² matchÀÇ E value´Â ¿ì¿¬È÷ ÁÖ¾îÁø score¸¦ ´Þ¼ºÇÒ ¼ö ÀÖ´Â µ¥ÀÌÅͺ£À̽º ³»ÀÇ ¿¹»óµÇ´Â ¼­¿­µéÀÇ ¼öÀÌ´Ù. µû¶ó¼­ Æò±ÕÀûÀÎ µ¥ÀÌÅͺ£À̽º °Ë»ö¿¡¼­ E value°¡ 10 ÀÌÇ϶ó¸é 10°³ÀÇ ¹«ÀÛÀ§ÀûÀÎ matchµéÀ» ã°ÔµÉ °ÍÀ¸·Î ±â´ëÇÒ ¼ö ÀÖ´Ù. ºÐ¸íÈ÷ ±×·¯ÇÑ matchµéÀº Å« Àǹ̰¡ ¾ø´Ù. ±×·¯³ª º¸´Ù ³ªÀº matchµéÀÌ ¾ø´Ù¸é ±×·¯ÇÑ score¸¦ °¡Áö´Â ¼­¿­µéµµ ±â´ÉÀ̳ª »õ·Î¿î ½ÇÇè¿¡ ´ëÇÑ ÈùÆ®¸¦ Á¦°øÇØÁÙ ¼ö ÀÖÀ» °ÍÀÌ´Ù. 0.01 º¸´Ù ³·Àº scoreµéÀº ¿ì¿¬È÷ ³ªÅ¸³¯ È®À²ÀÌ ¸Å¿ì ³·À¸¹Ç·Î ÆíÇâµÈ °ÍÀÌ ¾Æ´Ï¶ó¸é »óµ¿¼ºÀ» °¡¸®Å³ °ÍÀÌ´Ù.  ÀÌÁ¦´Â 1e-50 (1 x 10-50)¿¡ °¡±î¿î scoreµµ ÀÚÁÖ º¸ÀδÙ. À̵éÀº query ´Ü¹éÁúÀÌ µ¥ÀÌÅͺ£À̽º ³»ÀÇ ÀÏÄ¡µÈ target°ú ÁøÈ­ÀûÀ¸·Î ¿¬°üµÇ¾î ÀÖÀ½À» È®½Å½ÃÄÑ ÁØ´Ù.

        »óµ¿¼ºÀ» °¡Áø ÀÏÄ¡µÈ ¼­¿­µé·ÎºÎÅÍ ±â´ÉÀ» Ãß·ÐÇÏ´Â °ÍÀº ¹®Á¦°¡ ÀÖ´Â °úÁ¤ÀÌ´Ù. ¸¸¾à score°¡ ¸Å¿ì ÁÁ°í ¹è¿­ÀÌ µÎ °³ÀÇ ´Ü¹éÁú Àü¿ª¿¡ °ÉÃļ­ ÀϾ´Ù¸é À̵éÀº µ¿ÀÏÇϰųª °ÅÀÇ °°Àº ±â´ÉÀ» °¡Áú °¡´É¼ºÀÌ ¸Å¿ì ³ô´Ù. ±×·¯³ª ±×·¸´Ù°í ³Ê¹« ¹Ï´Â °ÍÀº À§ÇèÇÏ´Ù. »ýÈ­ÇÐÀûÀÎ ±â´ÉÀÌ º¯ÇÏÁö ¾Ê¾Ò´õ¶óµµ ±â´ÉÀº ºÐ±âÇϰí, »ý¹°Ã¼ ¶Ç´Â ¼¼Æ÷¿¡¼­ÀÇ ±â´Éµµ ¹Ù²ð ¼ö ÀÖ´Ù. ´õ±º´Ù³ª µ¥ÀÌÅͺ£À̽ºµé¿¡¼­ ±â´É¿¡ °üÇÑ ÁÖ¼®Àº ¸¹Àº °ÍÀÌ À߸øµÈ °ÍµéÀ̹ǷΠÁÖÀÇÇØ¾ß¸¸ ÇÑ´Ù. ¶Ç ´Ù¸¥ º¹ÀâÇÑ ¹®Á¦µµ ÀÖ´Ù. ¿¹¸¦ µé¾î ´Ü¹éÁúÀÇ ÀϺκи¸ ¹è¿­µÈ´Ù¸é Àüü ±â´É Áß ÇѰ¡Áö Ãø¸é¿¡¸¸ ±â¿©ÇÏ´Â µµ¸ÞÀÎÀ» °øÀ¯ÇÒÁöµµ ¸ð¸¥´Ù. ¸¹Àº °æ¿ì °¡Àå ³ôÀº scoreÀÇ hitµéÀº queryÀÇ ÀϺκп¡¸¸ ¹è¿­µÈ´Ù. ±×·¡¼­ ´Ù¸¥ ¿µ¿ªµé¿¡ÀÇ matchµéÀº ÈξÀ ³·Àº score ranking¿¡¼­ ãÀ» Çʿ䰡 ÀÖ´Ù. ÀÌ·± ÀÌÀ¯ ¶§¹®¿¡ query¿Í targetµé °¢°¢ »çÀÌÀÇ ÁßøºÎÀ§¸¦ ÁÖÀDZí°Ô »ìÆìº¸¾Æ¾ß ÇÑ´Ù.

        ´ëºÎºÐÀÇ »óµ¿¼º ¼­¿­µéÀº ³Ê¹« ºÐ±âµÇ¾î pairwise ¼­¿­ºñ±³¹æ¹ýÀ¸·Î´Â °ËÃâµÉ ¼ö ¾øÀ» Áö ¸ð¸£±â ¶§¹®¿¡ µ¥ÀÌÅͺ£À̽º °Ë»ö ¹æ¹ýµéÀº Á¦ÇѵǾî ÀÖ´Ù. µû¶ó¼­ ³ôÀº match¸¦ ãÁö ¸øÇÏ´Â °ÍÀÌ µ¥ÀÌÅͺ£À̽º¿¡ homologµéÀÌ Á¸ÀçÇÏÁö ¾Ê´Â´Ù´Â °ÍÀ» °¡¸®Å°Áö´Â ¾Ê´Â´Ù. ±×º¸´Ù´Â Á»´õ °­·ÂÇÑ Àü»ê¹æ¹ýµé (Sean Eddy¿Í Kay Hofmann¿¡ ÀÇÇØ ±â¼úµÈ ¹æ¹ý)À̳ª ½ÇÇèµéÀÌ ÇÊ¿äÇÒ Áö ¸ð¸¥´Ù.