Fundamentals of database searching (ÀÚ·á°Ë»öÀÇ ±âÃÊ)

(by Stephen F. Altschul)

 

»õ·Î¿î ¼­¿­µéÀ» ÀÌ¹Ì Æ¯¼ºÀÌ ¹àÇôÁø À¯ÀüÀÚ³ª ´Ü¹éÁúµé°ú ¹è¿­ÇÏ´Â °ÍÀº ±×µéÀÇ °øÅëÀûÀÎ ¼Ó¼ºÀ̳ª ÁøÈ­ÀûÀÎ ±â¿ø¿¡ °üÇÑ Áß¿äÇÑ ÅëÂûÀ» Á¦°øÇÑ´Ù. ÀÌ Àå¿¡¼­´Â ¼­¿­¹è¿­µéÀ» Æò°¡Çϴµ¥ »ç¿ëµÇ´Â Àü»ê µµ±¸µéÀÇ ±âº»¿ø¸®¿¡ ´ëÇÏ¿© ³íÀÇÇϰíÀÚ ÇÑ´Ù.

 

        È¿°úÀûÀÎ DNA ¼­¿­ºÐ¼® ¹æ¹ýÀ¸·Î ´Ü¹éÁúÀÇ ±¸Á¶³ª ±â´Éº¸´Ùµµ ±× ¾Æ¹Ì³ë»ê ¼­¿­¿¡ ´ëÇÑ Á¤º¸¸¦ ¾ò±â°¡ ÈξÀ ¼ö¿ùÇØÁ³´Ù. »óµ¿ ´Ü¹éÁúµéÀº ±× ±¸Á¶³ª ±â´ÉÀº º¯È­°¡ °ÅÀÇ ¾ø´õ¶óµµ ±× ¼­¿­µéÀº ½Ã°£ÀÌ Áö³²¿¡ µû¶ó Å©°Ô ´Þ¶óÁø´Ù. µû¶ó¼­ Ư¼ºÀÌ ¹àÇôÁöÁö ¾ÊÀº ´Ü¹éÁúÀÌ Àß ¿¬±¸µÈ ´Ü¹éÁú°ú ³ôÀº ¼­¿­»ó À¯»ç¼ºÀ» °¡Áø´Ù¸é ¸¹Àº Á¤º¸°¡ ¾ò¾îÁú ¼ö ÀÖ´Ù. À̰ÍÀÌ ¹Ù·Î DNA¿Í ´Ü¹éÁú ¼­¿­µéÀ» ºñ±³¹è¿­ÇÏ´Â ÀÌÀ¯ÀÌ´Ù. ´Ù¸¥ ¸ñÀûÀ¸·Î´Â °èÅë¼ö¸¦ À籸¼ºÇϰí À¯ÀüÀÚ³ª Á¶Àý ¿µ¿ªµéÀ» ÆÄ¾ÇÇÏ´Â °ÍÀÌ´Ù.

 

Global and local sequence alignment

        ¹è¿­Àº ¿¬°üµÈ ¼­¿­µéÀ» ºñ±³ÇÏ´Â °­·ÂÇÑ ¹æ¹ýÀ̳ª, ´Ù¸¥ ÇÑÆíÀ¸·Î´Â Â÷ÀÌÁ¡À» ã¾Æ³»´Â µ¥µµ »ç¿ëµÉ ¼ö ÀÖ´Ù. µÎ °³ÀÇ ÀܱâÀÇ ¹è¿­Àº °øÅëÀûÀÎ ÁøÈ­Àû ±â¿øÀ» ³ªÅ¸³»°Å³ª, ÁøÈ­Àû ¿ª»ç¿Í Ç×»ó ÀÏÄ¡ÇÏ´Â °ÍÀº ¾Æ´ÏÁö¸¸ °øÅëÀûÀÎ ±¸Á¶Àû ±â´ÉÀ» º¸¿©ÁÙ ¼öµµ ÀÖ´Ù. ÀÌÀå¿¡¼­´Â ÁøÈ­ÀûÀÎ °ßÇØ¸¦ ºÐ¼®ÇÏ·Á°í ÇÑ´Ù.

        ¹è¿­µéÀº ÀϹÝÀûÀ¸·Î °¡Àå °øÅëÀûÀÎ µ¹¿¬º¯À̵é (»ðÀÔ, °á½Ç, ´ÜÀÏ ÀܱâÀÇ Ä¡È¯)À» ¹¦»çÇϴµ¥ Á¦ÇѵǾî ÀÖ´Ù. »ðÀÔÀ̳ª °á½ÇÀº null characters·Î Ç¥½ÃµÈ´Ù. ġȯÀº µÎ °³ÀÇ ´Ù¸¥ ±ÛÀڷΠǥ½ÃµÈ´Ù.  ¼­¿­µéÀº ºñ±³ÀÇ ¸ñÀû¿¡ µû¶ó global ¶Ç´Â local alignment·Î ºñ±³µÉ ¼ö ÀÖ´Ù (±×¸² 1 ÂüÁ¶). Global alignment´Â ÀÔ·ÂµÈ ¼­¿­µéÀÌ ¿ÏÀüÇÑ ¹è¿­À» ÀÌ·çµµ·Ï Çϰí, local alignment´Â ±×µéÀÇ °¡Àå À¯»çÇÑ ÀýÆí¸¸À» ¹è¿­ÇÑ´Ù. »ç¿ëµÈ ¹æ¹ýµéÀº ¼­¿­µéÀÌ ±×µéÀÇ Àüü ±æÀÌ¿¡ °ÉÃÄ ¿¬°üµÇ¾î ÀÖ´ÂÁö ¶Ç´Â ´ÜÁö ±¹ÇÑµÈ ¿µ¿ª¿¡¼­¸¸ ÀÏÄ¡ÇÏ´Â Áö·Î ÃßÁ¤µÈ´Ù. ºñ·Ï global °ú local alignmentÀÇ ¾Ë°í¸®µëµéÀº À¯»çÇÏÁö¸¸ ±× °á°ú¸¦ Æò°¡Çϴµ¥ ÇÊ¿äÇÑ Åë°èÇÐÀº ¾ÆÁÖ ´Ù¸£´Ù.
 

±×¸² 1. Two protein alignments.

        (a) »ç¶÷ cytochrome c (105°³ÀÇ Àܱâ, SWISS-PROT accession number P00001)¿Í Rhodopseudomonas palustric cytochrome c2 (114 residues. accession number P00090)ÀÇ optimal global alignment. (b) »ç¶÷ cystic fibrosis transmembrane conductance regulator (1480 residues, accession No. P13569)¿Í E. coli nickel transport ATP-binding protein NIKD (253 residues, accession No. P33593)ÀÇ optimal local alignment. µÎ°¡Áö ¹è¿­¿¡ ´ëÇÑ scoreµéÀº BLOSUM62 ¾Æ¹Ì³ë»ê ġȯÇà·Ä°ú ±æÀÌ kÀÇ gapÀ» °¡Áö´Â °Í¿¡ -(11+k)ÀÇ score¸¦ Á¤ÇÏ´Â affine gap costµéÀ» »ç¿ëÇÏ¿© °è»êµÇ¾ú´Ù. µÎ°¡Áö ÀÔ·ÂµÈ ¼­¿­µéÀ» ¹è¿­¿¡ ¿ÏÀüÈ÷ Æ÷ÇÔ½Ã۱â À§Çؼ­´Â score 131À» °¡Áö´Â global alignment°¡ ¿ä±¸µÇ¸ç Needleman-Wunsch algorithmÀ» »ç¿ëÇÏ¿© ±¸¼ºµÇ¾ú´Ù. Score 89¸¦ °¡Áö´Â local alignment´Â score¸¦ ¿ë³³ÇÏ´Â ÀÔ·Â ¼­¿­ÀÇ ºÎºÐµé¸¸ÀÌ Æ÷ÇԵǸç, Smith-Waterman algorithmÀ» »ç¿ëÇÏ¿© ±¸¼ºµÇ¾ú´Ù. Áß°£¿¡ ÀÖ´Â ¼±¿¡´Â µ¿ÀÏÇÑ ¾Æ¹Ì³ë»êµé°ú À¯»çÇÑ ¾Æ¹Ì³ë»êÀ» °¡¸®Å°´Â + °¡ Ç¥½ÃµÇ¾î ÀÖ´Ù (Áï, ¾çÀÇ score¸¦ ¹Þ´Â ¹è¿­À» °¡Áö´Â ¾Æ¹Ì³ë»êµé).

 

Alignment score

        ¸¹Àº ¼öÀÇ °¡´ÉÇÑ ¹è¿­µé·ÎºÎÅÍ ¼±ÅÃÇϱâ À§ÇÑ Á¤±Ô°úÁ¤Àº À̵鿡°Ô scoreµéÀ» ºÎ¿©ÇÏ´Â °ÍÀÌ´Ù; °¡Àå ÀÚÁÖ »ç¿ëµÇ´Â ±Ô¾àÀº score°¡ ³ôÀ»¼ö·Ï ¹è¿­ÀÌ ´õ ÁÁ´Ù. ¹è¿­ score¿¡´Â ¸¹Àº °¡´ÉÇÑ Á¤ÀǵéÀÌ ÀÖ´Ù. ±×·¯³ª °¡Àå °øÅëÀûÀÎ °ÍÀº ´Ü¼øÈ÷ ¹è¿­À» ÀÌ·ç´Â °Í¿¡¼­ ¹è¿­µÈ ±ÛÀÚµéÀÇ ½Öµé¿¡ ÁÖ¾îÁø scoreµéÀ» ÇÕÇÏ´Â °ÍÀÌ´Ù. ġȯ score (substitution score)´Â ¹è¿­µÉ ¼ö ÀÖ´Â ±ÛÀÚµéÀÇ °¢ ½Ö¿¡ ´ëÇØ °ñ¶óÁø´Ù; ÀÌ·¯ÇÑ scoreµéÀÇ ¿ÏÀüÇÑ set ÀÌ Ä¡È¯ matrix ÀÌ´Ù [PAM and BLOSUM µéÀº ´Ü¹éÁú ¼­¿­ºñ±³¿¡ °¡Àå º¸ÆíÀûÀÎ °ÍÀÌ´Ù]. Ãß°¡ÀûÀ¸·Î gapµé¿¡ ´ëÇÑ scoreµéÀÌ ¼±ÅõȴÙ. À̰͵éÀº ´Ù¸¥ °ÍÀÇ ±ÛÀÚ¿Í ¹è¿­µÈ ÇÑ ¼­¿­ ³»¿¡ ÀÖ´Â Çϳª ¶Ç´Â ±× ÀÌ»ó ÀÌ¿ôÇÏ´Â nullµé·Î ±¸¼ºµÈ´Ù. ÇѹøÀÇ µ¹¿¬º¯ÀÌ´Â Çϳª ÀÌ»óÀÇ Àܱ⸦ »ðÀÔ½ÃŰ°Å³ª °á½Ç½Ãų ¼ö Àֱ⠶§¹®¿¡ ±ä gapÀº ªÀº gap º¸´Ù ¹úÁ¡ÀÌ ¾à°£¸¸ °¡ÇØÁø´Ù. µû¶ó¼­ ÇϳªÀÇ gapÀÇ Á¸Àç¿¡ ´ëÇØ ºñ±³Àû ³ôÀº ¹úÁ¡À» ºÎ°úÇÏ´Â affine gap costµé°ú ±× gapÀÌ °¡Áö´Â °¢ Àܱâµé¿¡ ´ëÇÑ º¸´Ù ÀÛÀº ¹úÁ¡ÀÌ gap scoring ½Ã½ºÅÛ¿¡¼­ °¡Àå ³Î¸® »ç¿ëµÇ°í ÀÖ´Ù.

        ¼­¿­ ºñ±³ÀÇ ½ÇÁúÀûÀÎ È¿À²Àº ÀûÀýÇÑ Ä¡È¯°ú gap scoreµéÀÇ ¼±Åÿ¡ ´Þ·ÁÀÖ´Ù. Ungapped local alignmentµé¿¡ ´ëÇØ¼­´Â ¾î´À ġȯ scoreµéÀÌ ¿ì¿¬ÇÑ À¯»ç¼ºÀ¸·ÎºÎÅÍ ÁøÂ¥ »ý¹°ÇÐÀû ¿¬°üÀ» º¸¿©ÁÖ´Â ¹è¿­µéÀ» °¡Àå Àß ±¸ºÐÇÏ´ÂÁö¸¦ ¼³¸íÇØÁÖ´Â ¿ÏÀüÇÑ ÀÌ·ÐÀÌ Á¸ÀçÇÑ´Ù. °£´ÜÈ÷ ¸»ÇØ ÁÖ¾îÁø ÀܱâµéÀÇ ½Ö i ¿Í j ÀÇ ¹è¿­¿¡ ´ëÇÑ score´Â À̵é ¦À» ÀÌ·é ÀܱâµéÀÌ ³ªÅ¸³ª´Â °æÇâÀÌ ÀÖ´Â 'true alignment' À§Ä¡µéÀÇ fraction qij ¿¡ ÀÇÁ¸ÇÑ´Ù. µû¶ó¼­ ÁÁÀº ġȯ matrixÀ» Á¤ÀÇÇÏ´Â °ÍÀº target ºóµµµé qij ¸¦ Á¤È®È÷ ÃøÁ¤ÇÏ´Â °Í¿¡ ±ÍÂøÇÑ´Ù.

        »ý°¢Çغ¸¸é, ¿ä±¸µÇ´Â target ºóµµµéÀº °ü½ÉÀÌ ÀÖ´Â °ü·ÃµÈ ¼­¿­µé »çÀÌÀÇ ÁøÈ­ÀûÀÎ ºÐ±âÀÇ Á¤µµ¿¡ ÀÇÁ¸ÇÏ´Â °ÍÀÌ ºÐ¸íÇÏ´Ù. µû¶ó¼­ ÁøÂ¥ ÇÊ¿äÇÑ °ÍÀº ÇϳªÀÇ matrix°¡ ¾Æ´Ï¶ó ÁøÈ­ÀûÀÎ ºÐ±â°¡ º¯ÇÏ´Â Á¤µµ¿¡ ¸ÂÃß¾îÁø ÀÏ·ÃÀÇ matrixµéÀÌ´Ù. À̰ÍÀÌ ¹Ù·Î PAM°ú BLOSUM °è¿­ÀÇ ¾Æ¹Ì³ë»ê ġȯ matrixµéÀ» ±¸¼ºÇϴµ¥ ¹ÙÅÁÀ» ÀÌ·ç´Â ÀνÄÀÌ´Ù. ÀÌ·¯ÇÑ matrixµéÀº ÀϹÝÀûÀ¸·Î gapped local°ú global alignment¿¡ ¼öÁ¤µÇÁö ¾ÊÀº »óÅ·Π»ç¿ëµÈ´Ù. gap costµéÀ» ¼±ÅÃÇϴµ¥ ´ëÇØ ³Î¸® Àû¿ëµÇ´Â ÀÌ·ÐÀº ¾øÀ¸¸ç, ±× ¼±ÅÃÀº trial and error¿¡ ÀÇÇØ ÀÌ·ç¾îÁø´Ù.

 

Alignment algorithms and database searches

        ¹«ÀÛÀ§ÀûÀÎ ¹è¿­ÀÇ score¸¦ Á¤ÀÇÇÏ°í ³ª¸é µÎ ¼­¿­ÀÇ ÃÖÀûÀÇ (i.e. highest scoring) ¹è¿­(µé)À» ã¾Æ¾ß¸¸ ÇÑ´Ù. ´ÙÇེ·´°Ôµµ À§¿¡¼­ ³íÀÇµÈ additive scoreµéÀÌ ÁÖ¾îÁö¸é ºñ±³Àû È¿À²ÀûÀÎ dynamic programming algorithmµéÀÇ setÀ» ÀÌ ÀÏ¿¡ ÀÌ¿ëÇÒ ¼ö ÀÖ´Ù. »ý¹°ÇÐÀû ¹®Çå¿¡ óÀ½À¸·Î ±â¼úµÈ °ÍÀº ÀüüÀûÀÎ ¹è¿­À» À§ÇÑ Needleman-Wunsch algorithmÀÌ´Ù. À̾ ¾à°£ º¯ÇüµÈ °ÍÀÌ ³ªÅ¸³µ´Âµ¥ À̰ÍÀÌ Smith-Waterman algorithmÀ¸·Î¼­ µÎ °³ÀÇ ¼­¿­ÀÇ ÃÖÀûÀÇ ±¹ºÎÀûÀÎ ¹è¿­À» ãÀ» ¼ö ÀÖ´Â °ÍÀÌ´Ù. ÀÌ µÎ°¡Áö algorithmµéÀº ºñ±³µÇ´Â ¼­¿­µéÀÇ ±æÀÌÀÇ °ö¿¡ ºñ·ÊÇÏ´Â ½Ã°£ÀÌ ÇÊ¿äÇÏ´Ù. ¿ø·¡´Â ¾î´À °Íµµ affine gap costµéÀ» ´Ù·ê ¼ö ¾ø¾úÀ¸³ª ÇöÀç´Â ¼Óµµ¿¡ ÀÖ¾î ÀûÀº constant-factor °¨¼Ò¸¦ °¡Áö°í ÀÌ ÀÏÀ» ÇÒ ¼ö ÀÖµµ·Ï ¼öÁ¤µÇ¾ú´Ù.

        DNA¿Í ´Ü¹éÁú ¼­¿­µé °£ÀÇ À¯»ç¼ºÀº ÀÚÁÖ ±¹ºÎÀûÀÎ ¿µ¿ªµé¿¡¸¸ °ÉÃÄÀֱ⠶§¹®¿¡ °¡Àå º¸ÆíÀûÀÎ À¯»ç¼º°Ë»ö ÇÁ·Î±×·¥µéÀº Smith-Waterman local alignment ¾Ë°í¸®Áò¿¡ ±âÃʸ¦ µÎ°í ÀÖ´Ù. ±×·¯³ª À̰ÍÀ» »ç¿ëÇÒ °æ¿ì´Â Ưº°ÇÑ ¸ñÀûÀ» °¡Áø Çϵå¿þ¾î³ª ¸¹Àº ¼öÀÇ º´·Ä·Î ¿¬°áµÈ ÄÄÇ»ÅͰ¡ ¾øÀÌ´Â ½Ã°£ÀÌ ³Ê¹« ´À¸®´Ù. µû¶ó¼­ FASTA (http://www2.ebi.ac.uk/fasta3/)¿Í BLAST (http://www.ncbi.nlm.nih.gov/BLAST) ÇÁ·Î±×·¥Àº °¡Àå Àß ¸ÂÀ» °Í °°Àº ¼­¿­ºÎºÐ¿¡¸¸ ÁýÁßÇÏ´Â heuristic Àü·«µéÀ» »ç¿ëÇÑ´Ù. ½Å¼ÓÇÑ exact-match °úÁ¤Àº ¿ì¼± °¡´É¼º ÀÖ´Â ¿µ¿ªµéÀ» È®ÀÎÇϰí, ±× ´ÙÀ½¿¡ Smith-WatermanÀ» ½Ç½ÃÇÑ´Ù. ÀÌ·¯ÇÑ Á¢±ÙÀº FASTA¿Í BLAST·Î ÇÏ¿©±Ý ¿ì¿¬ÇÑ À¯»ç¼ºÀ» °£°úÄÉ ÇÔÀ¸·Î½á ¿ÏÀüÇÑ S-W º¸´Ù 10-100 ¹è³ª ºü¸¥ ¿îÇàÀ» °¡´ÉÄÉ ÇÑ´Ù.

        FASTA¿Í BLASTÀÇ ¸î°¡Áö Á¶Àý °¡´ÉÇÑ º¯¼öµéÀº ±×µéÀÇ heuristics¸¦ Á¶ÀýÄÉ ÇÔÀ¸·Î½á ¼Óµµ¿Í °¨µµ »çÀÌÀÇ ±³È¯¿¡ ¿µÇâÀ» ¹ÌÄ£´Ù. ¾î¶² ¹è¿­ ÇÁ·Î±×·¥ÀÌ´øÁö ±× À¯È¿¼ºÀº ±×°ÍÀÌ Ã¤¿ëÇÏ´Â scoring system¿¡ ÀÇÁ¸ÇÑ´Ù. °¡Àå Áß¿äÇϰԴ ÁøÂ¥ »óµ¿¼º¿¡ ÇØ´çÇÏ´Â ´Ü¹éÁú À¯»ç¼ºµéÀº °ÅÀÇ ¾ðÁ¦³ª DNA À¯»ç¼ºº¸´Ù´Â ¿ì¿¬¿¡ ÀÇÇÑ °ÍÀ¸·ÎºÎÅÍ ±¸º°ÇϱⰡ ½±´Ù. µû¶ó¼­ °Ë»öÀ» ¼öÇàÇϱâ Àü¿¡ Ç×»ó  DNA´Â ¹ø¿ªµÇ¾îÁ®¾ß¸¸ ÇÑ´Ù.

 

The statistics of alignment scores

        µÎ °³ÀÇ ¼­¿­ÀÇ global ¶Ç´Â local alignmentÀÇ »ý¹°ÇÐÀû ÀûÀý¼ºÀ» ½ÃÇèÇϱâ À§Çؼ­´Â ¿ì¿¬¿¡ ÀÇÇØ ±â´ëµÇ´Â alignment score°¡ ¾ó¸¶³ª Å«Áö ¾Ë Çʿ䰡 ÀÖ´Ù. ¿©±â¼­ '¿ì¿¬ (chance)'´Â ´ÙÀ½°ú °°Àº °ÍµéÀÇ ºñ±³¸¦ ÀǹÌÇÒ ¼ö ÀÖ´Ù: (1) ÁøÂ¥À̸鼭µµ ¿¬°üÀÌ ¾ø´Â ¼­¿­µé; (2) ±¸¼º»óÀÇ Æ¯¼ºµéÀ» º¸Á¸Çϱâ À§ÇØ ¼¯¿©Áø ÁøÂ¥ ¼­¿­µé; ¶Ç´Â (3) DNA ¶Ç´Â ´Ü¹éÁú ¼­¿­¸ðµ¨¿¡ ±Ù°ÅÇÑ ¹«ÀÛÀ§ÀûÀ¸·Î »ý¼ºµÈ ¼­¿­µé.

        Global alignment scoreµéÀÇ ¹«ÀÛÀ§Àû ºÐÆ÷¿¡ ´ëÇÑ ½ÇÁ¦ÀûÀÎ °ª¿¡ °üÇØ¼­´Â ¾Ë·ÁÁø ¹Ù°¡ °ÅÀÇ ¾ø´Ù. ±×·¯ÇÑ °ªµéÀÇ Á߿伺À» Æò°¡ÇÒ ¼ö ÀÖ´Â ¸î ¾ÈµÇ´Â °Í ÁßÀÇ Çϳª´Â µ¿ÀÏÇÑ ±æÀÌÀÇ ¸¹Àº ¹«ÀÛÀ§Àû ¼­¿­µéÀÇ ¹è¿­¿¡¼­ ³ªÅ¸³ª´Â °æÇèÀûÀÎ score distributionÀ» ¸¸µå´Â °ÍÀÌ´Ù. ÀÌ ºÐÆ÷·ÎºÎÅÍ alignment score¿¡ ´ëÇÑ Z °ª (the number of standard deviations from the mean)ÀÌ ÃøÁ¤µÉ ¼ö ÀÖ´Ù. Áß¿äÇϰԴ ±× score distributionÀÌ normal À̶ó°í ÃßÁ¤µÇ¾î¼­´Â ¾ÈµÈ´Ù; ½ÇÁ¦·Î ±× ÀϹÝÀûÀÎ ÇüÅ´ ¾Ë·ÁÁöÁö ¾Ê¾Ò´Ù. µû¶ó¼­ Á¤È®ÇÑ Á߿伺ÀÇ Æò°¡´Â ÇöÀç·Î¼­´Â Z °ªÀ¸·ÎºÎÅÍ À¯µµµÉ ¼ö ¾ø´Ù.

        ´ÙÇེ·´°Ôµµ local alignment scoreµéÀÇ Åë°èÇп¡ ´ëÇØ¼­´Â ¸¹ÀÌ ¾Ë·ÁÁ® ÀÖ´Ù. Ÿ´çÇÑ ÃßÁ¤¿¡ ÀÇÇϸé ÀûÀýÇÑ ungapped local alignmentµéÀÇ random score distributionÀº extreme value distributionÀ» µû¸£´Â °ÍÀ¸·Î Áõ¸íµÉ ¼ö ÀÖ´Ù. ±×·¯ÇÑ Áõ°Å´Â gapped local alignment¿¡ ´ëÇØ¼­´Â ºÒ°¡´ÉÇϳª, Àü»ê ½ÇÇè¿¡ ÀÇÇÏ¸é µ¿ÀÏÇÑ À¯ÇüÀÇ distributionÀÌ Àû¿ëµÉ ¼ö ÀÖ´Ù°í ÇÑ´Ù. Extreme value distributionÀÇ ÇʼöÀûÀΠƯ¼ºÀº ±× right-hand tailÀº normal distribution¿¡¼­ x2¿Í´Â ¹Ý´ë·Î x¿¡¼­ Áö¼öÀûÀ¸·Î ºØ±«ÇÑ´Ù´Â °ÍÀÌ´Ù. ÀûÀýÇÑ local alignment scoreµéÀÇ normal distributionÀ» ºÎÀûÀýÇÏ°Ô ÃßÁ¤Çϸé Åë°èÇÐÀûÀÎ Á߿伺À» Áö³ªÄ¡°Ô °úÀåÇÒ ¼ö ÀÖ´Ù.

        FASTA¿Í BLAST °Ë»ö ÇÁ·Î±×·¥µéÀº ÇöÀç extreme value distribution¿¡ ±Ù°ÅÇÏ¿©  ±×µéÀÌ È¸½ÅÇÏ´Â ¹è¿­µéÀÇ Åë°èÇÐÀû Á߿伺ÀÇ Æò°¡»Ó¸¸ÀÌ ¾Æ´Ï¶ó raw scoreµéÀ» º¸°íÇÑ´Ù. °¡Àå °£´ÜÇϰԴ ÀÌ·¯ÇÑ Æò°¡µéÀº E valueµéÀÇ ÇüŸ¦ °¡Áø´Ù. ÁÖ¾îÁø ¹è¿­¿¡¼­ E value´Â °Ë»ö¼­¿­°ú °Ë»öµÈ ÀÚ·áÀÇ ±æÀÌ ¸¸ÀÌ ¾Æ´Ï¶ó ±× score¿¡µµ ÀÇÁ¸ÇÑ´Ù. À̰ÍÀº ¼øÀüÈ÷ ¿ì¿¬¿¡ ÀÇÇØ ¹ß»ýÇßÀ» ¼ö ÀÖÀ» °ÍÀ¸·Î ±â´ëµÉ ¼ö ÀÖ´Â °Í°ú µ¿µîÇÑ ¶Ç´Â ±×º¸´Ù ¿ì¿ùÇÑ score¸¦ °¡Áø ºÐ¸íÇÑ ¹è¿­µéÀÇ ¼ö¸¦ ³ªÅ¸³½´Ù. µû¶ó¼­ 5ÀÇ E value °ªÀº Åë°èÀûÀ¸·Î ¹«ÀǹÌÇϳª 0.01Àº ±×·¸Áö ¾Ê´Ù. BLAST´Â ¶ÇÇÑ bit score¸¦ º¸°íÇØÁØ´Ù. À̰ÍÀº raw scoreµéÀÇ ºñ·Ê°ªÀÌ´Ù. Bit score´Â ä¿ëµÈ scoring systemÀÇ Åë°èÀûÀÎ º¯¼öµéÀ» °í·Á¿¡ ³Ö´Â´Ù. ±×·¡¼­ ¹è¿­ÀÇ ÁúÀ» ³ªÅ¸³»´Âµ¥ ÀÖ¾î raw scoreº¸´Ù ¸¹Àº Á¤º¸¸¦ ÁØ´Ù.

 

Making regions of restricted composition

        ¸¹Àº DNA¿Í ´Ü¹éÁú ¼­¿­µéÀº ¿©·¯¹ø ¹Ý¸ñµÇ´Â ªÀº ¿ä¼ÒµéÀÇ ¸Å¿ì Á¦ÇÑµÈ ÇÙ»ê°ú ¾Æ¹Ì³ë»ê ±¸¼º°ú ¿µ¿ªµéÀÇ ¿µ¿ªµéÀ» Æ÷ÇÔÇϰí ÀÖ´Ù. Ç¥ÁØ alignment modelµé°ú scoring systemµéÀº ÀÌ·¯ÇÑ low-complexity regionµé·Î À̲ô´Â ÁøÈ­ÀûÀÎ °úÁ¤À» Àâ¾Æ³»µµ·Ï °í¾ÈµÇÁö´Â ¾Ê¾Ò´Ù. ±× °á°ú ±¸¼º»ó ÆíÇâµÈ ¿µ¿ªµéÀ» °¡Áö´Â µÎ °³ÀÇ ¼­¿­µéÀº ÀÌ·¯ÇÑ ÆíÇ⸸À» ¹Ý¿µÇÏ´Â ¸Å¿ì ³ôÀº À¯»ç¼º score¸¦ ¹ÞÀ» ¼ö ÀÖ´Ù. ¸¹Àº °æ¿ì ÀÌ·¯ÇÑ ¿µ¿ªµéÀº º°·Î Áß¿äÇÏÁö ¾ÊÀ¸¸ç ´Ù¸¥ Áß¿äÇÑ À¯»ç¼ºÀ» °¡¸± ¼ö ÀÖ´Ù. µû¶ó¼­ ÀÔ·ÂÀ̳ª ÀÚ·á ¼­¿­µé·ÎºÎÅÍÀÇ low-complexity¸¦ °Å¸£´Â ÇÁ·Î±×·¥µéÀº ºÒÇÊ¿äÇÑ ÀÚ·á°Ë»öµéÀ» À¯¿ëÇÑ °ÍÀ¸·Î ¹Ù²Ü ¼ö ÀÖ´Ù.

 

Multiple sequences

        Global°ú local pairwise ¼­¿­ºñ±³¿Í ¹è¿­Àº ´Ù¼öÀÇ ¼­¿­·Î ÀϹÝÈ­µÉ ¼ö ÀÖ´Ù. Multiple alignmentµé·ÎºÎÅÍ profileµé [hidden Markov modelµé (HMMs)¿¡ ¿¬°üµÈ]ÀÌ ÃßÃâµÇ°í À̵éÀº ÀÚ·á°Ë»ö ¹æ¹ýµéÀÇ Á¤¹Ðµµ¸¦ ÁøÈ­ÀûÀ¸·Î ¸Ö°Å³ª ¹Ì¹¦ÇÑ ¼­¿­°ü°èµé·Î ÁõÁø½Ãų ¼ö ÀÖ´Ù.