À¯»ç¼º °Ë»ö

µ¥ÀÌÅͺ£À̽º °Ë»ö (database search)À» Á¾Á¾ »óµ¿¼º °Ë»ö (homology search)°ú À¯»ç¼º °Ë»ö (similarity search)À̶ó´Â ¸»°ú ¼¯¾î¼­ »ç¿ëÇÑ´Ù.  »óµ¿¼ºÀº µÎ°³ÀÇ ¼­¿­ÀÌ °øÅëµÈ ÁøÈ­Àû °ü°è¿¡ ÀÖ´Ù´Â °ÍÀ» ¶æÇÑ´Ù.  ¾Æ¹Ì³ë»ê ¼­¿­À̳ª ¿°±â ¼­¿­ÀÌ ºÎºÐÀûÀ¸·Î ÀÏÄ¡Çϰųª ÀüüÀûÀ¸·Î ³ôÀº À¯»ç¼ºÀ» °¡Áø´Ù°í ÇØ¼­ Ç×»ó °øÅëµÈ ½ÃÁ¶ (ancester) ¼­¿­¿¡¼­ ÁøÈ­Çß´Ù´Â °ÍÀ» Á÷Á¢ÀûÀ¸·Î ¶æÇÏ´Â °ÍÀº ¾Æ´Ï±â ¶§¹®¿¡ µ¥ÀÌÅͺ£À̽º °Ë»öÀ» À¯»ç¼º °Ë»öÀ̶ó´Â ¸»·Î ÅëÀÏÇØ »ç¿ëÇϰڴÙ.

 

µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇϴµ¥ ¾î¶² ÇÁ·Î±×·¥À» »ç¿ëÇÒ °ÍÀΰ¡¿¡ ´ëÇØ¼­´Â ³íÀïÀÇ ¿©Áö°¡ ¸¹À¸¸ç »õ·Ó°Ô °³¹ßµÈ ÇÁ·Î±×·¥µéÀÌ °è¼Ó ³ª¿À°í Àֱ⠶§¹®¿¡ ¼±ÅÃÇϴµ¥ ¾î·Á¿òÀÌ ¸¹´Ù.  »ç¿ëÇÒ ÇÁ·Î±×·¥À» ¼±ÅÃÇÑ ÈÄ¿¡µµ ÇÁ·Î±×·¥ÀÇ ÆÄ¶ó¹ÌÅÍ °ªµéÀ» ´Ù½Ã ¼±ÅÃÇØ¾ß ÇÏ°í °Ë»ö °á°úµµ ÇØ¼®ÇÒ ¼ö ÀÖ¾î¾ß ÇÑ´Ù. ÀÌ·¯ÇÑ ¹®Á¦µéÀ» ±Øº¹Çϱâ À§Çؼ­ À¯»ç¼º °Ë»öÀÇ ÇÁ·Î±×·¥ ¿ø¸®¿Í Á¾·ùÀÇ ±âº»ÀûÀÎ Áö½ÄÀ» °¡Áö´Â °ÍÀÌ ÇÊ¿äÇÏ´Ù. 


    À¯»ç¼º °Ë»öÀ» ÅëÇØ µ¥ÀÌÅͺ£À̽º¿¡¼­ À¯»ç¼º ÀÖ´Â ¼­¿­µéÀ» ã°íÀÚ ÀÔ·ÂÇÏ´Â ¼­¿­À»
query ¼­¿­À̶ó°í ÇÑ´Ù.  Query ¼­¿­·Î µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇØ º¸¸é ¼­¿­°£ÀÇ À¯»ç¼ºÀº ³·Áö¸¸ °ü·Ã¼ºÀÌ ÀÖ´Â À¯ÀüÀÚµéÀÌ °Ë»öµÇÁö ¾Ê´Â °æ¿ì (false negatives)°¡ ÀÖ´Â ¹Ý¸é À¯»ç¼ºÀÌ ³ô¾Æ °Ë»ö °á°ú¿¡ Æ÷ÇÔµÇÁö¸¸ ½ÇÁ¦ »ý¹°ÇÐÀûÀÎ Àǹ̴ ¾ø´Â ¼­¿­µé (false positives)µµ ÀÖ´Ù.  µû¶ó¼­ À¯»ç¼º °Ë»öÀº ÁøÈ­ÀûÀ¸·Î °ü°è°¡ ÀÖ´Â ¼­¿­µéÀ» ãÀ» ¼ö ÀÖ´Â sensitivity¿Í ¿ì¿¬È÷ À¯»ç¼ºÀ» °¡Áö´Â ¼­¿­µéÀº °Ë»ö °á°ú¿¡¼­ Á¦¿ÜµÉ ¼ö ÀÖ´Â selectivity¿¡ ´ëÇÑ ÀûÀýÇÑ ÀýÃæÁ¡À» °¡Á®¾ß ÇÒ °ÍÀ̸ç sensitivity¸¦ ³ô¿´À» ¶§ÀÇ °Ë»ö ½Ã°£µµ °í·ÁÇØ¾ß ÇÑ´Ù.

 

À¯»ç¼º °Ë»ö ½Ã query ¼­¿­·Î »ç¿ëÇÒ ¼ö ÀÖ´Â °ÍÀº ¿°±â³ª ¾Æ¹Ì³ë»ê ¼­¿­ÀÌ´Ù.  ÈçÈ÷ ÁøÈ­ÀûÀ¸·Î ¸Ö¸® ¶³¾îÁø ¼­¿­µéÀ» °á°ú·Î ¾ò±â À§ÇØ sensitivity¸¦ ³ôÀÌ°í ½ÍÀ¸¸é ¿°±â ¼­¿­À» ¹ø¿ªÇÑ ¾Æ¹Ì³ë»ê ¼­¿­À» query ¼­¿­·Î »ç¿ëÇÑ´Ù.  ±× ÀÌÀ¯´Â DNA ¼­¿­À» 4°³ÀÇ ¹®ÀÚ (A, G, C, T)·Î ÀÌ·ç¾îÁ® À־ 20°³ÀÇ ¾Æ¹Ì³ë»êÀ¸·Î ¼­¿­À» ÀÌ·ç´Â ´Ü¹éÁúº¸´Ù ¿ì¿¬È÷ ġȯÀÌ ÀϾ È®·üÀÌ Å©°í µÎ°³ÀÇ ¼­·Î ´Ù¸¥ ¿°±â´Â mismatch·Î¸¸ °í·ÁÇØ Á¡¼ö (score)¸¦ ±¸ÇÏÁö¸¸ µÎ°³ÀÇ ¾Æ¹Ì³ë»êÀº ¾Æ¹Ì³ë»êÀÇ ÁøÈ­Àû, ¹°¸®Àû, È­ÇÐÀû Ư¼º¿¡ µû¶ó Á¡¼ö¸¦ Â÷º°È­Çؼ­ ºÎ¿©ÇÒ ¼ö Àֱ⠶§¹®ÀÌ´Ù.  ±×¸®°í ´Ü¹éÁú µ¥ÀÌÅͺ£À̽º´Â DNA µ¥ÀÌÅͺ£À̽ºº¸´Ù ±Ô¸ð°¡ À۾Ƽ­ °°Àº Á¤µµÀÇ sensitivity¿¡¼­ false positive¸¦ ¾òÀ» °¡´É¼ºÀÌ ³·´Ù.
 

ÃʱâÀÇ À¯»ç¼º °Ë»ö µµ±¸µéÀº Needelman & Wunch (1970)¿Í Sellers (1974)¿¡ ÀÇÇØ °³¹ßµÇ¾ú´Ù.  À̵éÀº ºñ±³ÇÒ ¼­¿­µéÀÇ Àüü ±æÀÌ¿¡ ´ëÇÑ "Æ÷°ýÀûÀÎ (global)" À¯»ç¼º Á¡¼ö¸¦ °è»êÇÏ¿´´Ù.  ÀÌ·± ÇüÅÂÀÇ ¾Ë°í¸®Áò (algorithm)Àº ¾ÆÁÖ ´Ù¾çÈ­µÈ (diverged) ¼­¿­¿¡ ´ëÇØ¼­ ¹Î°¨ÇÏÁö ¾ÊÀ¸¹Ç·Î À¯»ç¼º °Ë»öº¸´Ù´Â °èÅëµµ ÀÛ¼º¿¡ »ç¿ëµÇ´Â °ÍÀÌ Àû´çÇÏ´Ù.  À¯»ç¼º °Ë»öÀ» À§ÇØ »ç¿ëµÉ ¹æ¹ýµéÀº "Áö¿ªÀûÀÎ (local)" À¯»ç¼ºÀ» °¡Áö´Â Áö¿ª¿¡ ÃÐÁ¡À» ¸ÂÃß¾î¾ß ÇÑ´Ù.  °¡Àå ±¤¹üÀ§ÇÏ°Ô »ç¿ëµÇ´Â ¾Ë°í¸®ÁòÀº Smith-Waterman (1981), BLAST (1990)°ú FASTA (1988)ÀÌ´Ù.  Smith-Waterman ¾Ë°í¸®ÁòÀº dynamic programmingÀ» ÀÌ¿ëÇÏ¿© Àüü ¼­¿­¿¡¼­ À¯»ç¼º °Ë»öÀ» ¼öÇàÇϰí, FASTA¿Í BLASTP´Â ¸ðµç °¡´ÉÇÑ ¹è¿­µéÀ» ´Ù Á¶»çÇÏÁö ¾Ê´Â heuristic ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ´Ù.  ½ÇÁ¦ °Ë»ö¿¡ À־ Smith-Waterman ¾Ë°í¸®ÁòÀÌ FASTA³ª BLASTPº¸´Ù Á¤È®ÇÑ °ÍÀ¸·Î ¾Ë·ÁÁ® ÀÖ´Ù.  ÇÏÁö¸¸ EST°°Àº ºÎºÐÀûÀÎ ¼­¿­ÀÇ °æ¿ì FASTAµµ Smith-Waterman ÀÇ °Ë»ö °á°ú¿Í °ÅÀÇ À¯»çÇÑ °á°ú¸¦ ¸¸µé¾î ³½´Ù.  BLAST´Â È¿À²ÀûÀÎ ÇÁ·Î±×·¥À¸·Î ´ëºÎºÐÀÇ °æ¿ì FASTA¿Í ºñ½ÁÇÑ °á°ú¸¦ º¸¿©ÁØ´Ù.  ÃÖ±Ù¿¡ °³¹ßµÈ BLAST2.0´Â gap filling±â´ÉÀÌ º¸°­µÇ¾î ÀÔ·ÂÇÑ ¼­¿­ Àüü¿¡¼­ÀÇ À¯»ç¼ºÀ» º¸¿©ÁÖ´Â ±â´ÉÀ» °¡Áö°í ÀÖ´Ù.

 

°¢°¢ÀÇ ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ ÇÁ·Î±×·¥¿¡ ´ëÇØ ¼Ò°³Çϱâ Àü¿¡ °Ë»öÇϴµ¥ Ç×»ó °í·ÁµÇ´Â scoring matrix¿Í gap penalty¿¡ ´ëÇÑ ÀϹÝÀûÀÎ ¼³¸íÀÌ ÇÊ¿äÇÏ´Ù.

 

I.    ÀϹÝÀûÀ¸·Î °í·ÁÇØ¾ß ÇÒ »çÇ×

1.  ÃøÁ¤ Çà·Ä (Scoring Matrix)

µÎ°³ÀÇ ¼­¿­À» ÃÖÀûÀ¸·Î ¹è¿­ÇÏ´Â °Í (optimal alignment)Àº °£´ÜÇÏÁö ¾Ê´Ù. °¡Àå Å« Á¡¼ö¸¦ °¡Áö´Â ¹è¿­ (alignment)ÀÌ »ý¹°ÇÐÀû Àǹ̸¦ °¡Áø´Ù°í ÇÒ ¶§ ¿©·¯°¡Áö ¹è¿­µéÀÇ Á¡¼ö¸¦ °è»êÇÏ´Â ¹æ¹ýÀÌ ÇÊ¿äÇÏ´Ù.

¾Æ·¡ÀÇ µÎ°³ÀÇ ¾Æ¹Ì³ë»ê ¹è¿­À» °í·ÁÇØ º¸ÀÚ.  µÎ°³ÀÇ ¹è¿­¿¡¼­ °øÅëµÇ´Â ÀܱâµéÀÇ ¼ö·Î Á¡¼ö¸¦ ¸Å±ä´Ù°í ÇÑ´Ù¸é µÎ ¹è¿­Àº 9°³ Áß¿¡ 5°³°¡ ÀÏÄ¡ÇϹǷΠ°°Àº Á¡¼öÀÏ °ÍÀÌ´Ù.

a)       TTYGAPPWCS              b)      TTYGAPPWCS

         TGYAPPPWS                       TGYAPPPWS

         *  ***  *                       *  ***  *

±×·¯³ª ¹è¿­ a)´Â »ó´ëÀûÀ¸·Î º¸ÆíÀûÀÎ Àܱâµé (A, P, S, T) ¸¸À» º¸Á¸Çϰí ÀÖÁö¸¸ ¹è¿­ b)¿¡´Â W¿Í T °°Àº ´ú º¸ÆíÀûÀÎ ÀܱâµéÀÌ º¸Á¸µÇ¾î ÀÖ´Ù.  µû¶ó¼­ ¾Æ¹Ì³ë»êµé »çÀÌ¿¡ »ý¹°ÇÐÀûÀ̳ª È­ÇÐÀû °ü°è¸¦ ¹Ý¿µÇÏ¿© Á¡¼ö¸¦ ¸Å°Ü¾ß ÇÑ´Ù.

ÃøÁ¤ Çà·Ä (Scoring matrix)Àº µÎ ¼­¿­À» ºñ±³ÇÒ ¶§ °¢°¢ÀÇ ¾Æ¹Ì³ë»êÀ̳ª ¿°±âµéÀÌ ÀÏÄ¡ ȤÀº ġȯµÉ È®·üÀ» °¢°¢ °è»êÇØ ÁÖ´Â Çà·ÄÀÌ´Ù.  ½ÇÁ¦ ¼­¿­ÀÇ ºñ±³¿¡ ÃøÁ¤ Çà·ÄÀ» ÀÌ¿ëÇϹǷΠÀÌ ÃøÁ¤ Çà·ÄÀº ¸ðµç ¼­¿­ ºÐ¼®ÀÇ ±âº»ÀÌ µÈ´Ù.  ÃøÁ¤ Çà·ÄÀÇ ¼±ÅÃÀº ºÐ¼® °á°ú¿¡ Áß´ëÇÑ ¿µÇâÀ» ³¢Ä¡±â ¶§¹®¿¡ ¼­¿­ÀÇ ÀûÀýÇÑ ºÐ¼®À» À§Çؼ­´Â ÃøÁ¤Çà·ÄÀ» ÀÌÇØÇØ¾ß ÇÒ Çʿ䰡 ÀÖ´Ù.

1-1. ¿°±â ÃøÁ¤ (nucleotide scoring)¿¡ ¾²ÀÌ´Â ÃøÁ¤ Çà·Äµé (scoring matrix)

DNA ¹è¿­¿¡ ´ëÇÑ ÃøÁ¤ Çà·ÄÀº »ó´ëÀûÀ¸·Î °£´ÜÇÏ´Ù.  ¿°±âÀÇ °æ¿ì ¼¼°¡Áö Á¤µµÀÇ matrix°¡ ÁÖ·Î »ç¿ëµÇ°í ÀÖ´Ù.

1) Identity matrix (similarity)

   A  T  C  G

A  1  0  0  0

T  0  1  0  0

C  0  0  1  0

G  0  0  0  1

2) BLAST matrix (similarity)

   A  T  C  G

A  5 -4 -4 -4

T -4  5 -4 -4

C -4 -4  5 -4

G -4 -4 -4  5

3) Transition/Transversion Matrix

   A  T  C  G

A  0  5  5  1

T  5  0  1  5

C  5  1  0  5

G  1  5  5  0

1-2. ´Ü¹éÁú ÃøÁ¤ (protein scoring)¿¡ ¾²ÀÌ´Â ÃøÁ¤ Çà·Äµé

¾Æ¹Ì³ë»êÀÇ °æ¿ì 20°³°¡ ³ª¿Ã ¼ö ÀÖ´Â È®·üÀÇ ÀüºÎÀ̹ǷΠ¾Æ¹Ì³ë»êÀÇ ÃøÁ¤ Çà·ÄÀº 20¡¿20 Çà·Ä·Î Ç¥ÇöÇÒ ¼ö ÀÖ´Ù.  ÀÌ ÃøÁ¤ Çà·ÄÀº µÎ¼­¿­ÀÇ À¯»ç¼ºÀÇ Á¤µµ¸¦ ÆÇ´ÜÇÏ´Â Áß¿äÇÑ ±âÁØÀ̹ǷΠ¾Æ¹Ì³ë»êÀÇ ÁøÈ­Àû, ¹°¸®Àû, È­ÇÐÀû ¼ºÁúÀ» °í·ÁÇÑ ¿©·¯ °³ÀÇ Çà·ÄÀÌ °³¹ßµÇ¾ú°í Áö±Ýµµ °è¼Ó °³¹ßµÇ¾îÁö°í ÀÖ´Ù.  ±× Áß ÇöÀçµµ ¾ð±ÞµÇ°í ÀÖ´Â genetic code matrix, phisical/chemical characteristics¸¦ ÀÌ¿ëÇÑ matrix¿Í ÇöÀç °¡Àå ÀϹÝÀûÀ¸·Î ¸¹ÀÌ ÀÌ¿ëµÇ´Â PAM°ú BLUSUM¿¡ °üÇØ Á»´õ ÀÚ¼¼È÷ ¼³¸íÇϰíÀÚ ÇÑ´Ù.

  1)  Genetic code Matrix: ÇÑ °³ÀÇ ¾Æ¹Ì³ë»êÀÌ ´Ù¸¥ ¾Æ¹Ì³ë»êÀ¸·Î ¹Ù²î´Âµ¥ ÇÊ¿äÇÑ ÃÖ¼ÒÇÑÀÇ ¿°±â ¼­¿­ÀÇ °³¼ö °è»ê

  2)  Physical/chemical characteristics: ¼­·Î ´Ù¸¥ µÎ ¾Æ¹Ì³ë»êÀÇ ¹°¸®Àû, È­ÇÐÀû ¼ºÁúÀÇ À¯»ç¼ºÀ» ÀÌ¿ëÇÏ¿© Á¡¼ö¸¦ ºÎ¿©ÇÑ ¹æ¹ý    ¿¹) hydrophobicity matrix

  3)  Dayhoff Mutation Data Matrix: Dayhoff µî¿¡ ÀÇÇØ °³¹ßµÈ mutation data matrix (ÀÌÇÏ MDM)Àº ÇöÀç ÀϹÝÀûÀ¸·Î °¡Àå ¸¹ÀÌ ¾²À̰í ÀÖ´Â ÃøÁ¤ Çà·Ä ÁßÀÇ ÇϳªÀÌ´Ù.  1968³â¿¡ óÀ½ ¹ßÇ¥µÇ¾úÀ» ¶§´Â ´ç½Ã¿¡ ¾Ë·ÁÁø ´Ü¹éÁú ¼­¿­µé°ú ±× ¼­¿­µé¿¡¼­ À¯ÃßµÈ ancestral ¼­¿­µé·ÎºÎÅÍ ¾òÀº 400°³ÀÇ accepted point mutationÀ» ÀÌ¿ëÇÏ¿© MDMÀÌ Á¦À۵Ǿú´Ù. ÀÌÈÄ ¿©·¯ °³Ã¼µéÀÇ ¼­¿­µéÀÌ ¹àÇôÁü¿¡ µû¶ó MDMÀº °è¼Ó È®ÀåµÇ¾î 1980³â¿¡´Â 71°³ÀÇ ¿¬°üµÈ group (¼­¿­ÀÌ 85%ÀÌ»ó µ¿ÀÏÇÑ group)µé·ÎºÎÅÍ ¾òÀº 1600°³ÀÇ accepted point mutationµéÀ» ±Ù°Å·Î MDMÀÌ Á¦À۵Ǿú´Ù.  

          ´Ü¹éÁú ¼­¿­ÀÇ mutation¿¡ °üÇÑ Dayhoff modelÀº ´Ü¹éÁú ġȯ¿¡ °üÇÑ Markovian ¸ðµ¨ (model)À» ±Ù°Å·Î ÇÑ´Ù.  Markovian ¸ðµ¨Àº ÇÑ ´Ü¹éÁú ³»¿¡¼­ÀÇ ¾î¶² ƯÁ¤ À§Ä¡ÀÇ mutationÀº ´Ù¸¥ À§Ä¡ÀÇ mutation°ú ¹«°üÇÏ´Ù´Â °ÍÀ» ÀüÁ¦·Î ÇÑ´Ù.  

          Markovian ¸ðµ¨ ³»¿¡¼­ MDMÀº ÇÑ ´ÜÀ§ÀÇ ÁøÈ­Àû º¯È­(one unit of evolutionary change) µ¿¾È ¾Æ¹Ì³ë»ê A°¡ ¾Æ¹Ì³ë»ê B·Î ġȯµÉ È®·üÀ» °è»êÇÑ transition probability matrix·ÎºÎÅÍ À¯µµµÈ´Ù.  Çà·ÄÀÇ ´ë°¢¼±ÀÇ °ªµéÀº °¢°¢ÀÇ ¾Æ¹Ì³ë»êÀÌ º¯ÇÏÁö ¾ÊÀ» È®·üÀ» ³ªÅ¸³½´Ù.  Áï ´ë°¢¼±¿¡ À§Ä¡ÇÑ °ªµéÀÇ ÇÕÀº ÁÖ¾îÁø ÁøÈ­ ±â°£(represented evolutionary interval)µ¿¾È amino acid°¡ º¯ÇÏÁö ¾ÊÀ» È®·üÀ» ³ªÅ¸³»°Ô µÈ´Ù.  Dayhoff derivation¿¡¼­´Â ´ë°¢¼±ÀÇ °ªµéÀÇ ÇÕÀÌ 99%°¡ µÇ°Ô probability matrix¸¦ Á¶Á¤ÇÏ¿´´Ù.  ±×·¯¹Ç·Î probability matrix¿¡¼­ÀÇ ÁøÈ­ ´ÜÀ§(unit of evolution)´Â 100°³ÀÇ siteÁß 1°³ÀÇ site¿¡¼­ accepted amino acid substitutionÀÌ ÀϾ È®·ü¿¡ ÇØ´çÇÑ´Ù. (1 PAM unit). ÁøÈ­ ´ÜÀ§¿¡´Â ½Ã°£Àû °³³äÀÌ ÀüÇô °í·ÁµÇ°í ÀÖÁö ¾ÊÀ½À» À¯ÀÇÇØ¾ß ÇÑ´Ù.  

          MDMÀÇ Áß¿äÇÑ ´ÜÁ¡Àº ´Ü¹éÁúÀÇ °¢ site¿¡¼­ mutationÀÌ ÀϾ È®·üÀº ÀÏÁ¤ÇÏÁö ¾Ê´Ù´Â °ÍÀÌ´Ù.  Çö´ë ºÐÀÚ »ý¹°Çп¡ À־ ´Ü¹éÁú ³»¿¡¼­ °¢ site¿¡ µû¶ó mutationÀÌ ÀϾ È®·üÀº ´Ù¸£´Ù´Â »ç½ÇÀº Àß ¾Ë·ÁÁ® ÀÖ´Ù.  ±×·¯¹Ç·Î °¢ site¿¡¼­ÀÇ mutationÀÇ È®·üÀ» µ¿ÀÏÇÏ°Ô °í·ÁÇÑ DayhoffÀÇ ¸ðµ¨Àº ÇѰ踦 °¡Áö°í ÀÖ´Ù.

 

  4)  BLOSUM (BLOks SUbstitution Matrix):1991³â¿¡ Altschul µî¿¡ ÀÇÇØ ¹ßÇ¥µÈ BLOSUMÀº ÇöÀç BLASTµîÀÇ °Ë»ö¿¡ Á¦°øµÇ¸ç PAM°ú ÇÔ²² °¡Àå ¸¹ÀÌ ¾²À̴ ġȯ Çà·ÄÀÇ ÇÑ Á¾·ùÀÌ´Ù.  BLOSUMÀº Block database·ÎºÎÅÍ °³¹ßµÈ °ÍÀ¸·Î, Block µ¥ÀÌÅͺ£À̽º´Â ¾Æ¹Ì³ë»ê ¼­¿­ Áß ´Ù¸¥ ºÎºÐ¿¡ ºñÇØ ±²ÀåÈ÷ º¸Á¸µÈ (conserved) ºÎºÐ¸¸À» ¸ð¾Æ ¸¸µç µ¥ÀÌÅͺ£À̽ºÀÌ´Ù.  ÀÌÁß ÀϺδ ¾î¶² ±â´ÉÀ» °¡Áø motif·Î ¾Ë·ÁÁ® ÀÖ´Ù.  

                 PAMÀÌ ¿¬°üµÈ ¼­¿­µé°ú À¯ÃßµÈ ¼­¿­·ÎºÎÅÍ Ä¡È¯ È®·üÀ» ±¸ÇÏ´Â ¹Ý¸é BLOSUMÀº block³»¿¡¼­ ¾Æ¹Ì³ë»êµéÀ» ¹è¿­ÇÑ ÈÄ °¢°¢ÀÇ ¾Æ¹Ì³ë»êµéÀÌ Â¦(pair)À» ÀÌ·ç´Â È®·üÀ» °üÂûÇØ¼­ ġȯ È®·üÀ» ±¸ÇÑ °ÍÀÌ´Ù. 

                 ¿¬¼ÓÀûÀΠġȯ Çà·ÄÀ» ¸¸µé±â À§ÇØ ¼­¿­µéÀ» °¢°¢ÀÇ block¿¡ clusteringÀ» ½Ã۰í clustering percentage´Â °¢°¢ÀÇ groupµé¿¡ Æ÷ÇÔ½Ã۱â À§ÇÑ ¼­¿­µéÀÇ ÃÖ¼ÒÇÑÀÇ ÀÏÄ¡¼º (identity)À¸·Î Á¤ÀÇÇÑ´Ù.  ¿¹¸¦ µé¸é clustering percentage°¡ 35%¶ó¸é ÀÓÀÇÀÇ ¼­¿­ A¿Í B¸¦ ¹è¿­½ÃÄ×À» ¶§ Àû¾îµµ 35% ÀÌ»óÀÇ identity¸¦ °¡Áö°í ÀÖÀ» ¶§ °°Àº group¿¡ Æ÷ÇÔ½Ã۰í BLOSUM35·Î Á¤ÀÇÇÑ´Ù.  ¶ÇÇÑ ÀÓÀÇÀÇ ¼­¿­ C°¡ A¿Í B µÑ Áß Çϳª¿Í 35 % ÀÌ»óÀÇ identity¸¦ °¡Áú °æ¿ì¿¡ ¶ÇÇÑ °°Àº group¿¡ Æ÷ÇÔ ½ÃŲ´Ù.  °¢°¢ÀÇ ¹è¿­µÈ ¾Æ¹Ì³ë»ê ¼­¿­µéÀÇ pairµéÀÇ °¹¼ö¸¦ ¼¾ ÈÄ ¼­¿­ A,B,C°¡ °¢°¢ Â÷ÁöÇÏ´Â ºñÁßÀ» Æò±ÕÇÏ¿© ÃøÁ¤ Çà·Ä °ªµéÀ» ±¸ÇÑ´Ù.

2.   Gap penalties

Gap penalty´Â »ðÀÔ È¤Àº »èÁ¦¿¡ ÀÇÇØ »ý±â´Â gap¿¡ ¾ó¸¶ÀÇ °¨Á¡ (penalty)¸¦ ÁÙ °ÍÀΰ¡¸¦ Á¤ÇÏ´Â °ÍÀÌ´Ù.  ÇöÀçÀÇ Åë°èÀû °è»êÀ¸·Î´Â gap penalty¸¦ ¾ó¸¶¸¦ ÁÙ °ÍÀΰ¡¿¡ ´ëÇÑ Á¤È®ÇÑ ÇØ´äÀº ¾øÁö¸¸ ¿©·¯°¡Áö ½ÇÇèÀû »ç½ÇÀ» ÅëÇØ -10, -2¿¡¼­ -14, -4 Á¤µµ°¡ Àû´çÇÏ´Ù°í ÇÑ´Ù.  ù ¹øÂ° °ªÀº gapÀÌ Ã³À½ »ý±æ ¶§ ÁÖ´Â °¨Á¡À̰í, µÎ ¹øÂ° °ªÀº ±× ´ÙÀ½¿¡ »ý±â´Â ¿¬¼ÓÀûÀÎ gap¿¡ ´ëÇÑ °¨Á¡ÀÌ´Ù.  ¿¹¸¦ µé¸é µÎ °³ÀÇ ¼­¿­ »çÀÌ¿¡ 4°³ÀÇ gapÀÌ ÀÖ°í, -10, -2ÀÇ °ªÀ» Àû¿ëÇϸé Àüü gap penalty´Â -10+3¡¿(-2) = -16ÀÌ µÈ´Ù.  ÀÌ·¸°Ô ´Ù¸¥ °ªÀ» Àû¿ëÇÏ´Â ÀÌÀ¯´Â ÁøÈ­»ó¿¡¼­ óÀ½ gapÀÌ »ý±â±â´Â ÈûµéÁö¸¸ ±× ÀÌÈÄ ¿¬¼ÓÀûÀ¸·Î »ý±â´Â gapÀº óÀ½¿¡ ºñÇØ ½±°Ô »ý±æ ¼ö Àֱ⠶§¹®ÀÌ´Ù.  Å« gap penalty (¿¹¸¦ µé¸é -14, -4)´Â partial sequence (EST °°Àº)ÀÇ ºñ±³¿¡ Àû´çÇÏ´Ù.  »ç¿ëÀÚ´Â gap penalty¸¦ Á¶Á¤ÇÔÀ¸·Î½á sensitivity¸¦ Á¶Àý ÇÒ ¼ö ÀÖ´Ù.  ¿¹¸¦ µé¸é FASTA °Ë»ö¿¡¼­ expectation value°¡ 0.2 ÀÌÇÏ·Î ¿¬°ü¼ºÀÌ °ÅÀÇ ¾ø´Â ¼­¿­µéÀÌ °á°ú·Î Ãâ·ÂµÇ¾úÀ» ¶§ gap penaltyÀÇ °ªÀ» ¿Ã¸²À¸·Î¼­ ÀÌ·± ¼­¿­µéÀ» Á¦°Å ÇØ ³ª°¥ ¼ö ÀÖ´Ù.

 

II. ÇÁ·Î±×·¥

1.  Smith-Waterman ¾Ë°í¸®Áò

Smith-Waterman ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ À¯»ç¼º °Ë»öÀº ¾Õ¿¡¼­µµ ¾ð±ÞÇßµíÀÌ FASTA¿Í BLAST¿¡ ºñÇØ Á»´õ ¹Î°¨ÇÑ (sensitive) °Ë»ö °á°ú¸¦ ¾òÀ» ¼ö ÀÖÁö¸¸ °Ë»öÇϴµ¥ ½Ã°£ÀÌ ¿À·¡ °É¸°´Ù.

2.  FASTA

FASTA´Â ÀÓÀÇÀÇ ¼­¿­°ú À¯»ç¼ºÀ» °¡Áø ¼­¿­À» ¼­¿­ µ¥ÀÌÅͺ£À̽º·ÎºÎÅÍ Ã£´Â ÇÁ·Î±×·¥ÀÌ´Ù.  FASTA´Â ´Ü¹éÁú ¼­¿­°£ÀÇ ºñ±³¸¦ À§ÇØ Á¦À۵ǾúÁö¸¸ ¿°±â ¼­¿­°£ÀÇ ºñ±³µµ °¡´ÉÇÏ´Ù.  Æ¯È÷ TFASTAÀÇ °æ¿ì ÀÔ·ÂÇÑ ´Ü¹éÁú ¼­¿­°ú ¿°±â ¼­¿­ µ¥ÀÌÅͺ£À̽º °£ÀÇ ºñ±³µµ °¡´ÉÇÏ´Ù.  Áï ¿°±â ¼­¿­ µ¥ÀÌÅͺ£À̽º¸¦ 6 frameÀ¸·Î translationÇÏ¿© ÀÔ·ÂÇÑ ´Ü¹éÁú ¼­¿­°ú ºñ±³Çϴµ¥ ÀÌ ±â´ÉÀº ÀÓÀÇÀÇ ´Ü¹éÁú ¼­¿­°ú EST µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇϴµ¥ ÁÁÀº ¹æ¹ýÀ¸·Î ¾Ë·ÁÁ® ÀÖ´Ù.   

3.  BLAST

BLAST(Basic Local Alignment Search Tool)Àº NCBI/GenBank¿¡¼­ °³¹ßµÈ À¯»ç¼º °Ë»ö ÇÁ·Î±×·¥ÀÌ´Ù.
 

III. ¿ä¾à
        
°Ë»öÀÇ ±âº»Àû »çÇ×ÀÎ ÃøÁ¤ Çà·Ä·Î ÁÖ·Î PAM40, PAM120, PAM250°ú BLOSUM50, BLOSUM62¸¦ »ç¿ëÇÑ´Ù.  ÇÏÁö¸¸ PAMº¸´Ù´Â BLOSUMÀÌ ´õ ÁÁÀº °Ë»ö °á°ú¸¦ Á¦°øÇÑ´Ù°í ¾Ë·ÁÁ³´Ù.
        Gap penalty
´Â »ðÀÔ È¤Àº »èÁ¦¿¡ ÀÇÇØ »ý±â´Â gap¿¡ ¾ó¸¶ÀÇ °¨Á¡ (penalty) À» ÁÙ °ÍÀΰ¡¸¦ Á¤ÇÏ´Â °ÍÀÌ´Ù.  ÇöÀçÀÇ Åë°èÀû °è»êÀ¸·Î´Â gap penalty¸¦ ¾ó¸¶¸¦ ÁÙ °ÍÀΰ¡¿¡ ´ëÇÑ Á¤È®ÇÑ ÇØ´äÀº ¾ø´Ù.  ÇÏÁö¸¸ gap penalty¸¦ µÑ ´Ù Å©°Ô Çϸé EST °°Àº ºÎºÐÀûÀÎ ¼­¿­ °Ë»öÇÒ ¶§³ª ¾ÆÁÖ °¡±õ°Ô °ü·ÃµÈ ´Ü¹éÁú ¼­¿­¿¡ ´ëÇÑ ÃÖÀûÈ­ ¹è¿­À» Çϴµ¥ À¯¿ëÇÏ´Ù.  ¶Ç gapÀÌ Ã³À½ »ý±æ ¶§ÀÇ °¨Á¡ ¸¸À» Å©°Ô Áشٸé domainÀÌ Àüü »ðÀԵǾúÀ» »óȲ¿¡ ´ëÇØ À¯¿ëÇϰí, gapÀ» È®ÀåÇØ ³ª°¥ ¶§ ÁÖ´Â °¨Á¡ ¸¸À» Å©°Ô Áشٸé ÁøÈ­ÀûÀ¸·Î ¸Ö¸® ¶³¾îÁø ´Ü¹éÁú °Ë»ö¿¡ À¯¿ëÇÏ´Ù.
        
À¯»ç¼º °Ë»ö¿¡ »ç¿ëÇÒ ¼ö ÀÖ´Â ÇÁ·Î±×·¥Àº ´ë°³ ºÎºÐ À¯»ç¼º °ªÀ» ºñ±³ÇÏ´Â °ÍÀ¸·Î, ºÎºÐ °Ë»öÀÌ ¼­¿­ÀÇ ÀϺκÐÀÌ Æ÷ÇÔÇϰí ÀÖ´Â »óµ¿ÇÑ domain À» °Ë»öÇÒ ¼ö ÀÖ°í partial sequence °Ë»öÀÌ ¿ëÀÌÇÏ´Ù´Â ÀåÁ¡À» °¡Áø´Ù.
        
½ÇÁ¦ °Ë»ö¿¡ ÀÖ¾î EST °°Àº partial length sequenceÀÇ °æ¿ì FASTAµµ Smith-WatermanÀÇ °Ë»ö °á°ú¿Í °ÅÀÇ À¯»çÇÑ °á°ú¸¦ ¸¸µé¾î ³½´Ù.  FASTA´Â sensitivity¸¦ ³ôÀ̱â À§ÇØ ktupÀ» Á¶ÀýÇϴµ¥ ktup=2ÀÏ ¶§º¸´Ù ktup=1ÀÏ ¶§ ÈξÀ ÁÁÀº °á°ú¸¦ ¾òÀ» ¼ö ÀÖ´Ù.
        Smith-Waterman
¾Ë°í¸®ÁòÀº FASTA³ª Blast¿¡ ºñÇØ ÈξÀ sensitiveÇϹǷΠFASTA ³ª Blast °Ë»ö °á°ú°¡ ¸¸Á·½º·´Áö ¾ÊÀ» ¶§ »ç¿ëÇÑ´Ù¸é ¿øÇÏ´Â °á°ú¸¦ ¾òÀ» ¼ö ÀÖÀ» °ÍÀÌ´Ù.
        BLAST
°Ë»öÀº °Ë»ö ¼Óµµ´Â »¡¶ó¼­ °á°ú¸¦ ½Å¼ÓÇÏ°Ô º¸¿©ÁÖÁö¸¸ gapÀ» Çã¿ëÇÏÁö ¾Ê¾Ò±â ¶§¹®¿¡ ³õÄ¡´Â ¼­¿­µéÀÌ ¸¹¾Ò´Ù.  ÇÏÁö¸¸ ÃÖ±Ù¿¡ gapÀ» Çã¿ëÇÏ´Â BLAST2.0ÀÌ °³¹ßµÇ¾ú°í PSI-BLAST°¡ motif °Ë»öÀ» ¼öÇàÇÏ°Ô µÇ¾î ÁøÈ­ÀûÀ¸·Î ¸Ö¸® ¶³¾îÁ® ÀÖ´Â »óµ¿¼º ÀÖ´Â ¼­¿­À» ½±°Ô ãÀ» ¼ö ÀÖ°Ô µÇ¾ú´Ù.
        
ÀÌ»ó°ú °°Àº ³»¿ëµéÀº Àû¿ëÇØ¼­ ÃøÁ¤ Çà·Ä°ú gap penalty¸¦ Á¶ÀýÇϰí ÇÁ·Î±×·¥À» ¼±ÅÃÇÑ´Ù¸é ¿øÇÏ´Â °Ë»ö °á°ú¸¦ ºñ±³Àû ¼Õ½±°Ô ¾òÀ» ¼ö ÀÖÀ» °ÍÀ̶ó°í »ý°¢µÈ´Ù.