µ¥ÀÌÅͺ£À̽º °Ë»ö (database search)À» Á¾Á¾ »óµ¿¼º °Ë»ö (homology search)°ú À¯»ç¼º °Ë»ö (similarity search)À̶ó´Â ¸»°ú ¼¯¾î¼ »ç¿ëÇÑ´Ù. »óµ¿¼ºÀº µÎ°³ÀÇ ¼¿ÀÌ °øÅëµÈ ÁøÈÀû °ü°è¿¡ ÀÖ´Ù´Â °ÍÀ» ¶æÇÑ´Ù. ¾Æ¹Ì³ë»ê ¼¿À̳ª ¿°±â ¼¿ÀÌ ºÎºÐÀûÀ¸·Î ÀÏÄ¡Çϰųª ÀüüÀûÀ¸·Î ³ôÀº À¯»ç¼ºÀ» °¡Áø´Ù°í ÇØ¼ Ç×»ó °øÅëµÈ ½ÃÁ¶ (ancester) ¼¿¿¡¼ ÁøÈÇß´Ù´Â °ÍÀ» Á÷Á¢ÀûÀ¸·Î ¶æÇÏ´Â °ÍÀº ¾Æ´Ï±â ¶§¹®¿¡ µ¥ÀÌÅͺ£À̽º °Ë»öÀ» À¯»ç¼º °Ë»öÀ̶ó´Â ¸»·Î ÅëÀÏÇØ »ç¿ëÇϰڴÙ.
µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇϴµ¥ ¾î¶² ÇÁ·Î±×·¥À» »ç¿ëÇÒ °ÍÀΰ¡¿¡ ´ëÇØ¼´Â ³íÀïÀÇ ¿©Áö°¡ ¸¹À¸¸ç »õ·Ó°Ô °³¹ßµÈ ÇÁ·Î±×·¥µéÀÌ °è¼Ó ³ª¿À°í Àֱ⠶§¹®¿¡ ¼±ÅÃÇϴµ¥ ¾î·Á¿òÀÌ ¸¹´Ù. »ç¿ëÇÒ ÇÁ·Î±×·¥À» ¼±ÅÃÇÑ ÈÄ¿¡µµ ÇÁ·Î±×·¥ÀÇ ÆÄ¶ó¹ÌÅÍ °ªµéÀ» ´Ù½Ã ¼±ÅÃÇØ¾ß ÇÏ°í °Ë»ö °á°úµµ ÇØ¼®ÇÒ ¼ö ÀÖ¾î¾ß ÇÑ´Ù. ÀÌ·¯ÇÑ ¹®Á¦µéÀ» ±Øº¹Çϱâ À§Çؼ À¯»ç¼º °Ë»öÀÇ ÇÁ·Î±×·¥ ¿ø¸®¿Í Á¾·ùÀÇ ±âº»ÀûÀÎ Áö½ÄÀ» °¡Áö´Â °ÍÀÌ ÇÊ¿äÇÏ´Ù.
À¯»ç¼º °Ë»öÀ» ÅëÇØ µ¥ÀÌÅͺ£À̽º¿¡¼ À¯»ç¼º ÀÖ´Â ¼¿µéÀ»
ã°íÀÚ ÀÔ·ÂÇÏ´Â ¼¿À» query ¼¿À̶ó°í ÇÑ´Ù.
Query ¼¿·Î µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇØ º¸¸é ¼¿°£ÀÇ À¯»ç¼ºÀº ³·Áö¸¸ °ü·Ã¼ºÀÌ
ÀÖ´Â À¯ÀüÀÚµéÀÌ °Ë»öµÇÁö ¾Ê´Â °æ¿ì
(false negatives)°¡ ÀÖ´Â ¹Ý¸é
À¯»ç¼ºÀÌ ³ô¾Æ °Ë»ö °á°ú¿¡ Æ÷ÇÔµÇÁö¸¸ ½ÇÁ¦ »ý¹°ÇÐÀûÀÎ Àǹ̴ ¾ø´Â ¼¿µé (false positives)µµ ÀÖ´Ù. µû¶ó¼ À¯»ç¼º °Ë»öÀº ÁøÈÀûÀ¸·Î °ü°è°¡ ÀÖ´Â ¼¿µéÀ» ãÀ» ¼ö ÀÖ´Â sensitivity¿Í
¿ì¿¬È÷ À¯»ç¼ºÀ» °¡Áö´Â ¼¿µéÀº °Ë»ö °á°ú¿¡¼ Á¦¿ÜµÉ ¼ö ÀÖ´Â selectivity¿¡
´ëÇÑ ÀûÀýÇÑ ÀýÃæÁ¡À» °¡Á®¾ß ÇÒ °ÍÀ̸ç
sensitivity¸¦ ³ô¿´À» ¶§ÀÇ
°Ë»ö ½Ã°£µµ °í·ÁÇØ¾ß ÇÑ´Ù.
À¯»ç¼º °Ë»ö ½Ã
query ¼¿·Î »ç¿ëÇÒ ¼ö ÀÖ´Â
°ÍÀº ¿°±â³ª ¾Æ¹Ì³ë»ê ¼¿ÀÌ´Ù. ÈçÈ÷ ÁøÈÀûÀ¸·Î ¸Ö¸® ¶³¾îÁø ¼¿µéÀ» °á°ú·Î
¾ò±â À§ÇØ sensitivity¸¦ ³ôÀÌ°í ½ÍÀ¸¸é ¿°±â ¼¿À» ¹ø¿ªÇÑ ¾Æ¹Ì³ë»ê
¼¿À» query ¼¿·Î »ç¿ëÇÑ´Ù. ±× ÀÌÀ¯´Â DNA ¼¿À» 4°³ÀÇ
¹®ÀÚ (A, G, C, T)·Î ÀÌ·ç¾îÁ® ÀÖ¾î¼
20°³ÀÇ ¾Æ¹Ì³ë»êÀ¸·Î ¼¿À»
ÀÌ·ç´Â ´Ü¹éÁúº¸´Ù ¿ì¿¬È÷ ġȯÀÌ ÀϾ È®·üÀÌ Å©°í µÎ°³ÀÇ ¼·Î ´Ù¸¥ ¿°±â´Â mismatch·Î¸¸
°í·ÁÇØ Á¡¼ö (score)¸¦ ±¸ÇÏÁö¸¸ µÎ°³ÀÇ ¾Æ¹Ì³ë»êÀº ¾Æ¹Ì³ë»êÀÇ ÁøÈÀû, ¹°¸®Àû, ÈÇÐÀû
Ư¼º¿¡ µû¶ó Á¡¼ö¸¦ Â÷º°ÈÇØ¼ ºÎ¿©ÇÒ ¼ö Àֱ⠶§¹®ÀÌ´Ù.
±×¸®°í ´Ü¹éÁú µ¥ÀÌÅͺ£À̽º´Â DNA µ¥ÀÌÅͺ£À̽ºº¸´Ù ±Ô¸ð°¡ À۾Ƽ °°Àº Á¤µµÀÇ
sensitivity¿¡¼ false positive¸¦ ¾òÀ» °¡´É¼ºÀÌ ³·´Ù.
ÃʱâÀÇ À¯»ç¼º °Ë»ö µµ±¸µéÀº Needelman & Wunch (1970)¿Í Sellers (1974)¿¡ ÀÇÇØ °³¹ßµÇ¾ú´Ù. À̵éÀº ºñ±³ÇÒ ¼¿µéÀÇ Àüü ±æÀÌ¿¡ ´ëÇÑ "Æ÷°ýÀûÀÎ (global)" À¯»ç¼º Á¡¼ö¸¦ °è»êÇÏ¿´´Ù. ÀÌ·± ÇüÅÂÀÇ ¾Ë°í¸®Áò (algorithm)Àº ¾ÆÁÖ ´Ù¾çÈµÈ (diverged) ¼¿¿¡ ´ëÇØ¼ ¹Î°¨ÇÏÁö ¾ÊÀ¸¹Ç·Î À¯»ç¼º °Ë»öº¸´Ù´Â °èÅëµµ ÀÛ¼º¿¡ »ç¿ëµÇ´Â °ÍÀÌ Àû´çÇÏ´Ù. À¯»ç¼º °Ë»öÀ» À§ÇØ »ç¿ëµÉ ¹æ¹ýµéÀº "Áö¿ªÀûÀÎ (local)" À¯»ç¼ºÀ» °¡Áö´Â Áö¿ª¿¡ ÃÐÁ¡À» ¸ÂÃß¾î¾ß ÇÑ´Ù. °¡Àå ±¤¹üÀ§ÇÏ°Ô »ç¿ëµÇ´Â ¾Ë°í¸®ÁòÀº Smith-Waterman (1981), BLAST (1990)°ú FASTA (1988)ÀÌ´Ù. Smith-Waterman ¾Ë°í¸®ÁòÀº dynamic programmingÀ» ÀÌ¿ëÇÏ¿© Àüü ¼¿¿¡¼ À¯»ç¼º °Ë»öÀ» ¼öÇàÇϰí, FASTA¿Í BLASTP´Â ¸ðµç °¡´ÉÇÑ ¹è¿µéÀ» ´Ù Á¶»çÇÏÁö ¾Ê´Â heuristic ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ´Ù. ½ÇÁ¦ °Ë»ö¿¡ ÀÖ¾î¼ Smith-Waterman ¾Ë°í¸®ÁòÀÌ FASTA³ª BLASTPº¸´Ù Á¤È®ÇÑ °ÍÀ¸·Î ¾Ë·ÁÁ® ÀÖ´Ù. ÇÏÁö¸¸ EST°°Àº ºÎºÐÀûÀÎ ¼¿ÀÇ °æ¿ì FASTAµµ Smith-Waterman ÀÇ °Ë»ö °á°ú¿Í °ÅÀÇ À¯»çÇÑ °á°ú¸¦ ¸¸µé¾î ³½´Ù. BLAST´Â È¿À²ÀûÀÎ ÇÁ·Î±×·¥À¸·Î ´ëºÎºÐÀÇ °æ¿ì FASTA¿Í ºñ½ÁÇÑ °á°ú¸¦ º¸¿©ÁØ´Ù. ÃÖ±Ù¿¡ °³¹ßµÈ BLAST2.0´Â gap filling±â´ÉÀÌ º¸°µÇ¾î ÀÔ·ÂÇÑ ¼¿ Àüü¿¡¼ÀÇ À¯»ç¼ºÀ» º¸¿©ÁÖ´Â ±â´ÉÀ» °¡Áö°í ÀÖ´Ù.
°¢°¢ÀÇ ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ ÇÁ·Î±×·¥¿¡ ´ëÇØ ¼Ò°³Çϱâ Àü¿¡ °Ë»öÇϴµ¥ Ç×»ó °í·ÁµÇ´Â scoring matrix¿Í gap penalty¿¡ ´ëÇÑ ÀϹÝÀûÀÎ ¼³¸íÀÌ ÇÊ¿äÇÏ´Ù.
1. ÃøÁ¤ Çà·Ä (Scoring Matrix)
µÎ°³ÀÇ ¼¿À» ÃÖÀûÀ¸·Î ¹è¿ÇÏ´Â °Í (optimal alignment)Àº °£´ÜÇÏÁö ¾Ê´Ù. °¡Àå Å« Á¡¼ö¸¦ °¡Áö´Â ¹è¿ (alignment)ÀÌ »ý¹°ÇÐÀû Àǹ̸¦ °¡Áø´Ù°í ÇÒ ¶§ ¿©·¯°¡Áö ¹è¿µéÀÇ Á¡¼ö¸¦ °è»êÇÏ´Â ¹æ¹ýÀÌ ÇÊ¿äÇÏ´Ù.
¾Æ·¡ÀÇ µÎ°³ÀÇ ¾Æ¹Ì³ë»ê ¹è¿À» °í·ÁÇØ º¸ÀÚ. µÎ°³ÀÇ ¹è¿¿¡¼ °øÅëµÇ´Â ÀܱâµéÀÇ ¼ö·Î Á¡¼ö¸¦ ¸Å±ä´Ù°í ÇÑ´Ù¸é µÎ ¹è¿Àº 9°³ Áß¿¡ 5°³°¡ ÀÏÄ¡ÇϹǷΠ°°Àº Á¡¼öÀÏ °ÍÀÌ´Ù.
a) TTYGAPPWCS b) TTYGAPPWCS
TGYAPPPWS TGYAPPPWS
* *** * * *** *
±×·¯³ª ¹è¿ a)´Â »ó´ëÀûÀ¸·Î º¸ÆíÀûÀÎ Àܱâµé (A, P, S, T) ¸¸À» º¸Á¸Çϰí ÀÖÁö¸¸ ¹è¿ b)¿¡´Â W¿Í T °°Àº ´ú º¸ÆíÀûÀÎ ÀܱâµéÀÌ º¸Á¸µÇ¾î ÀÖ´Ù. µû¶ó¼ ¾Æ¹Ì³ë»êµé »çÀÌ¿¡ »ý¹°ÇÐÀûÀ̳ª ÈÇÐÀû °ü°è¸¦ ¹Ý¿µÇÏ¿© Á¡¼ö¸¦ ¸Å°Ü¾ß ÇÑ´Ù.
ÃøÁ¤ Çà·Ä (Scoring matrix)Àº µÎ ¼¿À» ºñ±³ÇÒ ¶§ °¢°¢ÀÇ ¾Æ¹Ì³ë»êÀ̳ª ¿°±âµéÀÌ ÀÏÄ¡ ȤÀº ġȯµÉ È®·üÀ» °¢°¢ °è»êÇØ ÁÖ´Â Çà·ÄÀÌ´Ù. ½ÇÁ¦ ¼¿ÀÇ ºñ±³¿¡ ÃøÁ¤ Çà·ÄÀ» ÀÌ¿ëÇϹǷΠÀÌ ÃøÁ¤ Çà·ÄÀº ¸ðµç ¼¿ ºÐ¼®ÀÇ ±âº»ÀÌ µÈ´Ù. ÃøÁ¤ Çà·ÄÀÇ ¼±ÅÃÀº ºÐ¼® °á°ú¿¡ Áß´ëÇÑ ¿µÇâÀ» ³¢Ä¡±â ¶§¹®¿¡ ¼¿ÀÇ ÀûÀýÇÑ ºÐ¼®À» À§Çؼ´Â ÃøÁ¤Çà·ÄÀ» ÀÌÇØÇØ¾ß ÇÒ Çʿ䰡 ÀÖ´Ù.
1-1. ¿°±â ÃøÁ¤ (nucleotide scoring)¿¡ ¾²ÀÌ´Â ÃøÁ¤ Çà·Äµé (scoring matrix)
DNA ¹è¿¿¡ ´ëÇÑ ÃøÁ¤ Çà·ÄÀº »ó´ëÀûÀ¸·Î °£´ÜÇÏ´Ù. ¿°±âÀÇ °æ¿ì ¼¼°¡Áö Á¤µµÀÇ matrix°¡ ÁÖ·Î »ç¿ëµÇ°í ÀÖ´Ù.
1) Identity matrix (similarity)
A T C G
A 1 0 0 0
T 0 1 0 0
C 0 0 1 0
G 0 0 0 1
2) BLAST matrix (similarity)
A T C G
A 5 -4 -4 -4
T -4 5 -4 -4
C -4 -4 5 -4
G -4 -4 -4 5
3) Transition/Transversion Matrix
A T C G
A 0 5 5 1
T 5 0 1 5
C 5 1 0 5
G 1 5 5 0
1-2. ´Ü¹éÁú ÃøÁ¤ (protein scoring)¿¡ ¾²ÀÌ´Â ÃøÁ¤ Çà·Äµé
¾Æ¹Ì³ë»êÀÇ °æ¿ì 20°³°¡ ³ª¿Ã ¼ö ÀÖ´Â È®·üÀÇ ÀüºÎÀ̹ǷΠ¾Æ¹Ì³ë»êÀÇ ÃøÁ¤ Çà·ÄÀº 20¡¿20 Çà·Ä·Î Ç¥ÇöÇÒ ¼ö ÀÖ´Ù. ÀÌ ÃøÁ¤ Çà·ÄÀº µÎ¼¿ÀÇ À¯»ç¼ºÀÇ Á¤µµ¸¦ ÆÇ´ÜÇÏ´Â Áß¿äÇÑ ±âÁØÀ̹ǷΠ¾Æ¹Ì³ë»êÀÇ ÁøÈÀû, ¹°¸®Àû, ÈÇÐÀû ¼ºÁúÀ» °í·ÁÇÑ ¿©·¯ °³ÀÇ Çà·ÄÀÌ °³¹ßµÇ¾ú°í Áö±Ýµµ °è¼Ó °³¹ßµÇ¾îÁö°í ÀÖ´Ù. ±× Áß ÇöÀçµµ ¾ð±ÞµÇ°í ÀÖ´Â genetic code matrix, phisical/chemical characteristics¸¦ ÀÌ¿ëÇÑ matrix¿Í ÇöÀç °¡Àå ÀϹÝÀûÀ¸·Î ¸¹ÀÌ ÀÌ¿ëµÇ´Â PAM°ú BLUSUM¿¡ °üÇØ Á»´õ ÀÚ¼¼È÷ ¼³¸íÇϰíÀÚ ÇÑ´Ù.
1) Genetic code Matrix: ÇÑ °³ÀÇ ¾Æ¹Ì³ë»êÀÌ ´Ù¸¥ ¾Æ¹Ì³ë»êÀ¸·Î ¹Ù²î´Âµ¥ ÇÊ¿äÇÑ ÃÖ¼ÒÇÑÀÇ ¿°±â ¼¿ÀÇ °³¼ö °è»ê
2) Physical/chemical characteristics: ¼·Î ´Ù¸¥ µÎ ¾Æ¹Ì³ë»êÀÇ ¹°¸®Àû, ÈÇÐÀû ¼ºÁúÀÇ À¯»ç¼ºÀ» ÀÌ¿ëÇÏ¿© Á¡¼ö¸¦ ºÎ¿©ÇÑ ¹æ¹ý ¿¹) hydrophobicity matrix
3) Dayhoff Mutation Data Matrix: Dayhoff µî¿¡ ÀÇÇØ °³¹ßµÈ mutation data matrix (ÀÌÇÏ MDM)Àº ÇöÀç ÀϹÝÀûÀ¸·Î °¡Àå ¸¹ÀÌ ¾²À̰í ÀÖ´Â ÃøÁ¤ Çà·Ä ÁßÀÇ ÇϳªÀÌ´Ù. 1968³â¿¡ óÀ½ ¹ßÇ¥µÇ¾úÀ» ¶§´Â ´ç½Ã¿¡ ¾Ë·ÁÁø ´Ü¹éÁú ¼¿µé°ú ±× ¼¿µé¿¡¼ À¯ÃßµÈ ancestral ¼¿µé·ÎºÎÅÍ ¾òÀº 400°³ÀÇ accepted point mutationÀ» ÀÌ¿ëÇÏ¿© MDMÀÌ Á¦À۵Ǿú´Ù. ÀÌÈÄ ¿©·¯ °³Ã¼µéÀÇ ¼¿µéÀÌ ¹àÇôÁü¿¡ µû¶ó MDMÀº °è¼Ó È®ÀåµÇ¾î 1980³â¿¡´Â 71°³ÀÇ ¿¬°üµÈ group (¼¿ÀÌ 85%ÀÌ»ó µ¿ÀÏÇÑ group)µé·ÎºÎÅÍ ¾òÀº 1600°³ÀÇ accepted point mutationµéÀ» ±Ù°Å·Î MDMÀÌ Á¦À۵Ǿú´Ù.
´Ü¹éÁú ¼¿ÀÇ mutation¿¡ °üÇÑ Dayhoff modelÀº ´Ü¹éÁú ġȯ¿¡ °üÇÑ Markovian ¸ðµ¨ (model)À» ±Ù°Å·Î ÇÑ´Ù. Markovian ¸ðµ¨Àº ÇÑ ´Ü¹éÁú ³»¿¡¼ÀÇ ¾î¶² ƯÁ¤ À§Ä¡ÀÇ mutationÀº ´Ù¸¥ À§Ä¡ÀÇ mutation°ú ¹«°üÇÏ´Ù´Â °ÍÀ» ÀüÁ¦·Î ÇÑ´Ù.
Markovian ¸ðµ¨ ³»¿¡¼ MDMÀº ÇÑ ´ÜÀ§ÀÇ ÁøÈÀû º¯È(one unit of evolutionary change) µ¿¾È ¾Æ¹Ì³ë»ê A°¡ ¾Æ¹Ì³ë»ê B·Î ġȯµÉ È®·üÀ» °è»êÇÑ transition probability matrix·ÎºÎÅÍ À¯µµµÈ´Ù. Çà·ÄÀÇ ´ë°¢¼±ÀÇ °ªµéÀº °¢°¢ÀÇ ¾Æ¹Ì³ë»êÀÌ º¯ÇÏÁö ¾ÊÀ» È®·üÀ» ³ªÅ¸³½´Ù. Áï ´ë°¢¼±¿¡ À§Ä¡ÇÑ °ªµéÀÇ ÇÕÀº ÁÖ¾îÁø ÁøÈ ±â°£(represented evolutionary interval)µ¿¾È amino acid°¡ º¯ÇÏÁö ¾ÊÀ» È®·üÀ» ³ªÅ¸³»°Ô µÈ´Ù. Dayhoff derivation¿¡¼´Â ´ë°¢¼±ÀÇ °ªµéÀÇ ÇÕÀÌ 99%°¡ µÇ°Ô probability matrix¸¦ Á¶Á¤ÇÏ¿´´Ù. ±×·¯¹Ç·Î probability matrix¿¡¼ÀÇ ÁøÈ ´ÜÀ§(unit of evolution)´Â 100°³ÀÇ siteÁß 1°³ÀÇ site¿¡¼ accepted amino acid substitutionÀÌ ÀϾ È®·ü¿¡ ÇØ´çÇÑ´Ù. (1 PAM unit). ÁøÈ ´ÜÀ§¿¡´Â ½Ã°£Àû °³³äÀÌ ÀüÇô °í·ÁµÇ°í ÀÖÁö ¾ÊÀ½À» À¯ÀÇÇØ¾ß ÇÑ´Ù.
MDMÀÇ Áß¿äÇÑ ´ÜÁ¡Àº ´Ü¹éÁúÀÇ °¢ site¿¡¼ mutationÀÌ ÀϾ È®·üÀº ÀÏÁ¤ÇÏÁö ¾Ê´Ù´Â °ÍÀÌ´Ù. Çö´ë ºÐÀÚ »ý¹°Çп¡ ÀÖ¾î¼ ´Ü¹éÁú ³»¿¡¼ °¢ site¿¡ µû¶ó mutationÀÌ ÀϾ È®·üÀº ´Ù¸£´Ù´Â »ç½ÇÀº Àß ¾Ë·ÁÁ® ÀÖ´Ù. ±×·¯¹Ç·Î °¢ site¿¡¼ÀÇ mutationÀÇ È®·üÀ» µ¿ÀÏÇÏ°Ô °í·ÁÇÑ DayhoffÀÇ ¸ðµ¨Àº ÇѰ踦 °¡Áö°í ÀÖ´Ù.
4) BLOSUM (BLOks SUbstitution Matrix):1991³â¿¡ Altschul µî¿¡ ÀÇÇØ ¹ßÇ¥µÈ BLOSUMÀº ÇöÀç BLASTµîÀÇ °Ë»ö¿¡ Á¦°øµÇ¸ç PAM°ú ÇÔ²² °¡Àå ¸¹ÀÌ ¾²À̴ ġȯ Çà·ÄÀÇ ÇÑ Á¾·ùÀÌ´Ù. BLOSUMÀº Block database·ÎºÎÅÍ °³¹ßµÈ °ÍÀ¸·Î, Block µ¥ÀÌÅͺ£À̽º´Â ¾Æ¹Ì³ë»ê ¼¿ Áß ´Ù¸¥ ºÎºÐ¿¡ ºñÇØ ±²ÀåÈ÷ º¸Á¸µÈ (conserved) ºÎºÐ¸¸À» ¸ð¾Æ ¸¸µç µ¥ÀÌÅͺ£À̽ºÀÌ´Ù. ÀÌÁß ÀϺδ ¾î¶² ±â´ÉÀ» °¡Áø motif·Î ¾Ë·ÁÁ® ÀÖ´Ù.
PAMÀÌ ¿¬°üµÈ ¼¿µé°ú À¯ÃßµÈ ¼¿·ÎºÎÅÍ Ä¡È¯ È®·üÀ» ±¸ÇÏ´Â ¹Ý¸é BLOSUMÀº block³»¿¡¼ ¾Æ¹Ì³ë»êµéÀ» ¹è¿ÇÑ ÈÄ °¢°¢ÀÇ ¾Æ¹Ì³ë»êµéÀÌ Â¦(pair)À» ÀÌ·ç´Â È®·üÀ» °üÂûÇØ¼ ġȯ È®·üÀ» ±¸ÇÑ °ÍÀÌ´Ù.
¿¬¼ÓÀûÀΠġȯ Çà·ÄÀ» ¸¸µé±â À§ÇØ ¼¿µéÀ» °¢°¢ÀÇ block¿¡ clusteringÀ» ½Ã۰í clustering percentage´Â °¢°¢ÀÇ groupµé¿¡ Æ÷ÇÔ½Ã۱â À§ÇÑ ¼¿µéÀÇ ÃÖ¼ÒÇÑÀÇ ÀÏÄ¡¼º (identity)À¸·Î Á¤ÀÇÇÑ´Ù. ¿¹¸¦ µé¸é clustering percentage°¡ 35%¶ó¸é ÀÓÀÇÀÇ ¼¿ A¿Í B¸¦ ¹è¿½ÃÄ×À» ¶§ Àû¾îµµ 35% ÀÌ»óÀÇ identity¸¦ °¡Áö°í ÀÖÀ» ¶§ °°Àº group¿¡ Æ÷ÇÔ½Ã۰í BLOSUM35·Î Á¤ÀÇÇÑ´Ù. ¶ÇÇÑ ÀÓÀÇÀÇ ¼¿ C°¡ A¿Í B µÑ Áß Çϳª¿Í 35 % ÀÌ»óÀÇ identity¸¦ °¡Áú °æ¿ì¿¡ ¶ÇÇÑ °°Àº group¿¡ Æ÷ÇÔ ½ÃŲ´Ù. °¢°¢ÀÇ ¹è¿µÈ ¾Æ¹Ì³ë»ê ¼¿µéÀÇ pairµéÀÇ °¹¼ö¸¦ ¼¾ ÈÄ ¼¿ A,B,C°¡ °¢°¢ Â÷ÁöÇÏ´Â ºñÁßÀ» Æò±ÕÇÏ¿© ÃøÁ¤ Çà·Ä °ªµéÀ» ±¸ÇÑ´Ù.
2. Gap penalties
Gap penalty´Â »ðÀÔ È¤Àº »èÁ¦¿¡ ÀÇÇØ »ý±â´Â gap¿¡ ¾ó¸¶ÀÇ °¨Á¡ (penalty)¸¦ ÁÙ °ÍÀΰ¡¸¦ Á¤ÇÏ´Â °ÍÀÌ´Ù. ÇöÀçÀÇ Åë°èÀû °è»êÀ¸·Î´Â gap penalty¸¦ ¾ó¸¶¸¦ ÁÙ °ÍÀΰ¡¿¡ ´ëÇÑ Á¤È®ÇÑ ÇØ´äÀº ¾øÁö¸¸ ¿©·¯°¡Áö ½ÇÇèÀû »ç½ÇÀ» ÅëÇØ -10, -2¿¡¼ -14, -4 Á¤µµ°¡ Àû´çÇÏ´Ù°í ÇÑ´Ù. ù ¹øÂ° °ªÀº gapÀÌ Ã³À½ »ý±æ ¶§ ÁÖ´Â °¨Á¡À̰í, µÎ ¹øÂ° °ªÀº ±× ´ÙÀ½¿¡ »ý±â´Â ¿¬¼ÓÀûÀÎ gap¿¡ ´ëÇÑ °¨Á¡ÀÌ´Ù. ¿¹¸¦ µé¸é µÎ °³ÀÇ ¼¿ »çÀÌ¿¡ 4°³ÀÇ gapÀÌ ÀÖ°í, -10, -2ÀÇ °ªÀ» Àû¿ëÇϸé Àüü gap penalty´Â -10+3¡¿(-2) = -16ÀÌ µÈ´Ù. ÀÌ·¸°Ô ´Ù¸¥ °ªÀ» Àû¿ëÇÏ´Â ÀÌÀ¯´Â ÁøÈ»ó¿¡¼ óÀ½ gapÀÌ »ý±â±â´Â ÈûµéÁö¸¸ ±× ÀÌÈÄ ¿¬¼ÓÀûÀ¸·Î »ý±â´Â gapÀº óÀ½¿¡ ºñÇØ ½±°Ô »ý±æ ¼ö Àֱ⠶§¹®ÀÌ´Ù. Å« gap penalty (¿¹¸¦ µé¸é -14, -4)´Â partial sequence (EST °°Àº)ÀÇ ºñ±³¿¡ Àû´çÇÏ´Ù. »ç¿ëÀÚ´Â gap penalty¸¦ Á¶Á¤ÇÔÀ¸·Î½á sensitivity¸¦ Á¶Àý ÇÒ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¸é FASTA °Ë»ö¿¡¼ expectation value°¡ 0.2 ÀÌÇÏ·Î ¿¬°ü¼ºÀÌ °ÅÀÇ ¾ø´Â ¼¿µéÀÌ °á°ú·Î Ãâ·ÂµÇ¾úÀ» ¶§ gap penaltyÀÇ °ªÀ» ¿Ã¸²À¸·Î¼ ÀÌ·± ¼¿µéÀ» Á¦°Å ÇØ ³ª°¥ ¼ö ÀÖ´Ù.
Smith-Waterman ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÑ À¯»ç¼º °Ë»öÀº ¾Õ¿¡¼µµ ¾ð±ÞÇßµíÀÌ FASTA¿Í BLAST¿¡ ºñÇØ Á»´õ ¹Î°¨ÇÑ (sensitive) °Ë»ö °á°ú¸¦ ¾òÀ» ¼ö ÀÖÁö¸¸ °Ë»öÇϴµ¥ ½Ã°£ÀÌ ¿À·¡ °É¸°´Ù.
FASTA´Â ÀÓÀÇÀÇ ¼¿°ú À¯»ç¼ºÀ» °¡Áø ¼¿À» ¼¿ µ¥ÀÌÅͺ£À̽º·ÎºÎÅÍ Ã£´Â ÇÁ·Î±×·¥ÀÌ´Ù. FASTA´Â ´Ü¹éÁú ¼¿°£ÀÇ ºñ±³¸¦ À§ÇØ Á¦À۵ǾúÁö¸¸ ¿°±â ¼¿°£ÀÇ ºñ±³µµ °¡´ÉÇÏ´Ù. ƯÈ÷ TFASTAÀÇ °æ¿ì ÀÔ·ÂÇÑ ´Ü¹éÁú ¼¿°ú ¿°±â ¼¿ µ¥ÀÌÅͺ£À̽º °£ÀÇ ºñ±³µµ °¡´ÉÇÏ´Ù. Áï ¿°±â ¼¿ µ¥ÀÌÅͺ£À̽º¸¦ 6 frameÀ¸·Î translationÇÏ¿© ÀÔ·ÂÇÑ ´Ü¹éÁú ¼¿°ú ºñ±³Çϴµ¥ ÀÌ ±â´ÉÀº ÀÓÀÇÀÇ ´Ü¹éÁú ¼¿°ú EST µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇϴµ¥ ÁÁÀº ¹æ¹ýÀ¸·Î ¾Ë·ÁÁ® ÀÖ´Ù.
BLAST(Basic Local Alignment Search Tool)˼
NCBI/GenBank¿¡¼ °³¹ßµÈ À¯»ç¼º
°Ë»ö ÇÁ·Î±×·¥ÀÌ´Ù.