Phylogenetic analysis and comparative genomics
(by James A. Lake and Jonathan E. Moore)
ºÐÀÚ¼¿ºÐ¼®Àº °èÅë¼öºÐ¼®°ú ºñ±³°Ô³ðÇп¡ Áß¿äÇÑ ºÐ¾ß·Î¼ ÁøÈÇϰí ÀÖ´Ù. ¾ÆÁ÷Àº Ãʱâ´Ü°èÁö¸¸ ±× Á߿伺ÀÌ Áõ°¡Çϰí ÀÖ´Â ÀÌ ºÐ¾ßÀÇ ÇÔÁ¤°ú ½ÇÁ¦ÀûÀÎ ÇØ°á¿¡ °üÇØ¼ ±â¼úÄÚÀÚ ÇÑ´Ù.
´ë°³ °èÅë¼ö (phylogenetic tree)°¡ ¹«¾ùÀÎÁö ¾Ë°íÀÖÁö¸¸ ÀÚÁÖ °èÅë¼ö¿¡ ÀÀ¿ëµÇ´Â µÎ°¡Áö Ưº°ÇÑ °³³äÀÌ ÀÖ´Ù. À̰͵éÀº rooted ¿Í unrooted treeÀÇ °³³äÀÌ´Ù. Rooted tree°¡ ´Ù¼Ò °èÅë¼ö¿¡ ´ëÇÑ ´ëºÎºÐÀÇ »ý°¢¿¡ ºÎÇÕµÉ °ÍÀÌ´Ù. ÀüÇüÀûÀ¸·Î »ý¹°Ã¼µéÀ̳ª À¯ÀüÀÚµéÀÇ ¿ø½ÃÀûÀÎ ÇüÅ´ treeÀÇ ¹Ù´Ú¿¡ º¸¿©Áø´Ù. ±×¸®°í tree´Â ±× ²À´ë±âÀÇ ¸¶Áö¸· °¡Áö¿¡ À̸¦ ¶§±îÁö °¡Áö¸¦ Ä¡°Å³ª °¥¶óÁø´Ù. ÀÌ °ü·Ê¿¡¼ ¹þ¾î³ª´Â °ÍÀº ¾øÁö¸¸ tree´Â Á¤Á¡ÀÌ ¹ØÀ̳ª, ¿ÞÂÊ ¶Ç´Â ¿À¸¥ÂÊ, ¾î´À °÷¿¡µµ À§Ä¡ÇÒ ¼ö ÀÖ´Ù. Unrooted tree´Â ´ú Á÷°üÀûÀÌ¸ç º¸´Ù Ãß»óÀûÀÎ °³³äÀÌ´Ù. Unrooted treeµéÀº °¡ÁöÄ¡´Â ¼ø¼¸¦ ³ªÅ¸³»³ª ÃÖÁ¾ÀÇ °øÅëÀûÀÎ Á¶»óÀÇ »Ñ¸®³ª À§Ä¡¸¦ °¡¸®Å°Áö´Â ¾Ê´Â´Ù. ÀÌ»óÀûÀ¸·Î´Â rooted tree°¡ ³º´Ù. ±×·¯³ª ½ÇÁ¦¿¡ À־ °ÅÀÇ ¸ðµç °èÅëÀ籸¼º (phylogenetic reconstruction) algorithmÀº unrooted tree¸¦ Á¦°øÇÑ´Ù. µû¶ó¼ À̵鿡 ´ëÇØ ¾Ë¾Æ¾ßÇÒ Çʿ䰡 ÀÖ´Ù.
Pitfalls of comparative genomics
ÀϹÝÀûÀ¸·Î ºÐÀÚ¼¿ºÐ¼®ÀÌ Ãʱâ´Ü°è¶ó°í´Â ÀνĵÇÁö ¾Ê´Â´Ù. À̰ÍÀº ÀϹÝÀûÀÎ ¼öÇÐÀû Åë°èÇÐÀû ¿ø¸®µé¿¡ ±Ù°ÅÇÑ ºÐ¼®µµ±¸µéÀÌ °ÅÀÇ ¾ø´Â ºÎÁ¤È®ÇÑ °úÇÐÀÌ´Ù. °á°úÀûÀ¸·Î ¸¹Àº (¾Æ¸¶µµ ´ëºÎºÐ) ºÐÀÚ¼¿µé·ÎºÎÅÍ À籸¼ºµÈ °èÅë¼öµéÀº ºÎÁ¤È®Çϰí ÀÚÁÖ »ó½ÄÀûÀÎ °Í°ú »óÃæÇÑ´Ù. À̰ÍÀº ÁÖ·Î ¼¿ºÐ¼®¿¡¼ 3°¡Áö ÇÔÁ¤ Áß ¾î´À Çϳª ¶Ç´Â ±× ÀÌ»ó¿¡ ±Ù°ÅÇÑ´Ù: (1) ºÎÁ¤È®ÇÑ ¼öÇÐÀû ¸ðµ¨µé°ú ¼¼°¡Áö ÀÌ»óÀÇ ºÐ·ù±ºÀ» ¹è¿Çϱâ À§ÇØ »ç¿ëµÇ´Â progressive alignment algorithmµé¿¡ ÀÇÇØ ¸Âµé¾îÁö´Â ÆíÇâ°ú ƯÈ÷ ¿¬°üµÇ¾î ÀÖ´Ù; (2) site-to-site º¯ÀÌ (¼¿µé ³»ÀÇ ¸ðµç siteµéÀº ´Ù¸¥ ¼Óµµ·Î ÁøÈÇÒ ¼ö ÀÖ´Ù)¸¦ ÀûÀýÈ÷ ¼³¸íÇÒ ¼ö ¾ø´Â ¹®Á¦; (3) ºÒ±Õµî ¼ÓµµÈ¿°ú (tree ³»ÀÇ ´Ù¸¥ ºÐ·ù±ºÀÇ À¯ÀüÀÚµéÀÌ ´Ù¸¥ ¼Óµµ·Î ÁøÈÇÒ ¶§ ´ëºÎºÐÀÇ tree-building algorithmµéÀÌ ÁÁÀº °èÅë¼ö¸¦ ¸¸µé ¼ö ¾ø´Â). ÀÌ ¼¼°¡Áö ÇÔÁ¤µéÀº µ¿ÀÏÇÑ ÀÎÀ§ÀûÀÎ °á°ú·Î long branch attractionÀ» ³º´Â´Ù.
ÀÌ·¯ÇÑ ÀÎÀ§ÀûÀ¸·Î »ý¼ºµÈ treeµé¿¡¼ ºü¸£°Ô ÁøÈÇÏ´Â ¼¿µé (°èÅë¼ö¿¡¼ ±ä °¡Áö·Î ³ªÅ¸³ª´Â)Àº ºñ·Ï °Å¸®°¡ ¸Ö´õ¶óµµ ´Ù¸¥ ºü¸£°Ô ÁøÈÇÏ´Â ¼¿µé°ú ÇÔ²² À§Ä¡ÇÒ °ÍÀÌ´Ù. ´õ¸¹Àº ÀڷḦ ¼öÁýÇÏ¿© ÇØ°áÇÒ ¼ö ÀÖ´Â ºÐÀÚ»ý¹°Çп¡¼ÀÇ ´ëºÎºÐÀÇ ¹®Á¦µé°ú ºñ±³Çغ¸¸é long branch attractionÀº ÈξÀ º¹ÀâÇÏ´Ù. ÀÌ ¹®Á¦°¡ ¹ß»ýÇÒ ¶§ ¸¸¾à º¸´Ù ±ä ¼¿µéÀÌ »ç¿ëµÈ´Ù¸é ºÎÁ¤È®ÇÑ ÇØ°áÀº Á»´õ °·ÂÈ÷ ÁöÁöµÉ ¼ö ÀÖ´Ù. ¼¼°¡Áö ÇÔÁ¤ Áß¿¡¼ alignment artifact°¡ °¡Àå ½É°¢ÇÏ´Ù. ¿Ö³ÄÇÏ¸é µÎ ¹øÂ°¿Í ¼¼ ¹øÂ° ¹®Á¦°¡ ÇØ°áµÇµµ misalignment´Â °è¼Ó ºÎÁ¤È®ÇÑ treeÀ» ¸¸µé¾î³»±â ¶§¹®ÀÌ´Ù. »õ·Î¿î algorithmÀÎ paralinear (logdet) distances´Â ¼¼ ¹øÂ° ¹®Á¦¿¡ ´ëÇØ °£´ÜÇϸ鼵µ Á¤¹ÐÇÑ ¼öÇÐÀû ÇØ°áÀ» Á¦°øÇØÁØ´Ù. ÀÌ Æ¯º°ÇÑ algorithmÀº ¾Æ·¡¿¡ ±â¼úµÈ °èÅë¼ö packageµéÁß ¸î°¡Áö¿¡¼ À̿밡´ÉÇÏ´Ù. Maximum parsimony, maximum likelihood, ±×¸®°í ´Ù¸¥ distance method¿¡ ´ëÇØ¼´Â StewartÀÇ ³í¹® (1993, Nature 361, 603-607)À» ÂüÁ¶Ç϶ó.
Practical suggestions
ÃÖ±Ù±îÁöµµ ÀνĵÇÁö´Â ¾Ê°í ÀÖÁö¸¸ long branch artifactµéÀº ¸Å¿ì ÈçÇÏ´Ù. ±×·¯³ª ¸î°¡Áö¸¦ ÁÖÀÇÇÏ¸é ±× ºóµµ¸¦ ÁÙÀÏ ¼ö ÀÖ´Ù. ù°, Ç×»ó °èÅë¼ö¸¦ °è»êÇϱâ Àü¿¡ ¹è¿µÈ ¼¿À» ºÐ¼®Ç϶ó. ¸¸¾à ¹è¿µéÀÌ ¸¹Àº gapµéÀ» °¡Áö°í ÀÖ´Ù¸é ¸Å¿ì ºÐ±âµÈ ¼¿µéÀÌ Æ÷ÇԵǾî ÀÖÀ½À» °¡¸®Å°´Â °ÍÀ¸·Î ±× ¹è¿Àº ºÎÁ¤È®ÇÒ Áö ¸ð¸¥´Ù. ÀÌ·± °æ¿ì´Â °á°úµéÀ» ¸Å¿ì ÁÖÀDZí°Ô »ìÆì¾ß¸¸ ÇÑ´Ù. GapµéÀÌ ¸ðµç ¼¿µé¿¡¼ ¾ß±âµÇ¾ú´ÂÁö ¶Ç´Â Çϳª³ª ¸î°¡Áö Â÷À̰¡ ÀÖ´Â ¼¿µé¿¡¼ ºñ·ÔµÇ¾ú´ÂÁö Á¡°ËÇÏ¿©¾ßÇÒ °ÍÀÌ´Ù. ÈÄÀÚ¶ó¸é ±× ¼¿À» Á¦°ÅÇØ¾ß¸¸ ÇÑ´Ù.
µÎ ¹øÂ°, ¸¸¾à ¾î¶² ¼¿ÀÌ °èÅë¼ö¿¡ ²À Æ÷ÇԵǾî¾ß ÇÔ¿¡µµ Àß ¹è¿µÇÁö ¾Ê´Â´Ù¸é °¡±õÁö¸¸ º¸´Ù õõÈ÷ ÁøÈÇÏ´Â Á¾À¸·ÎºÎÅÍ µ¿ÀÏÇÑ À¯ÀüÀÚ ¼¿À» ¾ò´Â °ÍÀ» °í·ÁÇ϶ó.
¸¶Áö¸·À¸·Î ¿¬±¸µÇ´Â tree°¡ ´Ù¸¥ À¯ÀüÀÚµéÀÇ treeµé°ú »óÃæµÇ´ÂÁö¸¦ Á¶»çÇ϶ó. ¸¸¾à º¸´Ù ´À¸®°Ô ÁøÈÇÏ´Â °Íó·³ º¸ÀÌ´Â ´Ù¸¥ À¯ÀüÀÚ°¡ ´Ù¸¥ tree¸¦ º¸¿©ÁØ´Ù¸é ¾Æ¸¶µµ long branch attractionÀÌ ¹®Á¦¸¦ ¾ß±â½ÃŰ´Â °ÍÀÌ´Ù. ±×·± °æ¿ì ¼¼ ¹øÂ° À¯ÀüÀÚ¸¦ °í·ÁÇØº¸¾Æ¶ó.
How do you know if the results are statistically siginificant?
BootstrappingÀº tree ³»ÀÇ °³°³ÀÇ °¡ÁöµéÀÇ Åë°èÀûÀÎ Á߿伺À» Æò°¡Çϴµ¥ ÀÚÁÖ »ç¿ëµÇ´Â °úÁ¤ÀÌ´Ù. ±×·³¿¡µµ À̰ÍÀÌ ¹«¾ùÀÌ°í ¾î¶»°Ô °á°úµéÀ» ÇØ¼®ÇÏ´ÂÁö¸¦ Á¤È®È÷ ¸ð¸£´Â »ç¶÷µéÀÌ ¸¹´Ù. ù°, sampling with replacementÀÇ °³³äÀ» ÀÌÇØÇÏ´Â °ÍÀÌ ÇÊ¿äÇÏ´Ù. À̰ÍÀº È£¼ö¿¡ ÀÖ´Â ¹°°í±âÀÇ ¼ö¸¦ ±×µé Áß ¸î °³¸¦ ¼öÁýÇÏ¿© ²¿¸®Ç¥¸¦ ºÙÀÌ°í ¹æ·ùÇÏ¿´´Ù°¡ ¸î ÁÖ ÈÄ¿¡ ±× °úÁ¤À» µÇÇ®ÀÌÇÏ¿© ²¿¸®Ç¥°¡ ´Þ¸° ¹°°í±âÀÇ ºñÀ²À» ÃøÁ¤ÇÔÀ¸·Î½á °è»êÇϰíÀÚ ÇÏ´Â °Í°ú ¿¬°üµÈ´Ù. ¾Õ¼ Ç¥ÁöµÈ °í±âµéÀÇ ºñÀ²À» ¾Ë¸é È£¼ö ³»¿¡ Á¸ÀçÇÏ´Â Àüü ¹°°í±âÀÇ ¼ö¸¦ °è»êÇÒ ¼ö ÀÖ´Ù. Bootstrapping´Â ¹è¿µÈ ¼¿µéÀÇ ¼¼Æ®¸¦ »ç¿ëÇÏ¿© ¼¿ÀÌ ¹«ÇÑÈ÷ ±æ´Ù¸é ¾î¶² °ÍÀÏ ¼ö°¡ ÀÖ´ÂÁö¸¦ °è»êÇÏ´Â °ÍÀÌ´Ù. ÀÌ °æ¿ì ¹è¿¿¡¼ÀÇ °¢ ¿ (referred to as a sequence pattern)Àº °í±âÀÇ ¿ªÇÒÀ» Çϰí sampling with replacement´Â ÀÎÀ§ÀûÀÎ ¼¿¹è¿µéÀÇ ¼ö (º¸Åë 100)¸¦ ¸¸µé±â À§ÇØ »ç¿ëµÈ´Ù. TreeµéÀº ÀÌµé °¢°¢À¸·ÎºÎÅÍ °è»êµÇ°í À̵é tree ³»¿¡¼ ¿©·¯ °¡Áö °¡ÁöÄ¡±â À¯ÇüµéÀÌ °üÂûµÇ´Â ºóµµ°¡ ±â·ÏµÈ´Ù. ¸¸¾à ƯÁ¤ÇÑ °¡ÁöÄ¡±â À¯ÇüÀÌ 70%·Î °üÂûµÈ´Ù¸é ÀÌ °¡ÁöÄ¡±â À¯ÇüÀº 70%ÀÇ bootstrap support¸¦ ¹Þ´Â´Ù°í ÀÏÄþîÁø´Ù. Bootstrap °á°úµéÀÇ Á¤È®ÇÑ Åë°èÇÐÀû ÇØ¼®Àº ¾ÆÁ÷±îÁöµµ ¿¬±¸ÀÇ ´ë»óÀ̳ª 'rule of thumb'´Â 70% ÀÌ»óÀÇ bootstrap support¸¦ ¹Þ´Â ³»ºÎÀÇ tree branchµéÀº 95% ¼öÁØÀÇ Á¤È®¼ºÀ» °¡Áö´Â °ÍÀ¸·Î ÁöÁöµÈ´Ù. (±×·¸´ÙÇØµµ ³ôÀº bootstrap %´Â long branch attractionµéÀÌ °á°ú¸¦ ¿Ö°î½ÃŰÁö ¾Ê¾Ò´Ù´Â °ÍÀ» º¸ÀåÇÏÁö´Â ¾Ê´Â´Ù).
The Programs
°Ô³ðÀÚ·áµé·ÎºÎÅÍ treeµéÀÇ °è»êÀ» µ½´Â ¿©·¯ °¡Áö ÈǸ¢ÇÑ ÇÁ·Î±×·¥µéÀÌ ÀÖ´Ù. À̵é ÇÁ·Î±×·¥¿¡ ´ëÇØ ´õ¸¹Àº Á¤º¸¸¦ Á¦°øÇÏ´Â Web siteÀÇ ÁÖ¼ÒµéÀº URLs box¿¡ Ç¥±âµÇ¾î ÀÖ´Ù. Reconstructing treeµéÀ» À§ÇÑ °¡Àå Àß ¾Ë·ÁÁø ¼ÒÇÁÆ®¿þ¾î´Â PAUP (phylogenetic analysis using parsimony)ÀÌ´Ù. PAUP´Â paralinear distance (logdet) ºÐ¼®µéÀ» ½Ç½ÃÇÏ¿© ¼¼¹øÂ° ¹®Á¦Á¡ÀÌ ¾ø´Â °á°ú¸¦ ³»³õ´Â´Ù. À̿ܿ¡µµ PHYLIP, Hennig86, MEGA/METREE, GAMBIT, MacClade µîÀÌ ÀÖ´Ù.
URLs |
|
PAUP |
http://onyx.si.edu/PAUP/ |
GCG package
|
http://www.gcg.com/ |
PHYLIP
|
http://evolution.genetics.washington.edu/phylip.html |
Hennig86
|
http://www.vims.edu/~mes/hennig/software.html |
MEGA/METREE
|
http://www.bio.psu.edu/faculty/nei/imeg |
GAMBIT
|
http://www.lifesci.ucla.edu/mcdbio/Faculty/Lake/Research/Programs/ |
MacClade
|
http://phylogeny.arizona.edu/macclade/macclade.html |
: