Computational genefinding
(David Haussler)
Genomic DNA ¼¿ÀÇ ºÐ¼®¿¡¼ ÁÖ¿äÇÑ ¹®Á¦´Â À¯ÀüÀÚÀÇ ±¸Á¶, Á¶Àý, Àü»ç¿¡ °ü·ÃµÈ ¿ä¼ÒµéÀÇ Á¤º¸¸¦ ´ã°íÀÖ´Â ±â´ÉÀûÀÎ ÀÚ¸®µéÀ» ã´Â °ÍÀÌ´Ù. ÀÌ¿¡´Â ´Ù¾çÇÑ Àü»ê¹æ¹ýµéÀÌ µµ¿òÀÌ µÉ °ÍÀÌ´Ù.
°Ô³ð DNA¿¡¼ À¯ÀüÀÚ³ª ´Ù¸¥ ±â´ÉÀûÀÎ ÀÚ¸®µéÀ» ã´Â Àü»ê¹æ¹ý·ÐÀº Áö³ 20³â°£ Å©°Ô ¹ßÀüÇÏ¿´´Ù. ¿¬±¸ÀÚµéÀÌ Ã£´Â ¿ä¼ÒµéÀº splice site, start and stop codon, branch point, Àü»ç¿¡ °ü¿©ÇÏ´Â promoter ¿Í terminator, polyadenylation site, ribosomal binding site, topoisomerase II binding site, topoisomerase I Àý´ÜÀÚ¸®¿Í ¿©·¯ °¡Áö Àü»çÁ¶ÀýÀÎÀÚµéÀÇ °áÇÕÀÚ¸® µîÀÌ´Ù. ÀÌ·¯ÇÑ ±¹ºÎÀûÀÎ ÀÚ¸®µéÀº signalÀ̶ó ºÒ¸®°í, À̵éÀ» ã¾Æ³»´Â ¹æ¹ýÀº signal sensor¶ó ºÒ¸°´Ù. ¹Ý¸é exon°ú intron °°Àº È®ÀåµÈ ´Ù¾çÇÑ ±æÀ̸¦ °¡Áö´Â ¿µ¿ªµéÀº contents¶ó ºÒ¸®¸ç content sensor¶ó ºÒ¸®´Â ¹æ¹ýÀ¸·Î ºÐ¼®µÈ´Ù.
Signal sensors
°¡Àå ±âº»ÀûÀÎ signal sensor´Â °£´ÜÇÑ º¸Á¸¼¿ (consensus sequence)³ª º¸Á¸¼¿À» Çã¿ë°¡´ÉÇÑ º¯À̵é (allowable variations)·Î ±â¼úÇϴ ǥÇöÀÌ´Ù. º¸´Ù Á¤¹ÐÇÑ sensorµéÀº consensus ´ë½Å¿¡ weight matrixµéÀ» »ç¿ëÇÏ¿© °í¾ÈµÉ ¼ö ÀÖ´Ù. ÀÌ ¹æ¹ý¿¡¼ À¯Çü (pattern)ÀÇ °¢ À§Ä¡´Â ¾î¶² Àܱ⿡ ´ëÇÑ matchµµ Çã¿ëÇÏÁö¸¸ °¢ Àܱ⸦ °¢°¢ÀÇ À§Ä¡¿¡ match ½Ã۴µ¥´Â ´Ù¸¥ ºñ¿ëÀÌ ºÎ°úµÈ´Ù. ÇÑ Èĺ¸ ÀÚ¸®¿¡ ´ëÇØ weight matrix sensor¿¡ ÀÇÇØ ȸ½ÅµÇ´Â score´Â ±× ÀÚ¸®¿¡ °³°³ÀÇ ÀܱâµéÀÌ match µÉ ¶§ÀÇ ºñ¿ëÀ» ÇÕÇÑ °ªÀÌ´Ù. ÁÖ¾îÁø score threshold¸¦ »óȸÇϸé Èĺ¸ÀÚ¸®´Â 'true'¶ó°í ¿¹ÃøµÈ´Ù. ±×·¯ÇÑ sensorµéÀº ÀÚ¿¬È÷ ¹®Á¦ÀÇ ¼ÒÁö°¡ ÀÖ´Â ÇØ¼®À» °¡Áø´Ù. ȸ½ÅµÇ´Â score´Â °£´ÜÇÑ Åë°è ¸ðµ¨¿¡¼ logÀÇ °¡´É¼ºÀÌ ÀÖ´Â ºñ (log likelihood ratio)ÀÌ´Ù. °¢ À§Ä¡´Â °¡´ÉÇÑ Àܱâµé¿¡ °ÉÄ£ ÇϳªÀÇ µ¶¸³ÀûÀÎ º°°³ÀÇ ºÐÆ÷¿¡ ÀÇÇØ °áÁ¤µÈ´Ù. Neural nets¿Í °°Àº º¸´Ù Á¤±³ÇÑ À¯ÇüÀÇ signal sensorµéÀÌ ¸¹ÀÌ »ç¿ëµÈ´Ù.
Content sensors
°¡Àå Áß¿äÇÏ¸é¼ ¿¬±¸°¡ ¸¹ÀÌµÈ content sensor´Â coding ¿µ¿ªÀ» ¿¹ÃøÇÏ´Â °ÍÀÌ´Ù. ¿øÇÙ»ý¹°¿¡¼´Â °£´ÜÈ÷ ±ä ORF¸¦ ãÀ½À¸·Î½á À¯ÀüÀÚµéÀÇ À§Ä¡¸¦ ¾Æ´Â °ÍÀÌ Åë·ÊÀÌ´Ù. ±×·¯³ª °íµî ÁøÇÙ»ý¹°¿¡°Ô´Â Àû´çÄ¡ ¾Ê´Ù. ÁøÇÙ»ý¹°¿¡¼ noncoding ¿µ¿ªµéÀ» coding ¿µ¿ªµé·ÎºÎÅÍ ±¸ºÐÇϱâ À§Çؼ exon content sensorµéÀº codon structure¿¡ Á¸ÀçÇÏ´Â ´ºÅ¬·¹¿ÀƼµå ºóµµ¿Í ÀÇÁ¸µµÀÇ Åë°èÀûÀÎ ¸ðµ¨µéÀ» »ç¿ëÇÑ´Ù. °¡Àå ¸¹ÀÌ »ç¿ëµÇ´Â Åë°èÀûÀÎ ¸ðµ¨Àº Markov modelµéÀ̶ó ¾Ë·ÁÁø °ÍÀ¸·Î ÄÄÇ»ÅÍ ÇÁ·Î±×·¥ GeneMark¿¡¼ À¯¸íÇØÁö±â ½ÃÀÛÇÏ¿´´Ù. Neural nets´Â ¿©·¯ °¡Áö coding ÃøÁ¤À» GrailÀÇ exon detector¿¡¼ splic siteµé¿¡ ´ëÇÑ signal sensorµé°ú ÇÔ²² ÃëÇÕÇϱâ À§ÇØ »ç¿ëµÇ¾ú´Ù. ´Ù¸¥ content sensorµéÀº CpG islandµé (À¯ÀüÀÚÀÇ ÃÊÀÔ¿¡ ÀÚÁÖ ³ªÅ¸³ª´Â ¿µ¿ªµé·Î CG°¡ ´Ù¸¥ ¼¿¿¡¼º¸´Ù ºó¹øÇÏ´Ù)°ú »ç¶÷ÀÇ ALU ¼¿µé°ú °°Àº ¹Ýº¹ DNA¿¡ ´ëÇÑ sensorµéÀ» Æ÷ÇÔÇÑ´Ù. ÈÄÀÚÀÇ °æ¿ì´Â ÀÚÁÖ ¹Ýº¹ DNA¸¦ Á¦°ÅÇÏ°í ³ª¸ÓÁö DNA¸¦ ºÐ¼®Çϱâ À§ÇÑ mask³ª filter·Î¼ »ç¿ëµÈ´Ù.
Integrated genefinding methods
Signal°ú content sensorµé¸¸À¸·Î´Â genefinding ¹®Á¦¸¦ ÇØ°áÇÒ ¼ö ¾ø´Ù: À̵éÀÌ ÀνÄÄÚÀÚ ÇÏ´Â Åë°èÀûÀÎ signalµéÀº ³Ê¹« ¾àÇØ splice site strength¿Í exon Å©±â »çÀÌÀÇ °¡´ÉÇÑ »ó°ü°ü°è¿Í °°Àº À̵éÀÌ Àâ¾Æ³¾ ¼ö ¾ø´Â signal°ú contentµé »çÀÌÀÇ ÀÇÁ¸µµ°¡ ÀÖ´Ù. Áö³ 5³â°£ signal°ú content sensorµéÀ» ÃëÇÕÇÏ´Â ¿©·¯ °¡Áö systemµéÀÌ ¿ÏÀüÇÑ À¯ÀüÀÚ ±¸Á¶¸¦ ¹àÈ÷±â À§ÇØ °³¹ßµÇ¾ú´Ù. ±×·¯ÇÑ systemµéÀº ¿ø¸®ÀûÀ¸·Î À¯ÀüÀÚ Æ¯¼ºµé »çÀÌÀÇ º¸´Ù º¹ÀâÇÑ »óÈ£ÀÇÁ¸µµ¸¦ ´Ù·ê ¼ö ÀÖ´Ù. Linguistic metaphor°¡ ¿©±â¿¡ °¡²û¾¿ Àû¿ëµÈ´Ù. ¿©±â¼ DNA ¼¿À» exon°ú intronµéÀÇ ¿¬¼ÓÀÎ À¯ÀüÀÚµé·Î ±¸ºÐÇÏ´Â °úÁ¤Àº ÇÑ ¹®ÀåÀ» ºÐ¼®ÇÏ¿© ±× ±¸Á¶»ó ¹®¹ýÀûÀÎ ºÎºÐµé·Î ³ª´©´Â °úÁ¤°ú µ¿ÀϽõȴÙ. Searls´Â Çü½ÄÀûÀÎ ¹®¹ýÀ» »ç¿ëÇÏ¿© ¾ð¾îÇÐÀû ¿ë¾î·Î À¯ÀüÀÚ ±¸Á¶¸¦ ±â¼úÇÑ Ã¹ ¹øÂ° »ç¶÷ÀÌ´Ù. ±×¸®°í ÀÌ À̷п¡ ±Ù°ÅÇÑ ±×ÀÇ GenLang genefinding ÇÁ·Î±×·¥Àº °¡Àå ÃʱâÀÇ ¿ÏÀüÇÑ genefinder À̾ú´Ù. ¿À´Ã³¯ °¡Àå ¿ÏÀüÇÑ genefinderµéó·³ GenLangÀº Èĺ¸ exonµé°ú ´Ù¸¥ scored ¿µ¿ªµé°ú siteµéÀ» ÃÖ´ëÇÑÀÇ total score¸¦ °¡Áö´Â ¿ÏÀüÇÑ À¯ÀüÀÚ ¿¹ÃøÀ¸·Î ÃëÇÕÇϱâ À§ÇØ dynamic programmingÀ» »ç¿ëÇÑ´Ù. ÀÌ ÁÖÁ¦¿¡ ´ëÇÑ º¸´Ù ÀÚ¼¼ÇÑ ¼³¸íÀº Âü°íÀÚ·á 3 (Guide to Human Genome Computing, ed by Bishop, MJ, pp. 261-274, Academic Press)°ú 13 (Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge Univ. Press)¿¡ Àß ±â¼úµÇ¾î ÀÖ´Ù.
Dynamic programming ¹æ¹ýµé¿¡¼ ¼º°øÀÇ ¿¼è´Â ÃÖÀûÈÇÒ ¼ö ÀÖ´Â ¿Ã¹Ù¸¥ score functionÀ» °³¹ßÇÏ´Â °ÍÀÌ´Ù. ÀÌ ºÐ¾ß¿¡¼ÀÇ ¼º°øÀûÀÎ Á¢±ÙÀº exonµé¿¡¼ÀÇ codon ÀÇÁ¸µµ¸¦ ±â¼úÇÏ´Â º¯¼öµéÀ» Æ÷ÇÔÇÏ´Â À¯ÀüÀÚµéÀÇ Åë°èÀûÀÎ ¸ðµ¨, splice siteµéÀÇ Æ¯¼ºµé (¿¹¸¦ µé¾î splice siteµéÀ» À§ÇÑ weight matrixµéÀÇ º¯¼öµé), ¾î¶² ±â´ÉÀûÀΠƯ¼ºµéÀÌ ´Ù¸¥ Ư¼ºµéÀ» µÚµû¸¦ °Í °°À¸³Ä¿¡ ´ëÇÑ '¾ð¾îÇÐÀû' Á¤º¸ (±×¸² 1 ÂüÁ¶)¸¦ Á¤ÀÇÇÏ´Â °ÍÀÌ´Ù. ÀÌ ¸ðµ¨Àº ´ºÅ¬·¹¿ÀƼµåÀÇ ±â´ÉÀûÀÎ ¿ªÇÒÀ̳ª À§Ä¡¸¦ ³ªÅ¸³»´Â °¢ ´ºÅ¬·¹¿ÀƼµå¿Í ¿¬°üµÈ ÀáÀçÀûÀÎ (¶Ç´Â 'hidden) º¯¼ö¸¦ Æ÷ÇÔÇÑ´Ù; ¿¹¸¦ µé¾î G Àܱâ´Â GT consensus donor splice siteÀÇ ºÎºÐÀ̰ųª start codonÀÇ ¼¼ ¹øÂ° À§Ä¡ÀÏÁöµµ ¸ð¸¥´Ù. ¾î¶² ±â´ÉÀûÀΠƯ¡µéÀÌ ´Ù¸¥ Ư¡µéÀ» µÚµû¸¦ °ÍÀΰ¡¿¡ ´ëÇÑ ¾ð¾îÇÐÀû ±ÔÄ¢µéÀº hidden º¯¼öµé¿¡ ´ëÇÑ Markov °úÁ¤ÀÇ º¯¼öµé¿¡ ÀÇÇØ Ç¥ÇöµÈ´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯ ¶§¹®¿¡ ÀÌ ¸ðµ¨µéÀº hidden Markov modelµé (HMMs)¶ó ºÒ¸°´Ù. Genefinding HMMs´Â Searls¿¡ ÀÇÇØ »ç¿ëµÈ À¯ÀüÀÚ ±¸Á¶¹®¹ýµéÀÇ È®·ü·ÐÀû ÇØ¼®µé·Î ¿©°ÜÁú ¼ö ÀÖ´Ù.
È»ìÇ¥µé (red)´Â contentµéÀ» ÀǹÌÇϰí nodeµé (û»ö)Àº ½ÅÈ£¸¦ ÀǹÌÇÑ´Ù. Contents´Â 5' UTR (J5'), initial exon (EI), exon (E), intron (I), final exon (ES), ±×¸®°í 3' UTR (J3')¸¦ ³ªÅ¸³½´Ù. ½ÅÈ£µéÀº begin sequence (B), start translation (S), donor splice site (D), acceptor splice site (A), stop translation (T), ±×¸®°í end sequence (F)¸¦ ³ªÅ¸³½´Ù. Candidate À¯ÀüÀÚÀÇ ±¸Á¶´Â B¿¡¼ F·ÎÀÇ °æ·Î¸¦ ¹â¾Æ ¸¸µé¾îÁø´Ù. hMM (¶Ç´Â hidden semi-Markov model)Àº È®·ü·ÐÀû ¸ðµ¨µéÀ» È»ìÇ¥¿Í nodeµé °¢°¢¿¡ ºÙÀÌ´Â °ÍÀ¸·Î Ư¡Áö¾îÁø´Ù. |
ÃʱâÀÇ genefinding HMMµéÀº EcoParse (for E. coli)¿Í Xpound (for human genome)À» Æ÷ÇÔÇϰí ÀÖ¾ú´Ù. º¸´Ù ÃÖ±ÙÀÇ ÇÁ·Î±×·¥µéÀº GeneMark-HMM (for bacterial genomes), Veil, HMMgene (for the human genome)À» Æ÷ÇÔÇϰí ÀÖ´Ù. Generalized HMMs (GHMMs) ¶Ç´Â (hidden) semin-Markov ¸ðµ¨µéÀ̶ó ºÒ¸®´Â º¸´Ù ÀϹÝÈµÈ ºÎ·ùÀÇ probablistic ¸ðµ¨µéÀº ±× »Ñ¸®¸¦ GeneParse¿¡ µÎ°í ÀÖÀ¸¸ç, Genie ±×¸®°í ÀÌ¾î¼ GenScan ¿¡¼ º¸´Ù ¿ÏÀüÇÏ°Ô ¹ßÀüµÇ¾ú´Ù.
GenefinderµéÀº ¾Ë·ÁÁø À¯ÀüÀÚµé°ú ±×µéÀÇ »óÀÀÇÏ´Â ´Ü¹éÁúµé¿¡ÀÇ ºñ±³¸¦ ÀÌ¿ëÇϱ⺸´Ù´Â À¯ÀüÀÚµéÀÇ ÀϹÝÀûÀΠƯ¼ºµé¿¡ ±Ù°ÅÇÏ¿© À¯ÀüÀÚ ±¸Á¶¸¦ ¿¹ÃøÇÑ´Ù. ºÎ¼öÀûÀ¸·Î´Â expressed sequence-tag (EST) matchµé°ú °°Àº ºÎ¼öÀûÀÎ Á¤º¸¿¡ ±Ù°ÅÇϱ⵵ ÇÑ´Ù. ´Ü¹éÁú µ¥ÀÌÅͺ£À̽º »óµ¿¼º°ú EST matchµéÀº À¯ÀüÀÚ ¿¹ÃøÀ» Á¤´çÈÇϴµ¥ post hoc ¹æ¹ýµé·Î ¿À·§µ¿¾È »ç¿ëµÇ¾î ¿Ô´Ù. ±×·¯³ª »õ·Î¿î ¹æ¹ýµéÀº ÀÌ Á¤º¸¸¦ Á÷Á¢ genefinding algorithm ±× ÀÚü¿¡ ÅëÇÕÇÏ¿´´Ù. ¾î¶² genefinding systemµéÀº ´Ù¼öÀÇ Åë°èÀû ÃøÁ¤µéÀ» DNA¸¦ ¸ðµç °¡´ÉÇÑ reading frameÀÇ ´Ü¹éÁú·Î ¹ø¿ªÇÏ¿© ´Ü¹éÁú µ¥ÀÌÅͺ£À̽º¸¦ °Ë»öÇÏ¿© ¾ò¾îÁø µ¥ÀÌÅͺ£À̽º »óµ¿¼º °Ë»ö°ú È¥ÇÕÇÏ¿´´Ù.
URLs Computational genefinding bibliographies http://linkage.rockefeller.edu/wli/gene/ http://www-hto.usc.edu/software/procrustes/fans_ref/ Genefinding datasets Single genes: ftp://www-hgc.ibl.gov/pub/genesets/ Annotates contigs: http://www.sanger.ac.uk/Projects/C_elegans/genefinding Some HMM-based genefinder genes Genie: http://www.cse.ucsc.edu/¡dkulp/cgi-bin/genie GenScan: http://CCR-081.mit.edu/GENSCAN.html HMMgene: http://www.cbs.dtu.dk/services/HMMgene/ GeneMark-HMM: http://genemark.biology.gatech.edu/GeneMark/hmmchoice.html Veil: http://www.cs.jhu.edu/labs/compbio/veil.html Some further genefinders AAT: http://genome.cs.mtu.edu/aat.html FGENEH: http://dot.imgen.bcm.tmc.edu:9331/gene-finder/gf.html GENEID: http://www.imim.es/GeneIdentification/Geneid/geneid_input.html Genlang: http://cbil.humgen.upenn.edu/¡sdong/genlang_home.html GeneParser: http://beagle.colorado.edu/¡eesnyder/GeneParser.html Glimmer: http://www.cs.jhu.edu/labs/compbio/glimmer.html Grail: http://compbio.ornl.gov/ MZEF: http://www.cshl.org/genefinder Procrustes: http://www-hto.usc.edu/software/procrustes/ |
»óµ¿¼º Á¢±ÙÀº Gelfand µî¿¡ ÀÇÇØ
°³¹ßµÈ genefinding ÇÁ·Î±×·¥¿¡¼ ±× ±Ø´ÜÀûÀÎ Á¦¾à¿¡ È£¼ÒÇÏ°Ô µÇ¾ú´Ù. Procrustes¶ó
ºÒ¸®´Â ÀÌ ½Ã½ºÅÛÀº »ç¿ëÀÚ·Î ÇÏ¿©±Ý ¿¹ÃøµÉ À¯ÀüÀÚ¿Í °¡±î¿î ´Ü¹éÁú homolog¸¦ Á¦°øÇϵµ·Ï
¿ä±¸ÇÑ´Ù. ±×·¯¸é Smith-Waterman algorithm¿¡ À¯»çÇÑ 'spliced alignment' algorithmÀÌ
DNA¸¦ homolog¿¡ ¹è¿ÇÔÀ¸·Î½á ÃßÁ¤ÇÏ´Â À¯ÀüÀÚ±¸Á¶¸¦ À¯µµÇϴµ¥ »ç¿ëµÈ´Ù. ÀÌ ¹æ¹ýÀÇ
°¡Àå Å« Ãë¾àÁ¡Àº °¡±î¿î homolog¸¦ ¿ä±¸ÇÑ´Ù´Â °ÍÀÌ´Ù. ÀϹÝÀûÀ¸·Î´Â homologµéÀÌ
¾Ë·ÁÁöÁö ¾Ê¾Ò°Å³ª °Å¸®°¡ ¸Õ °æ¿ì°¡ Á¾Á¾ÀÖ´Ù. ÀÌ·± °æ¿ì´Â ÀÌ ½Ã½ºÅÛÀÌ ºÎÀûÀýÇÒ
°ÍÀÌ´Ù. ±×·³¿¡µµ ºÒ±¸ÇÏ°í ¸Å¿ì °¡±î¿î homolog°¡ ÀÖ´Â °æ¿ì´Â Procrustes´Â ¸Å¿ì
È¿°úÀûÀÎ genefinding ¹æ¹ýÀÌ´Ù.