Text-based database searching
(by Fran Lewitter)
»ý¹°Çаú ¿¬°üµÈ ÀÚ·áµéÀÇ ¾çÀÌ ¸Å¿ì ºü¸¥ ¼Óµµ·Î Áõ°¡ÇÏ¸é¼ ÀÌ·± Á¤º¸¿¡ ¾î¶»°Ô Á¢±ÙÇÏ°í °Ë»öÇÏ´À³Ä¸¦ ¾Æ´Â °ÍÀÌ ÇʼöÀûÀÎ ÀÏÀÌ µÇ¾ú´Ù. ƯÈ÷ ºÐÀÚ»ý¹°ÇÐÀڵ鿡°Ô °ü·ÃµÈ 3°¡Áö ÀÚ·á°¡ ÀÖ´Ù - Entrez, Sequence Retrieval System (SRS), ±×¸®°í DBGET.
WWW¸¦ ÅëÇØ Á¢±ÙÇÒ ¼ö ÀÖ´Â »ý¹°ÇÐÀû Á¤º¸ÀÇ ¾çÀº ½Ç·Î ¾î¸¶¾î¸¶ÇÏ´Ù. ±×¸®°í ±× ¾çÀº ºü¸¥ ¼Óµµ·Î Áõ°¡Çϰí ÀÖ´Ù. ½ÇÇè°úÇÐÀÚ¿¡°Ô´Â ÀڷḦ Àо¾î ÀÚ½ÅÀÇ ¿¬±¸¿¡ Áß¿äÇÑ °ÍÀ» ã¾Æ³»´Â ½±°í È¿°úÀûÀÎ ¹æ¹ýÀÌ Áß¿äÇÏ´Ù. ´Ü¼øÈ÷ ÀڷḦ µÚÁö´Â °ÍÀÌ ¾Æ´Ï¶ó °Ë»öÀ» ½Ç½ÃÇÏ´Â °ÍÀÌ º¸´Ù È¿°úÀûÀÎ Á¢±Ù ¹æ¹ýÀÌ´Ù. ÀÚ·áÀÇ À¯Çü¿¡ µû¶ó °Ë»öÇÒ ¼ö ÀÖ´Â ¹æ¹ýÀÌ µÎ°¡Áö°¡ ÀÖ´Ù: Çϳª´Â ±â¼úÀûÀÎ ´Ü¾îµéÀ» »ç¿ëÇÏ¿© ÅØ½ºÆ® ÀڷḦ ã´Â °ÍÀÌ°í ´Ù¸¥ ¹æ¹ýÀº ´ºÅ¬·¹¿ÀƼµå³ª ´Ü¹éÁú ¼¿À» »ç¿ëÇÏ¿© ¼¿ ÀڷḦ °Ë»öÇÏ´Â °ÍÀÌ´Ù.
¿©±â¼´Â ºÐÀÚ»ý¹°ÇÐ ÀÚ·áµéÀÇ ÅØ½ºÆ® °Ë»öÀÌ °¡´ÉÇÏ°í °Ë»ö ±âÁØ¿¡ ºÎÇյǴ °ü·ÃµÈ Á¤º¸¸¦ ¿¬°á½ÃÄÑÁÖ´Â Entrez, SRS, DBGET, ¼¼°¡Áö µµ±¸¿¡ ´ëÇÏ¿© ¼³¸íÇϰڴÙ. ±âº»ÀûÀÎ (basic) °Ë»ö°ú °í±Þ (advanced) °Ë»ö Àü·«¿¡ ´ëÇÑ ¿¹µéµµ Æ÷Ç﵃ °ÍÀÌ´Ù. ¿©±â¼ Á¦°øµÇ´Â ¹æ¹ýµéÀº ºñ·Ï ÅØ½ºÆ®¿¡ ±Ù°ÅÇÑ °Ë»öÀÌ °¡´ÉÇÑ ¸¹Àº ÀÚ·áµé¿¡ ´ëÇÑ ³íÀǰ¡ ºüÁ®ÀÖÁö¸¸ Àü¹ÝÀûÀ¸·Î ÀÀ¿ëÀÌ °¡´ÉÇϰí, SGD (Saccharomyces Genome Database)¿Í MGD (Mouse Genome Database)¿Í °°Àº »ý¹°Ã¼ ƯÀÌÀûÀÎ ÀÚ¿ø¿¡µµ »ç¿ëµÉ ¼ö ÀÖ´Ù.
ÀÌ ÀÚ·áÃßÃ⠽ýºÅÛµéÀº Á¤º¸¸¦ °Ë»öÄÚÀÚ ÇÏ´Â °úÇÐÀÚ¿¡°Ô ÇʼöÀûÀÌ´Ù. ÀÌ·¯ÇÑ ½Ã½ºÅÛµé Áß ¾î¶² °ÍÀ» »ç¿ëÇÒÁö¶óµµ ÁúÀÇ (query)´Â µî·Ï¹øÈ£ (accession number)¸¦ ÀÔ·ÂÇÏ´Â °Íó·³ °£´ÜÇϰųª ƯÀÌÀûÀÎ ¿ë¾îµé¿¡ ´ëÇÑ ´Ù¼öÀÇ ÀÚ·áµéÀ» °Ë»öÇÏ´Â °Íó·³ º¹ÀâÇÒ ¼öµµ ÀÖ´Ù (Box 1 ÂüÁ¶). Entrez, SRS, DBGETÀÇ ÀåÁ¡Àº ÁúÀÇ¿¡ ÀÏÄ¡ÇÏ´Â °ÍµéÀ» ȸ½ÅÇÏ¿©ÁÙ »Ó¸¸ ¾Æ´Ï¶ó °ü·ÃµÈ ÀÚ·áµé¿¡¼ Ãß°¡ÀûÀÎ Áß¿äÇÑ Á¤º¸µé¿¡ ´ëÇÑ ¼Õ½¬¿î Á¢¼ÓÀ» Á¦°øÇÏ¿©Áشٴ °ÍÀÌ´Ù. ÀÌ ¼¼°¡Áö ½Ã½ºÅÛµéÀº ±×µéÀÌ °Ë»öÇÏ°í ´Ù¸¥ Á¤º¸¿¡ ¿¬°áÇØÁÖ´Â ÀÚ·áµéÀÌ ´Ù¸£´Ù.
Box 1. Search concepts Boolean search: µÎ °³ ÀÌ»óÀÇ ¿ë¾îµéÀ» »ç¿ëÇÏ¿© °Ë»öÇÒ ¶§ »ç¿ëµÇ´Â Áøº¸µÈ ÁúÀÇ ±â¼ú·Î¼ ¿ë¾îµéÀº Boolean operatorµéÀÎ AND, OR, NOT¸¦ »ç¿ëÇÏ¿© ¹èÇյȴÙ. ¼³Á¤µÈ Boolean operator´Â AND ÀÌ´Ù. Broadening the search: ¸¸¾à °Ë»öÀÌ À¯¿ëÇÑ °á°ú¸¦ º¸¿©ÁÖÁö ¾ÊÀ¸¸é ÀÔ·ÂµÈ ¿ë¾îµéÀ» º¯È ¶Ç´Â Á¦°ÅÇÒ ¼ö ÀÖ´Ù. Narrowing the search: °Ë»öÀÌ ³Ê¹« ¸¹Àº °á°úµéÀ» º¸¿©ÁÖ¸é ÀÔ·ÂµÈ ¿ë¾îµéÀ» º¯È ¶Ç´Â Ãß°¡ÇÒ ¼ö ÀÖ´Ù. Proximity searching: ¸î°¡Áö ´Ü¾î³ª ±¸¸¦ »ç¿ëÇÏ¿© °Ë»öÇÏ´Â °ÍÀÌ´Ù. Wild card: * ¹®ÀÚ¸¦ »ç¿ëÇÏ¿© ºñƯÀÌÀû °Ë»öÀÌ °¡´ÉÇÏ´Ù. ¿¹¸¦ µé¾î ¼ºÀÌ P·Î ½ÃÀ۵Ǵ ¸ðµç ÀúÀÚµéÀ» ãÀ¸·Á¸é P* ¸¦ ÀÔ·ÂÇÑ´Ù. |
Entrez (http://www.ncbi.nlm.nih.gov/Entrez)
À̰ÍÀº NCBI¿¡¼ °³¹ßµÈ °ÍÀ¸·Î ±¸ºÐµÈ ±×·¯³ª ¿¬°üµÈ ÀÚ·áµé¿¡ ´ëÇÑ °Ë»öÀÌ °¡´ÉÇÏ´Ù. Entrez systemÀº ´ºÅ¬·¹¿ÀƼµå¿Í ´Ü¹éÁú ¼¿ÀÚ·áµé, ºÐÀڸ𵨠3Â÷±¸Á¶ (MMDB), °Ô³ð°ú map ÀÚ·á, ±×¸®°í ¹®Çå¿¡ ´ëÇÑ Á¢¼ÓÀ» Á¦°øÇÑ´Ù. ¹®Çå ÀÚ·áÀÎ PubMed´Â MEDLINE°ú pre-MEDLINE (not fully index) ±â»çµé¿¡ ´ëÇÑ ½±°íµµ Ź¿ùÇÑ °Ë»öÀ» Á¦°øÇÑ´Ù. ºÐ·ùÀÚ·á´Â 23,000 °³ ÀÌ»óÀÇ Á¾À» Æ÷ÇÔÇÏ¸ç ¾î¶² ºÐ·ù±º¿¡ ´ëÇÑ DNA¿Í ´Ü¹éÁú ¼¿µéµµ ¾òÀ» ¼ö ÀÖ´Ù.
¼¼°¡Áö ÅØ½ºÆ®¿¡ ±Ù°ÅÇÑ ÀÚ·á ½Ã½ºÅÛ Áß¿¡¼µµ Entrez´Â »ç¿ëÇϱⰡ Æí¸®Çϳª ´Ù¸¥ °Í¿¡ ºñÇØ Á¦ÇÑµÈ Á¤º¸¸¦ Á¦°øÇÑ´Ù. °Ë»öÀº ÇϳªÀÇ ÀÚ·á¿¡¼ ½ÃÀÛÇÏ¿© ÁúÀÇ¿¡ ÀÏÄ¡ÇÏ´Â ±â·ÏµéÀÌ Á¦½ÃµÈ´Ù. ±×¸®°í ±× ÀÚ·á¿¡¼ °ü·ÃµÈ ±â·Ïµé (neighbors)°ú ´Ù¸¥ Entrez ÀÚ·áµé¿¡¼ ¿¬°üµÈ ±â·Ïµé (links)ÀÌ ÃßÃâµÈ´Ù. LinkµéÀº OMIM (Online Mendelian Inheritance in Man)°ú MGD¿Í °°Àº ¿ÜºÎ ÀÚ·áµé¿¡ ´ëÇØ¼µµ ¸¸µé¾îÁø´Ù. Neighborµé°ú LinkµéÀº ÁúÀÇ¿¡ À¯»çÇÑ ¼ø¼·Î ¿°ÅµÈ´Ù. À¯»ç¼ºÀº ¼¿, ±¸Á¶, ¹®Çåµé¿¡ ´ëÇØ ¹Ì¸® °è»êµÈ ºÐ¼®¿¡ ±Ù°Å¸¦ µÐ´Ù. ¿¹¸¦ µé¾î ¼¿µéÀÇ °æ¿ì¿¡¼ ¹Ì¸® °è»êµÈ ºÐ¼®Àº Blast °Ë»öÀÌ´Ù. Entrez¿¡¼ ÇѰ¡Áö Ưº°È÷ À¯¿ëÇÑ Æ¯¼ºÀº ¾î¶² ±âÁØ¿¡ ±Ù°ÅÇÑ ¸¹Àº ÀÚ·áµéÀ» ÃßÃâÇÒ ¼ö ÀÖÀ¸¸ç À̵éÀ» Áö¿ªÀûÀÎ ÄÄÇ»ÅÍ¿¡ ÀúÀåÇÒ ¼ö ÀÖ¾î ºÐ¼®¿¡ ÀÌ¿ëÇÒ ¼ö ÀÖ´Ù´Â °ÍÀÌ´Ù. ÀÌ·¯ÇÑ ¼ÒÀ§ batch Entrez´Â ¾î¶² ÆÄÀÏ·Î ±¸ºÐµÇ¾î ÀÖ´Â DNA³ª ´Ü¹éÁú ¼¿µéÀ» ÃßÃâÄÉ ÇÑ´Ù. ´õ±º´Ù³ª ºÐ·ù ÀÚ·á¿¡ ±Ù°ÅÇÑ Æ¯Á¤ÇÑ »ý¹°Ã¼¿¡ ´ëÇÑ ¸ðµç ÀڷḦ ÀÔ¼öÇÒ ¼ö ÀÖÀ¸¸ç, ¶Ç´Â ÁúÀÇ¿¡ ÀÏÄ¡ÇÏ´Â ¼¿µéÀ» ÀÔ¼öÇÒ ¼ö ÀÖ´Â Boolean °Ë»öÀÌ ÀÔ·ÂµÉ ¼ö ÀÖ´Ù.
SRS (http://srs.ebi.ac.uk)
SRS´Â ¿µ±¹ Hinxton¿¡ ÀÖ´Â European Bioinformatics Institute (EBI)¿¡¼ °³¹ßµÈ °ÍÀ¸·Î 80°³°¡ ³Ñ´Â »ý¹°ÇÐÀû ÀÚ·áµéÀ» °øÀ¯Çϰí ÀÖ´Ù. Æ÷ÇÔµÈ ÀÚ·áµéÀº ¼¿, ¼¿°ú °ü·ÃµÈ ´ë»ç°æ·Î, Àü»çÁ¶ÀýÀÎÀÚ, Àû¿ë°á°ú (e.g. BLAST), ´Ü¹éÁú 3Â÷¿ø±¸Á¶, genome, mapping, µ¹¿¬º¯ÀÌ¿Í locus-specific µ¹¿¬º¯À̵éÀÌ´Ù. ¸ðµç ÀÚ·áµéÀ» ¿°ÅÇϰí ÀÖ´Â À¥ÆäÀÌÁö´Â ÀÚ·á¿¡ °üÇÑ ¼³¸íµµ Á¦°øÇϰí ÀÖ´Ù. ÁúÀǸ¦ Çϱâ Àü¿¡ °Ë»öÇÒ Çϳª ¶Ç´Â ±× ÀÌ»óÀÇ ÀÚ·áµéÀ» ¼±ÅÃÇÑ´Ù. ÇöÀç WWW¿¡¼ ¿î¿µµÇ´Â SRS´Â 30°³ Á¤µµÀ̸ç, °¢±â ´Ù¸¥ ÀÚ·áµé°ú ºÐ¼®µµ±¸µéÀ» °¡Áö°í ÀÖ´Ù.
ºñ·Ï °Ë»öÇÒ ¼ö ÀÖ´Â ÀÚ·áµéÀº ¸¹Áö¸¸, SRS ÀÚ·áµéÀº »öÀÎÀÌ ÀߵǾî Àֱ⠶§¹®¿¡ °Ë»ö½Ã°£À» ÁÙ¿©ÁØ´Ù. °¢ ÀÚ·áÀÇ ³»¿ëÀº ±¸¼º¿ä¼Ò·Î ³ª´µ¾îÁö°í, ¼±ÅÃµÈ ´Ü¾îµéÀº ÃßÃâµÇ¾î »öÀο¡ »ðÀԵȴÙ. °¢ ÀÚ·áÀÇ Ç׸ñÀº ±× ÀÚ½ÅÀÇ »öÀÎÀ» °¡Áø´Ù. ÁúÀÇ Çü½ÄÀº ƯÁ¤ Ç׸ñ¿¡ ´ëÇÑ °Ë»ö¿ë¾î¸¦ ÀÔ·ÂÇÒ ¼ö Àְųª, ¸ðµç Ç׸ñµéÀ» 'Alltext' ¿É¼ÇÀ» »ç¿ëÇÏ¿© °Ë»öÇÒ ¼ö ÀÖ´Ù. SRS´Â Á»´õ º¹ÀâÇÑ Boolean ÁúÀǰ¡ ±¸¼ºµÉ ¼ö ÀÖµµ·Ï ´Ù¸¥ ÁúÀÇÇü½Äµµ Á¦°øÇÑ´Ù.
DBGET (http://www.genome.ad.jp/dbget/dbget2.html)
DBGET/Link DB´Â ±³Åä ´ëÇÐÀÇ Institute for Chemical Research Institute¿Í µµ²Ø ´ëÇÐÀÇ Human Genome Center¿¡ ÀÇÇØ °³¹ßµÈ º¹ÀâÇÑ ÀÚ·áȸ¼ö ½Ã½ºÅÛÀ¸·Î GenomeNet¸¦ ÅëÇØ ÀÌ¿ëµÉ ¼ö ÀÖ´Ù. DBGET´Â ¾à 20°¡ÁöÀÇ ÀÚ·áµé¿¡ ´ëÇÑ Á¢¼ÓÀ» Á¦°øÇÑ´Ù. À̵éÀº Çѹø¿¡ Çϳª¾¿ ÀÌ¿ëÇÒ ¼ö ÀÖ´Ù. ÀÌ ÀÚ·áµé Áß Çϳª¿¡ ÁúÀǸ¦ ÀÔ·ÂÇϸé DBGET´Â °á°ú ¸®½ºÆ®¿¡ ¿¬°üµÈ Á¤º¸¸¦ Ãß°¡·Î ¿¬°á½ÃÄÑ ÁØ´Ù. LinkDB ÀÚ·á´Â ¶ÇÇÑ µû·Î ±âÀÔÇÏ¿© Á÷Á¢ °Ë»öÇÒ ¼ö ÀÖÀ¸¸ç, ¿¬°üµÈ Á¤º¸¿¡ ´ëÇÑ ¸ðµç ÀÚ·á¿¡ ´ëÇÑ ¿¬°áÀ» ¿°ÅÇØÁØ´Ù. DBGETÀÇ ¶Ç ´Ù¸¥ Ư¡Àº ´ë»ç¿Í Á¶Àý °æ·Î¿¡ ´ëÇÑ Å×ÀÌÅͺ£À̽ºÀÎ KEGG (Kyoto Encyclopedia of Genes and Genomes) ÀÚ·á¿Í ¿¬°áµÇ¾î ÀÖ´Ù´Â °ÍÀÌ´Ù.
DBGET´Â Á¦ÇѵDZä ÇÏÁö¸¸ SRS³ª Entrez º¸´Ù´Â °£´ÜÇÑ °Ë»ö¹æ¹ýÀ» Á¦°øÇÑ´Ù. DBGET¿¡¼´Â µÎ°¡ÁöÀÇ ¸í·É ('bfind' ¶Ç´Â 'bget')À» »ç¿ëÇÏ¿© ÀڷḦ °Ë»öÇÒ ¼ö ÀÖ´Ù. 'bfind' ¸í·ÉÀº ÅØ½ºÆ® ¿ë¾î¿¡ ±Ù°ÅÇÑ °Ë»öÀ» °¡´ÉÄÉ ÇÑ´Ù. ±× °á°ú ÀÏÄ¡ÇÏ´Â °ÍµéÀÌ ¿¬°üµÈ Á¤º¸ÀÇ ¸µÅ©¿Í ÇÔ²² ¿°ÅµÈ´Ù. 'bget' ¸í·ÉÀº entry nameÀ̳ª accession number·Î °Ë»öÇÑ´Ù.
Examples
´ÙÀ½ ¿¹´Â ¾î¶»°Ô °¢ ½Ã½ºÅÛ¿¡¼ SWISS-PROT entry P04391 (´ëÀå±ÕÀÇ ornithine carbamoyltransferase protein)ÀÇ ÀڷḦ ¾ò¾î³¾ ¼ö ÀÖ´ÂÁö º¸¿©ÁØ´Ù. Entrez¿¡¼´Â protein database query ¾ç½Ä¿¡ P04391À» ÀÔ·ÂÇÏ¿© ±× °á°ú¸¦ °ü·ÃµÈ ÀÚ·á¿Í ÇÔ²² º¼ ¼ö ÀÖ´Ù. SRS¿¡¼´Â ¿ì¼± SWISS-PROT database¸¦ ¼±ÅÃÇϰí P04391À» ÀÔ·ÂÇÑ´Ù. ±×¸®°í Àü°³µÈ Á¤º¸¿¡¼ ´Ù¸¥ ¿¬°üµÈ databaseµé¿¡ ´ëÇÑ ¿¬°áÀ» °Ë»öÇÑ´Ù. ±×·¯³ª ÀÌ ÀÚ·á¿¡ ´ëÇÑ Á¤º¸¸¦ ¸ðÀ¸´Â °¡Àå ºü¸¥ ¹æ¹ýÀº LinkDB¸¦ °Ë»öÇÏ´Â °ÍÀÌ´Ù. swissprot:P04391À» ÀÔ·ÂÇÏ¸é ¸ðµç °ü·ÃµÈ ÀÚ·áµé¿¡ ´ëÇÑ ¸µÅ©¸¦ ¿°ÅÇØÁØ´Ù.
You can't always get what you want
Text-based °Ë»öÀº °Ë»öÄÚÀÚ ÇÏ´Â ÅØ½ºÆ®, Àοë, »öÀεéÀÇ Áú¿¡ ´Þ·ÁÀÖ´Ù. ¸¸¾à ÀԷ»çÇ×ÀÌ ÃæºÐÈ÷ ÀοëµÇ¾î ÀÖÁö ¾Ê´Ù¸é °ü·ÃµÈ ¸ðµç ÀÚ·áµéÀ» ã¾Æ³»Áö ¸øÇÒ °ÍÀÌ´Ù. ÅØ½ºÆ®´Â free form À̳ª controlled vocabulary ÀÏ ¼ö ÀÖÀ¸¸ç °¢±â ´Ù¸¥ ¹®Á¦¸¦ ¾ß±â½ÃŲ´Ù. ¿¹¸¦ µé¾î free-form ÅØ½ºÆ®ÀÎ °æ¿ì öÀÚ¹ýÀÌ Æ²¸± ¼ö°¡ ÀÖ´Ù. °¡·É hyphen (-)°ú °ü·ÃµÈ °æ¿ì ¾î¶² ¶§´Â À̰ÍÀÌ Æ÷Ç﵃ ¼öµµ ÀÖ°í, »ç¿ëµÇÁö ¾ÊÀ» ¼öµµ ÀÖ´Ù. Keyword °Ë»öÀÇ °æ¿ìµµ ÀÌ·¯ÇÑ ¹®Á¦´Â ¹ß»ýÇÑ´Ù. Controlled vocabulary´Â Medline °Ë»ö¿¡¼ »ç¿ëµÇ´Â MeSH°¡ ÇØ´çµÈ´Ù. À̰ÍÀ» »ç¿ëÇϱâ À§Çؼ´Â À̰ÍÀÌ ¾î¶»°Ô ±¸¼ºµÇ´ÂÁö ¹Ì¸® ÀÌÇØÇØ¾ß¸¸ ÇÑ´Ù.