2. FASTA
2-1.
¾Ë°í¸®Áò
FASTA´Â ¿ì¼± µÎ
¼¿°£ÀÇ dot blotÀ» ±×¸²À¸·Î¼ ºñ±³¸¦ ½ÃÀÛÇÑ´Ù.
Dot blot¿¡¼ ÀÏÄ¡ÇÏ´Â °¡Áø ºÎºÐÀº ´ë°¢¼±À¸·Î Ç¥½ÃÇÏ°í ±×·ÁÁø ´ë°¢¼±µéÀÇ
ÇÕÀ» °è»êÇÑ´Ù. Smith-Waterman
¹æ¹ý°ú FASTAÀÇ °¡Àå Å«
Â÷ÀÌÁ¡Àº FASTA´Â µ¥ÀÌÅͺ£À̽º¿¡ ÀÖ´Â ¸ðµç ¼¿µé°ú dot matrix¸¦
±×¸®Áö ¾Ê°í ´ë½Å FASTA´Â ¡°word¡±¸¦
±â¹ÝÀ¸·Î ÇÑ ¹æ¹ýÀ» ÀÌ¿ëÇÑ´Ù´Â Á¡ÀÌ´Ù.
FASTA°¡ ÀûÀýÇÑ ¼¿À»
ã¾Æ³»´Â ¹æ¹ýÀº ´ÙÀ½°ú °°´Ù. (±×¸² ÂüÁ¶)
1) FASTA´Â
ÀÔ·ÂÇÑ ¼¿·ÎºÎÅÍ ÇѰ³ (ktup=1) ȤÀº µÎ°³ (ktup=2)ÀÇ ´Ü¹éÁú
¼¿ (ȤÀº 3°³ ȤÀº 6°³ÀÇ ¿°±â ¼¿)·Î ÀÌ·ç¾îÁø ¡°´Ü¾î (ktup)¡±µéÀÇ
Á¶ÇÕÀ» ¸¸µç´Ù. ±×¸®°í
µ¥ÀÌÅͺ£À̽ºÀÇ ÀÓÀÇÀÇ ÇÑ ¼¿¿¡¼ °¢ ´Ü¾îµé°ú ÀÏÄ¡ÇÏ´Â ´Ü¾îµéÀ» ã¾Æ³»¾î °¢°¢ÀÇ
´Ü¾îµéÀ» ¿¬°áÇÏ´Â ´ë°¢¼±À» ¸¸µç´Ù.
¹°·Ð À̶§ Áߺ¹µÈ ´Ü¾îµéÀº
Á¦°ÅÇÑ´Ù.
2) Á¡¼ö°¡ ³ôÀº ´ë°¢¼± ºÎºÐ 10°³¸¦ ¼±ÅÃÇØ PAM250°ú °°Àº ġȯ Çà·Ä(replacement matrix)À» ÀÌ¿ëÇÏ¿© °ª(score)µéÀ» ´Ù½Ã °è»êÇÑ´Ù. À̶§ °¡Àå Å« °ªÀ» °¡Áø ºÎºÐÀ» ¡°init1¡±À̶ó Á¤ÀÇÇÑ´Ù.
3) gapÀ» Çã¿ëÇÏ¿© ¸î¸îÀÇ high-scoring ´ë°¢¼± ºÎºÐµéÀ» ÇÕÄ¡°í °¡Àå ³ôÀº Á¡¼ö¸¦ initnÀ̶ó°í ÇÑ´Ù.
4) initnÀÌ ³ôÀº ¼¿µéÀ» ¼±ÅÃÇϰí Smith-Waterman ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÏ¿© µÎ ¼¿À» ÃÖÀûÈ ¹è¿ (optimal alignment) ÇÏ°í °ª(score)¸¦ °è»êÇÑ´Ù. ÀÌ °ªÀ» optimized score (opt.)·Î Á¤ÀÇÇÑ´Ù.
À§ÀÇ ¹æ¹ý¿¡¼ ´Ü¾îÀÇ Å©±â(ktup)¸¦ 1(ÇÑ °³ÀÇ ´Ü¹éÁúÀ» 1°³ÀÇ ´Ü¾î·Î Á¤ÀÇ)·Î ÇÏ´Â °ÍÀÌ ÈξÀ ´õ Á¤È®ÇÏ°Ô ºñ±³ÇÏ´Â ¹æ¹ýÀ̶ó´Â °ÍÀ» ¾Ë ¼ö ÀÖ´Ù. ÇÏÁö¸¸ FASTA¿¡¼ ±âº» ´Ü¾î °ªÀº 2·Î µÇ¾î ÀÖ´Ù. ÇÏÁö¸¸ ´Ü¾îÀÇ Å©±â¸¦ 1·Î ÇÏ¿´À» ¶§ ºñ±³ ¼Óµµ´Â ÈξÀ ´À·ÁÁö°Ô µÈ´Ù.
2-2.
FASTAÀÇ
ÀÔ·Â
Çü½Ä
FASTA´Â ÀÚüÀûÀ¸·Î ÀÔ·ÂÇÑ ¼¿ÀÌ ¿°±â ÀÎÁö
´Ü¹éÁúÀÎÁö¸¦ ÆÇ´ÜÇÑ´Ù. ÆÇ´Ü ±âÁØÀº ÀÔ·ÂÇÑ ¼¿ Áß A,C,G,T°¡
Àüü ¼¿ÀÇ 85% ÀÌ»óÀÌ µÇ¸é ¿°±â·Î ÆÇ´ÜÇÏ°í ±×·¸Áö ¾ÊÀ¸¸é ´Ü¹éÁú·Î ÆÇ´ÜÇÑ´Ù. FASTA´Â standard text
format sequence fileÀ» ÀÌ¿ëÇÑ´Ù. ù
ÁÙÀº ¡®>¡¯³ª
¡®;¡¯¸¦
¾´ ÈÄ comment¸¦ ³ÖÀ» ¼ö ÀÖ´Ù.
±× ´ÙÀ½ ÁÙºÎÅÍ ¼¿À» ÀÔ·ÂÇÏ¸é µÈ´Ù. FASTA´Â Ư¼ö¹®ÀÚ³ª ºóÄ,
tabµîÀº ¹«½ÃÇϰí single letter amino acid codes¸¦ ÀνÄÇÑ´Ù.
¿¹)> Brassica napus BTH1
AREGTKMQSLGGIRSWPATWRTTTASMTTTTTESVRKVAQVLTVAGSDSGAGAGIQADI
KVCAARGVYCASVKTAVKAKNTRAVQSVHLLPPDSVSEQLKSVLSDFEVDVVKTGMLPS
PEIVEVLLQNLSEYPVRALVVDPVMVSTSGHVLAGSSILSIFRERLLPLADIITPNVKE
ASALLGGVRIQTVAEMRSAAKSLHQMGPRFVLVKGGDLPDSSDSVDVYFDGNEFHELHS
PRIATRNTHGTGCTLASCIAAELAKGSNMLSAVKVAKRFVDSALNYSKDIVIGSGMQGP
FDHFLSLKDPQSYRQSTFKPDDLFLYAVTDSRMNKKWNRSIVDAVKAAIEGGATIIQLR
EKEAETREFLEEAKSCVDICRSNGVCLLINDRFDIAIALDADGVHVGQSDMPVDLVRSL
LGPDKIIGVSCKTQEQAHQAWKDGADYIGSGGVFPTNTKANNRTIGLDGLREVCKASKL
PVVAIGGIGISNAESVMRIGEPNLKGVAVVSALFDQECVLTQAKKLHKTLTESKREH
2-3. FASTA programÀÇ Á¾·ù
FASTA |
¿°±â ¼¿ ȤÀº ´Ü¹éÁú ¼¿°£ÀÇ À¯»ç¼º °Ë»ç |
TFASTA |
ÀÔ·ÂÇÑ ´Ü¹éÁú ¼¿°ú µ¥ÀÌÅͺ£À̽ºÀÇ ¿°±â ¼¿À» translation ½ÃŲ ÈÄ À¯»ç¼º °Ë»ç |
LFASTA |
µÎ ´Ü¹éÁú ȤÀº ¿°±â ¼¿ÀÇ ºÎºÐ À¯»ç¼º °Ë»ö(compare local similarity)À» ¼öÇàÇÑ ÈÄ ºÎºÐ ¼¿ ¹è¿(local sequence alignment)ÀÇ °á°ú¸¦ º¸¿©ÁÜ |
PFASTA |
µÎ ¼¿ÀÇ ºÎºÐ À¯»ç¼º °Ë»ö ÈÄ ºÎºÐ ¼¿ ¹è¿ÀÇ °á°ú¸¦ ±×¸²À¸·Î º¸¿©ÁÜ |
2-4.
FASTA3.0
°¡Àå ÃÖ±Ù¿¡ ³ª¿Â FASTA versionÀ¸·Î ¼ºñ½º ÆäÀÌÁö (http://www2.ebi.ac.uk/ fasta3/)¿¡ °¡¼ ¼¿À» ÀÔ·ÂÇÏ½Ã¸é °Ë»öÀ» ¼öÇà ÇÒ ¼ö ÀÖ´Ù. FASTA´Â ¼¿À» ÀÔ·ÂÇϸé ÀÚµ¿À¸·Î ¿°±â ¼¿ÀÎÁö ´Ü¹éÁú ¼¿ÀÎÁö¸¦
ÆÇ´ÜÇÑ´Ù. Áï
Àüü ¼¿ Áß ACGTÀÇ ¼¿ÀÌ 80%
ÀÌ»óÀ» Â÷ÁöÇÏ¸é ¿°±â ¼¿·Î, ±×·¸Áö
¾ÊÀº °æ¿ì¿¡´Â ´Ü¹éÁú ¼¿·Î ÆÇ´ÜÇÑ´Ù.
¶ÇÇÑ ¸¹Àº °Ë»ö ÆÄ¶ó¹ÌÅ͸¦ Á¦°øÇϴµ¥ ±×
Áß °¡Àå Áß¿äÇÑ °ªÀº ktupÀÌ´Ù.
FASTA¿¡¼ ¿°±âÀÎ °æ¿ì 6, ´Ü¹éÁúÀÎ
°æ¿ì 2°¡ ±âº»°ªÀ¸·Î µÇ¾î ÀÖ´Ù. óÀ½
FASTA°¡ °³¹ßµÇ¾úÀ» °æ¿ì PAM °è¿ÀÇ
ÃøÁ¤ Çà·Ä ¹Û¿¡ Á¦°øµÇÁö ¾Ê¾ÒÁö¸¸ ÃÖ±Ù
versionÀÇ °æ¿ì¿¡´Â BLOSUM°è¿µµ
Á¦°øÇϰí ÀÖ¾î BLAST¿¡ ºñÇØ ´õ ÁÁÀº
sensitivity¸¦ °¡Áø °ÍÀ¸·Î
º¸°íµÇ°í ÀÖ´Ù.
°Ë»ö ÆÄ¶ó¹ÌÅÍ´Â ´ÙÀ½°ú °°´Ù.
YOUR EMAIL, SEARCH TITLE, RESULT,
DATABASEµîÀÇ ¿É¼ÇÀº Bic-sw¿Í
µ¿ÀÏÇÏ´Ù. ´Ü DATABASEÀÇ °æ¿ì Bic-sw¿¡ ºñÇØ ´õ
¸¹Àº Á¾·ù¸¦ Á¦°øÇÏ¸ç ´ÙÀ½°ú °°´Ù.
swall |
SWALL Non-Redundant Protein sequence database |
|
Swissprot |
SWISS-PROT Protein Database |
|
Swnew |
Updates to SWISS-PROT |
|
Trembl |
TREMBL (Translated EMBL) |
|
Tremblnew |
TREMBLNEW |
|
EMBL |
The EMBL Database |
Non Interactive |
EFUN |
EMBL Fungi |
|
EINV |
EMBL Invertebrates |
|
EHUM |
EMBL Human |
|
EMAM |
EMBL Mammalian |
|
EORG |
EMBL Organelles |
|
EPHG |
EMBL Phages |
|
EPLN |
EMBL Plants |
|
EPRO |
EMBL Prokaryote |
|
EROD |
EMBL Rodents |
|
ESTS |
EMBL STSs |
|
ESYN |
EMBL Synthetic |
|
EUNA |
EMBL Unclassified |
|
EVRL |
EMBL Viral |
|
EVRT |
EMBL Vertebrates |
|
EEST |
EMBL ESTs |
|
EGSS |
EMBL Genome Survey Sequences |
|
EHTG |
EMBL High Throughput Genome Sequences |
|
EMNEW |
EMBL New (Updates) |
|
EMALL |
EMBL + EMBL New (Updates) |
Non Interactive |
MATRIX:
°Ë»ö¿¡ »ç¿ëµÇ´Â ÃøÁ¤ Çà·ÄÀ»
Á¤ÇÒ ¼ö ÀÖ´Ù. ±âº» matrix´Â
BLOSUM62ÀÌ´Ù.
GAP PENALTIES: Bic-swÀÇ °æ¿ì¿Í
µ¿ÀÏÇÏ´Ù. GAPOPENÀº Bic-swÀÇ
GAPWEIGHT, GAPEXT´Â LINWEIHT¿¡
ÇØ´çÇÑ´Ù. ÁÖ¾îÁø ±âº»°ªÀº ´ÙÀ½°ú °°´Ù.
|
DNA |
PROTEIN |
GAPOPEN |
-16 |
-12 |
GAPEXT |
-4 |
-2 |
SCORES
& ALIGNMENTS : Bic-swÀÇ "show number of alignment"¿Í "show
number of scores"¿Í µ¿ÀÏÇÑ
¿É¼ÇÀÌ´Ù.
KTUP/WORDSIZE : À§¿¡¼ ¼³¸íÇÑ KTUPÀ»
°áÁ¤ÇÒ ¼ö ÀÖ´Ù.
HISTOGRAM : yes¸¦ ¼±ÅÃÇϸé
°á°ú¿¡ histogramÀ» Ãâ·ÂÇÑ´Ù.
DNA STRAND : DNAÀÇ °æ¿ì ¾î¶² strand¸¦
°Ë»öÇÒ °ÍÀΰ¡¸¦ °áÁ¤ ÇÒ ¼ö ÀÖ´Ù. ±âº»°ªÀº upper strand¸¸
°Ë»öÇÏ°Ô µÇ¾îÀÖ°í ¿É¼Ç ¼±Åÿ¡ µû¶ó
bottomµµ ÇÒ ¼ö ÀÖ´Ù.
2-5.
FASTAÀÇ
°Ë»ö
°á°ú
(output) ºÐ¼®
FASTA´Â
E()-value (expectation of significance)¸¦ °è»êÇÑ´Ù. E()-value´Â °á°ú¿¡ ³ª¿Â ¼¿ÀÌ query ¼¿°ú
¿ì¿¬È÷ ¹è¿ÇØ Æ¯Á¤ score ÀÌ»óÀ» °¡Áö´Â È®·üÀ» ¶æÇÑ´Ù. °á°ú¿¡
³ª¿Â ¼¿ÀÌ »ý¹°ÇÐÀûÀ¸·Î Àǹ̰¡ ÀÖ´Ù¸é
E()-value´Â ÀÛÀº °ªÀ» °®´Â´Ù. °á°ú¿¡¼
º¸¿©ÁÖ´Â È÷½ºÅä±×·¥Àº µ¥ÀÌÅͺ£À̽ºÀÇ ¼¿µéÀÇ z-scoreµéÀÇ ºÐÆ÷¸¦
º¸¿©ÁØ´Ù. Z-score´Â opt score¿¡ ¼¿ÀÇ ±æÀ̸¦ °è»êÇÏ¿© normalizationÇÑ
°ÍÀ¸·Î ¼¿ÀÇ ±æÀÌ¿¡ ¿µÇâÀ» ¹ÞÁö ¾Ê´Â °ªÀÌ´Ù.
ÀÇ¹Ì ÀÖ´Â ¼¿ÀÎ °æ¿ì Z-score´Â
°¡´ÉÇÑ ÇÑ Å« °ªÀ» °¡Áø´Ù. Z-score¿Í expect valueÀÇ
±×·¡ÇÁ´Â ÀÔ·ÂÇÑ ¼¿°ú µ¥ÀÌÅͺ£À̽ºÀÇ ¼¿µéÀÌ ÀÓÀÇ·Î À¯»ç¼ºÀ» ³ªÅ¸³»´Â °Í°ú
ÁÖ¸ñÇÒ ¸¸ÇÑ À¯»ç¼ºÀ» °¡Áø ¼¿µéÀÇ ±¸º° ±âÁØÀ» Á¦½ÃÇØ ÁØ´Ù.