2. FASTA

2-1. ¾Ë°í¸®Áò
        
FASTA´Â ¿ì¼± µÎ ¼­¿­°£ÀÇ dot blotÀ» ±×¸²À¸·Î¼­ ºñ±³¸¦ ½ÃÀÛÇÑ´Ù.  Dot blot¿¡¼­ ÀÏÄ¡ÇÏ´Â °¡Áø ºÎºÐÀº ´ë°¢¼±À¸·Î Ç¥½ÃÇÏ°í ±×·ÁÁø ´ë°¢¼±µéÀÇ ÇÕÀ» °è»êÇÑ´Ù.  Smith-Waterman ¹æ¹ý°ú FASTAÀÇ °¡Àå Å« Â÷ÀÌÁ¡Àº FASTA´Â µ¥ÀÌÅͺ£À̽º¿¡ ÀÖ´Â ¸ðµç ¼­¿­µé°ú dot matrix¸¦ ±×¸®Áö ¾Ê°í ´ë½Å FASTA´Â ¡°word¡±¸¦ ±â¹ÝÀ¸·Î ÇÑ ¹æ¹ýÀ» ÀÌ¿ëÇÑ´Ù´Â Á¡ÀÌ´Ù.

FASTA°¡ ÀûÀýÇÑ ¼­¿­À» ã¾Æ³»´Â ¹æ¹ýÀº ´ÙÀ½°ú °°´Ù. (±×¸² ÂüÁ¶)
            1)
 FASTA´Â ÀÔ·ÂÇÑ ¼­¿­·ÎºÎÅÍ ÇѰ³ (ktup=1) ȤÀº µÎ°³ (ktup=2)ÀÇ ´Ü¹éÁú ¼­¿­ (ȤÀº 3°³ ȤÀº 6°³ÀÇ ¿°±â ¼­¿­)·Î ÀÌ·ç¾îÁø ¡°´Ü¾î (ktup)¡±µéÀÇ Á¶ÇÕÀ» ¸¸µç´Ù.  ±×¸®°í µ¥ÀÌÅͺ£À̽ºÀÇ ÀÓÀÇÀÇ ÇÑ ¼­¿­¿¡¼­ °¢ ´Ü¾îµé°ú ÀÏÄ¡ÇÏ´Â ´Ü¾îµéÀ» ã¾Æ³»¾î °¢°¢ÀÇ ´Ü¾îµéÀ» ¿¬°áÇÏ´Â ´ë°¢¼±À» ¸¸µç´Ù. ¹°·Ð À̶§ Áߺ¹µÈ ´Ü¾îµéÀº Á¦°ÅÇÑ´Ù.

 2) Á¡¼ö°¡ ³ôÀº ´ë°¢¼± ºÎºÐ 10°³¸¦ ¼±ÅÃÇØ PAM250°ú °°Àº ġȯ Çà·Ä(replacement matrix)À» ÀÌ¿ëÇÏ¿© °ª(score)µéÀ» ´Ù½Ã °è»êÇÑ´Ù.  À̶§ °¡Àå Å« °ªÀ» °¡Áø ºÎºÐÀ» ¡°init1¡±À̶ó Á¤ÀÇÇÑ´Ù.

 3) gapÀ» Çã¿ëÇÏ¿© ¸î¸îÀÇ high-scoring ´ë°¢¼± ºÎºÐµéÀ» ÇÕÄ¡°í °¡Àå ³ôÀº Á¡¼ö¸¦ initnÀ̶ó°í ÇÑ´Ù.

 4) initnÀÌ ³ôÀº ¼­¿­µéÀ» ¼±ÅÃÇϰí Smith-Waterman ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇÏ¿© µÎ ¼­¿­À» ÃÖÀûÈ­ ¹è¿­ (optimal alignment) ÇÏ°í °ª(score)¸¦ °è»êÇÑ´Ù.  ÀÌ °ªÀ» optimized score (opt.)·Î Á¤ÀÇÇÑ´Ù.

 


 À§ÀÇ ¹æ¹ý¿¡¼­ ´Ü¾îÀÇ Å©±â(ktup)¸¦ 1(ÇÑ °³ÀÇ ´Ü¹éÁúÀ» 1°³ÀÇ ´Ü¾î·Î Á¤ÀÇ)·Î ÇÏ´Â °ÍÀÌ ÈξÀ ´õ Á¤È®ÇÏ°Ô ºñ±³ÇÏ´Â ¹æ¹ýÀ̶ó´Â °ÍÀ» ¾Ë ¼ö ÀÖ´Ù. ÇÏÁö¸¸ FASTA¿¡¼­ ±âº» ´Ü¾î °ªÀº 2·Î µÇ¾î ÀÖ´Ù. ÇÏÁö¸¸ ´Ü¾îÀÇ Å©±â¸¦ 1·Î ÇÏ¿´À» ¶§ ºñ±³ ¼Óµµ´Â ÈξÀ ´À·ÁÁö°Ô µÈ´Ù.

2-2. FASTAÀÇ ÀÔ·Â Çü½Ä
       
FASTA´Â ÀÚüÀûÀ¸·Î ÀÔ·ÂÇÑ ¼­¿­ÀÌ ¿°±â ÀÎÁö ´Ü¹éÁúÀÎÁö¸¦ ÆÇ´ÜÇÑ´Ù.  ÆÇ´Ü ±âÁØÀº ÀÔ·ÂÇÑ ¼­¿­ Áß A,C,G,T°¡ Àüü ¼­¿­ÀÇ 85% ÀÌ»óÀÌ µÇ¸é ¿°±â·Î ÆÇ´ÜÇÏ°í ±×·¸Áö ¾ÊÀ¸¸é ´Ü¹éÁú·Î ÆÇ´ÜÇÑ´Ù.  FASTA´Â standard text format sequence fileÀ» ÀÌ¿ëÇÑ´Ù.  Ã¹ ÁÙÀº ¡®>¡¯³ª ¡®;¡¯¸¦ ¾´ ÈÄ comment¸¦ ³ÖÀ» ¼ö ÀÖ´Ù.  ±× ´ÙÀ½ ÁÙºÎÅÍ ¼­¿­À» ÀÔ·ÂÇÏ¸é µÈ´Ù.  FASTA´Â Ư¼ö¹®ÀÚ³ª ºóÄ­, tabµîÀº ¹«½ÃÇϰí single letter amino acid codes¸¦ ÀνÄÇÑ´Ù.  

¿¹)> Brassica napus BTH1

AREGTKMQSLGGIRSWPATWRTTTASMTTTTTESVRKVAQVLTVAGSDSGAGAGIQADI

KVCAARGVYCASVKTAVKAKNTRAVQSVHLLPPDSVSEQLKSVLSDFEVDVVKTGMLPS

PEIVEVLLQNLSEYPVRALVVDPVMVSTSGHVLAGSSILSIFRERLLPLADIITPNVKE

ASALLGGVRIQTVAEMRSAAKSLHQMGPRFVLVKGGDLPDSSDSVDVYFDGNEFHELHS

PRIATRNTHGTGCTLASCIAAELAKGSNMLSAVKVAKRFVDSALNYSKDIVIGSGMQGP

FDHFLSLKDPQSYRQSTFKPDDLFLYAVTDSRMNKKWNRSIVDAVKAAIEGGATIIQLR

EKEAETREFLEEAKSCVDICRSNGVCLLINDRFDIAIALDADGVHVGQSDMPVDLVRSL

LGPDKIIGVSCKTQEQAHQAWKDGADYIGSGGVFPTNTKANNRTIGLDGLREVCKASKL

PVVAIGGIGISNAESVMRIGEPNLKGVAVVSALFDQECVLTQAKKLHKTLTESKREH

2-3. FASTA programÀÇ Á¾·ù

FASTA

¿°±â ¼­¿­ ȤÀº ´Ü¹éÁú ¼­¿­°£ÀÇ À¯»ç¼º °Ë»ç

TFASTA

ÀÔ·ÂÇÑ ´Ü¹éÁú ¼­¿­°ú µ¥ÀÌÅͺ£À̽ºÀÇ ¿°±â ¼­¿­À» translation ½ÃŲ ÈÄ À¯»ç¼º °Ë»ç

LFASTA

µÎ ´Ü¹éÁú ȤÀº ¿°±â ¼­¿­ÀÇ ºÎºÐ À¯»ç¼º °Ë»ö(compare local similarity)À» ¼öÇàÇÑ ÈÄ ºÎºÐ ¼­¿­ ¹è¿­(local sequence alignment)ÀÇ °á°ú¸¦ º¸¿©ÁÜ

PFASTA

µÎ ¼­¿­ÀÇ ºÎºÐ À¯»ç¼º °Ë»ö ÈÄ ºÎºÐ ¼­¿­ ¹è¿­ÀÇ °á°ú¸¦ ±×¸²À¸·Î º¸¿©ÁÜ

 

2-4. FASTA3.0
       
°¡Àå ÃÖ±Ù¿¡ ³ª¿Â FASTA versionÀ¸·Î ¼­ºñ½º ÆäÀÌÁö (http://www2.ebi.ac.uk/ fasta3/)¿¡ °¡¼­ ¼­¿­À» ÀÔ·ÂÇÏ½Ã¸é °Ë»öÀ» ¼öÇà ÇÒ ¼ö ÀÖ´Ù.  FASTA´Â ¼­¿­À» ÀÔ·ÂÇϸé ÀÚµ¿À¸·Î ¿°±â ¼­¿­ÀÎÁö ´Ü¹éÁú ¼­¿­ÀÎÁö¸¦ ÆÇ´ÜÇÑ´Ù.  Áï Àüü ¼­¿­ Áß ACGTÀÇ ¼­¿­ÀÌ 80% ÀÌ»óÀ» Â÷ÁöÇÏ¸é ¿°±â ¼­¿­·Î, ±×·¸Áö ¾ÊÀº °æ¿ì¿¡´Â ´Ü¹éÁú ¼­¿­·Î ÆÇ´ÜÇÑ´Ù.  ¶ÇÇÑ ¸¹Àº °Ë»ö ÆÄ¶ó¹ÌÅ͸¦ Á¦°øÇϴµ¥ ±× Áß °¡Àå Áß¿äÇÑ °ªÀº ktupÀÌ´Ù. FASTA¿¡¼­ ¿°±âÀÎ °æ¿ì 6, ´Ü¹éÁúÀÎ °æ¿ì 2°¡ ±âº»°ªÀ¸·Î µÇ¾î ÀÖ´Ù.  óÀ½ FASTA°¡ °³¹ßµÇ¾úÀ» °æ¿ì PAM °è¿­ÀÇ ÃøÁ¤ Çà·Ä ¹Û¿¡ Á¦°øµÇÁö ¾Ê¾ÒÁö¸¸ ÃÖ±Ù versionÀÇ °æ¿ì¿¡´Â BLOSUM°è¿­µµ Á¦°øÇϰí ÀÖ¾î BLAST¿¡ ºñÇØ ´õ ÁÁÀº sensitivity¸¦ °¡Áø °ÍÀ¸·Î º¸°íµÇ°í ÀÖ´Ù. 

°Ë»ö ÆÄ¶ó¹ÌÅÍ´Â ´ÙÀ½°ú °°´Ù.
        YOUR EMAIL, SEARCH TITLE, RESULT, DATABASE
µîÀÇ ¿É¼ÇÀº Bic-sw¿Í µ¿ÀÏÇÏ´Ù. ´Ü DATABASEÀÇ °æ¿ì Bic-sw¿¡ ºñÇØ ´õ ¸¹Àº Á¾·ù¸¦ Á¦°øÇÏ¸ç ´ÙÀ½°ú °°´Ù.
 

swall

SWALL Non-Redundant Protein sequence database
Swissprot+Trembl+TremblNew

 

Swissprot

SWISS-PROT Protein Database

 

Swnew

Updates to SWISS-PROT

 

Trembl

TREMBL (Translated EMBL)

 

Tremblnew

TREMBLNEW

 

EMBL

The EMBL Database

Non Interactive

EFUN

EMBL Fungi

 

EINV

EMBL Invertebrates

 

EHUM

EMBL Human

 

EMAM

EMBL Mammalian

 

EORG

EMBL Organelles

 

EPHG

EMBL Phages

 

EPLN

EMBL Plants

 

EPRO

EMBL Prokaryote

 

EROD

EMBL Rodents

 

ESTS

EMBL STSs

 

ESYN

EMBL Synthetic

 

EUNA

EMBL Unclassified

 

EVRL

EMBL Viral

 

EVRT

EMBL Vertebrates

 

EEST

EMBL ESTs

 

EGSS

EMBL Genome Survey Sequences

 

EHTG

EMBL High Throughput Genome Sequences

 

EMNEW

EMBL New (Updates)

 

EMALL

EMBL + EMBL New (Updates)

Non Interactive

 

MATRIX: °Ë»ö¿¡ »ç¿ëµÇ´Â ÃøÁ¤ Çà·ÄÀ» Á¤ÇÒ ¼ö ÀÖ´Ù. ±âº» matrix´Â BLOSUM62ÀÌ´Ù.
GAP PENALTIES: Bic-sw
ÀÇ °æ¿ì¿Í µ¿ÀÏÇÏ´Ù.  GAPOPENÀº Bic-swÀÇ GAPWEIGHT, GAPEXT´Â LINWEIHT¿¡ ÇØ´çÇÑ´Ù. ÁÖ¾îÁø ±âº»°ªÀº ´ÙÀ½°ú °°´Ù.
 

 

DNA

PROTEIN

GAPOPEN

-16

-12

GAPEXT

-4

-2

SCORES & ALIGNMENTS : Bic-swÀÇ "show number of alignment"¿Í "show number of scores"¿Í µ¿ÀÏÇÑ ¿É¼ÇÀÌ´Ù.
KTUP/WORDSIZE :
À§¿¡¼­ ¼³¸íÇÑ KTUPÀ» °áÁ¤ÇÒ ¼ö ÀÖ´Ù.
HISTOGRAM : yes
¸¦ ¼±ÅÃÇÏ¸é °á°ú¿¡ histogramÀ» Ãâ·ÂÇÑ´Ù.
DNA STRAND : DNA
ÀÇ °æ¿ì ¾î¶² strand¸¦ °Ë»öÇÒ °ÍÀΰ¡¸¦ °áÁ¤ ÇÒ ¼ö ÀÖ´Ù. ±âº»°ªÀº upper strand¸¸ °Ë»öÇÏ°Ô µÇ¾îÀÖ°í ¿É¼Ç ¼±Åÿ¡ µû¶ó bottomµµ ÇÒ ¼ö ÀÖ´Ù.

2-5. FASTAÀÇ °Ë»ö °á°ú (output) ºÐ¼®
       
FASTA´Â E()-value (expectation of significance)¸¦ °è»êÇÑ´Ù. E()-value´Â °á°ú¿¡ ³ª¿Â ¼­¿­ÀÌ query ¼­¿­°ú ¿ì¿¬È÷ ¹è¿­ÇØ Æ¯Á¤ score ÀÌ»óÀ» °¡Áö´Â È®·üÀ» ¶æÇÑ´Ù.  °á°ú¿¡ ³ª¿Â ¼­¿­ÀÌ »ý¹°ÇÐÀûÀ¸·Î Àǹ̰¡ ÀÖ´Ù¸é E()-value´Â ÀÛÀº °ªÀ» °®´Â´Ù.  °á°ú¿¡¼­ º¸¿©ÁÖ´Â È÷½ºÅä±×·¥Àº µ¥ÀÌÅͺ£À̽ºÀÇ ¼­¿­µéÀÇ z-scoreµéÀÇ ºÐÆ÷¸¦ º¸¿©ÁØ´Ù. Z-score´Â opt score¿¡ ¼­¿­ÀÇ ±æÀ̸¦ °è»êÇÏ¿© normalizationÇÑ °ÍÀ¸·Î ¼­¿­ÀÇ ±æÀÌ¿¡ ¿µÇâÀ» ¹ÞÁö ¾Ê´Â °ªÀÌ´Ù.  ÀÇ¹Ì ÀÖ´Â ¼­¿­ÀÎ °æ¿ì Z-score´Â °¡´ÉÇÑ ÇÑ Å« °ªÀ» °¡Áø´Ù.  Z-score¿Í expect valueÀÇ ±×·¡ÇÁ´Â ÀÔ·ÂÇÑ ¼­¿­°ú µ¥ÀÌÅͺ£À̽ºÀÇ ¼­¿­µéÀÌ ÀÓÀÇ·Î À¯»ç¼ºÀ» ³ªÅ¸³»´Â °Í°ú ÁÖ¸ñÇÒ ¸¸ÇÑ À¯»ç¼ºÀ» °¡Áø ¼­¿­µéÀÇ ±¸º° ±âÁØÀ» Á¦½ÃÇØ ÁØ´Ù.