FASTA
Formato baseado em texto para representar tanto sequências de nucleotídeos quanto sequências de aminoácidos, no qual os nucleotídeos ou aminoácidos são representados usando códigos de uma única letra. O formato também permite sequências de nomes e comentários precedendo as sequências. A simplicidade do FASTA torna mais fácil manipular e analisar sequências usando ferramentas de processamento de texto e linguagens de script.
>NC_005248.1:3950-4810 Escherichia coli plasmid pIGAL1, complete sequence
ATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTC
ACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACT
GGATCTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTT
AAAGTTCTGCTATGTGGCGCGGTATTATCCCGTGTTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATAC
ACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGT
AAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATC
GGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGG
AACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGCAGCAATGGCAACAAC
GTTGCGCAAACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAG
GCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTG
GAGCCGGTGAGCGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGT
AGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCC
TCACTGATTAAGCATTGGTAA
- Uma sequência em formato FASTA começa com uma descrição de uma única linha, seguida por linhas de dados em sequência;
- A linha de descrição se distingue a partir da sequência dos dados pelo símbolo ">" na primeira coluna;
- Recomenda-se que todas as linhas do texto sejam mais curtas do que 80 caracteres.
Código de Ácido Nucleico | Significado |
---|---|
A | Adenina |
C | Citosina |
G | Guanina |
T | Timina |
U | Uracila |
N | Qualquer (aNy) |
- | lacuna de comprimento indeterminado |