- 0
- 국내산라이츄
- 조회 수 3318
아니 뭐 했다고 12월이... (주륵)
1. 처음보는 파일인데 뭔 파일인가요?
FASTA와 FASTAQ파일은 생물학 전공자, 특히 Bioinformatics를 하는 사람들이 아니면 볼 일은 크게 없습니다. 왜냐하면... DNA/RNA/단백질의 시퀀스 데이터를 담고 있는 파일이니까요. (대충 펀쿨섹좌 짤) 생물정보학쪽으로 종사하거나 공부하는 사람들이라면 적어도 한번은 접해본 적 있는 파일입니다. 특히 FASTA 파일은요. (Biopython도 첫 빠따는 FASTA 파일 여는겁니다)
2. FASTA file
(NCBI의 sra data)
(RCSB PDB에서 제공하는 단백질 시퀀스)
FASTA 파일은 단백질 혹은 핵산 시퀀스 데이터를 담고 있는 파일입니다. 프로그래머는 첫 빠따가 hello, world!이고 양자역학에는 슈뢰딩거 방정식이 있듯이 그게 뭔데요 몰라 아무튼 복잡한거 있어 FASTA 파일은 꺾쇠(>)로 시작하는 게 국룰입니다. 꺾쇠 시퀀스 꺾쇠 시퀀스죠. 꺾쇠는 description영역이고, 어떤 DB에서 받았느냐에 따라 다르게 기재됩니다.
DB가 생각보다 많으니 대충 이렇구나만 보고 넘어가시면 됩니다.
3. FASTAQ file
(sra data file)
FASTAQ 파일도 국룰이 있는데, 네 줄로 끊어서 기록하는 게 국룰입니다.
1. 첫 줄은 골뱅이(@)로 시작하고, description 영역입니다. (이 시퀀스 뭐임)
2. 두번째 줄에 시퀀스 데이터가 들어갑니다.
3. 세번째 줄은 더하기(+)로 시작하고 optional 영역입니다.
4. 네번째 줄에 Quality values가 들어갑니다. 이래서 FASTAQ인가
NGS(Next-generation sequencing)을 진행하게 되면 쌩으로 생성되는 파일은 BCL(이진 파일)이고, 이걸 변환해서 최종적으로 FASTAQ 파일이 나오게 됩니다. 퀄리티 값도 그것때문에 있는거고요. 생물정보학에서 사용하는 Biopython은 두 파일 다 불러올 수 있고, FASTAQ파일의 경우 FASTA파일로 변환도 가능하지만 역으로 변환은 안 됩니다. FASTA 파일은 시퀀스 데이터만 존재하거든요.
Appendix. FASTA/FASTAQ file에서 쓰는 문자
(DNA/RNA용 문자)
(단백질용 문자, FASTA)
FASTAQ는 단백질에 대해서는 생성되지 않습니다. (단백질은 시퀀싱을 못하죠...)
Appendix 2. FASTAQ의 Quality value
Quality value는 ASCII code 중 인쇄 가능한 글자를 사용하며, !가 제일 작고 ~가 제일 큽니다.