- 0
- 국내산라이츄
- 조회 수 7658
백준... 수학 파트로 넘어갔다가 수능 난이도 체감중입니다... (주륵) 맞추는 게 기적
1. VCF 파일?
VCF는 Variane Call Format의 약자로, FASTA와 FATAQ처럼 생물정보학에서 취급하는 파일입니다. 유전자 변이에 대한 정보가 담겨져 있는데 왜 EGFR은 없냐 이놈들!
이 파일은 미국 NCBI의 Entrez database에 속해 있는 clinvar에서 제공합니다.
(clinvar의 ftp 사이트. 저는 vcf.gz 받아서 씁니다)
여기 올려진 파일들은 매주 따끈따끈하게 업데이트하고 있는 파일들입니다. 근데 니네 가끔 주말에 올리더라...
2. VCF파일에 담겨진 것들
양이 방대하니까 굳이 열어볼 시도는 하지 마세요... VScode나 pycharm으로 긁어오는 데도 몇 분 걸립니다. 싹 뽑으면 분량 어마무시할 듯... (그것도 pyvcf 설치해야되는데 Jupyter에서 인식 못 하고 오류나서 VScode랑 파이참 쓰는겁니다)
VCF파일은 크게 헤더와 내용물로 구성되어 있고, 헤더에는 주석이 들어있습니다. 이 주석은 일반적으로 프로그래밍에서 쓰는 주석처럼 각 컬럼 안에 있는 항목들이 어떤 정보를 담고 있는지를 설명하는 역할을 합니다.
그리고 밑으로 가면 이런 게 100만개가 넘게 있습니다. 이러니 읽는데 몇 분 걸리지...
그럼 저기 나열된 데이터들이 다 뭐냐고요?
- CHROM: 시퀀스 이름. 보통 염색체 정보가 들어간다.
- POS: 해당 시퀀스의 위치
- ID: 해당 변이의 ID(예: dbSNP ID)
- REF: 원래 염기
- ALT: alternative allele
- FILTER: filter 플래그인데 솔직히 뭐 하는건지 모르겠음. (일단 ClinVar의 vcf파일에서는 .으로 나온다)
- INFO: Key-value로 구성된 Data list(특: 일단 뭔가 개많음)
- FORMAT: sample에 대해 서술하는 영역
- SAMPLEs: 각 sample에 대해 format에서 나열된 값을 서술하는 영역
이렇습니다. 예시에는 Format과 sample이 없는데, format은 말 그대로 우리 이거 이렇게 서술할거다! 하는 부분이고 sample은 format에서 형식 정의한 대로 데이터 서술하는 공간입니다.