* 이번 예시에서 사용한 sequence data는 https://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/에서 찾을 수 있다. 해당 사이트에 업로드되어 있는 데이터는 hg38(GRCh38 Genome Reference Consortium Human Reference 38)의 sequence data이다.
1. 파일 다운 받아 압축 풀고 새 이름의 파일로 저장
$ curl http://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/chr22.fa.gz | gunzip -c > chr22.fa
- 22번 염색체 파일 사용
2. 파일 내용 보기
$ cat chr22.fa | head
>chr22
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
- N = unknown base
3. N의 개수
$ cat chr22.fa | grep -o N | head
N
N
N
N
N
N
N
N
N
N
$ cat chr22.fa | grep -o N | wc -l
11658691
→ 11,658,691 bases are unknown.
(-o: only matching)
4. 22번 염색체 전체 base 수
- 3가지 방법으로 추출 가능
(1) seqkit
$ seqkit stat chr22.fa
file format type num_seqs sum_len min_len avg_len max_len
chr22.fa FASTA DNA 1 50,818,468 50,818,468 50,818,468 50,818,468
→ 50,818,468 bases
(2) infoseq
$ infoseq chr22.fa
Display basic information about sequences
USA Database Name Accession Type Length %GC Organism Description
fasta::chr22.fa:chr22 - chr22 - N 50818468 47.69
→ 50,818,468 bases
(3) bioawk
$ cat chr22.fa | bioawk -c fastx '{ print length($seq) }'
50818468
→ 50,818,468 bases
=> 22번 염색체의 약 23% 'unknown' (sequenced, but not yet localized = missing)
Reference
The Biostar Handbook: 2nd Edition - István Albert
'생물정보학 끄적끄적' 카테고리의 다른 글
[Linux] Ontology (1) - Sequence Ontology (80) | 2023.12.23 |
---|---|
[Linux] bio fetch와 bio search (5) | 2023.12.21 |
[Linux] Entrez Web API와 Entrez Direct로 NCBI 데이터베이스 접속하기 (3) | 2023.12.21 |
[Linux] Complete Genomic Data 다운 받기 (3) | 2023.12.21 |
[Linux] 데이터 분석 - 완전 기초 (81) | 2023.12.19 |