리눅스 11

[Linux] Merging Paired-End Reads

Paired-end sequencing을 할 때, DNA 조각이 두 read들의 길이의 합보다 짧을 경우, read들이 겹치는 구간이 발생한다. 이때 이 겹치는 구간을 이용하여 그 두 read들을 합치는 과정을 merging이라고 한다. 이번 포스팅에서는 FLASH (Fast Length Adjustment of SHort reads) 라는 툴을 사용하여 read들을 merging하는 방법을 연습해 보겠다. 1. FLASH 설치 (참고로 내 environment에는 이미 설치가 되어 있다.) $ micromamba install flash -y bioconda/noarch 5.1MB @ 3.9MB/s 1.3s bioconda/linux-64 5.3MB @ 3.8MB/s 1.4s conda-forge/no..

[Linux] Sequence Data Quality Control - Trimming Adapters

DNA sequencing을 할 때 sequencing platform에 DNA fragment들이 붙을 수 있도록 adapter라는 인공적으로 만들어진, 그래서 알려진 염기 서열을 가진, 짧은 DNA sequence를 사용한다. 하지만 각 DNA fragment에 대한 sequencing이 끝나고, 전체 genome에 대한 sequence data가 생성될 때, 다시 말해 genome assembly 전에 adapter들의 sequence는 제거되어야 한다. 따라서 이번 포스팅에서는 sequence data로부터 adapter들을 trim하는 방법에 대해 알아보려 한다. 1. trimming이 필요한 데이터 파일 다운로드 - e.g., SRR519926 Illumina whole genome shotg..

[Linux] Short Read Archive 데이터 다운받기

Short Read Archive (SRA)는 NCBI에서 제공하는 squence 데이터와 정보 저장 서비스이다. 대체 플랫폼으로는 European Nucleotide Archive (ENA)가 있다. Home - SRA - NCBI www.ncbi.nlm.nih.gov ENA Browser www.ebi.ac.uk 1. SRA run accession number로 fastq 파일 다운받기 - e.g., SRR1553610 (paired-end read) $ fastq-dump --split-files SRR1553610 Read 219837 spots for SRR1553610 Written 219837 spots for SRR1553610 → 두 개의 파일 (SRR1553610_1.fastq, SR..

[Linux] Ontology (3) - bio explain

이전 한 포스팅에서 bio 패키지의 bio fetch와 bio search에 대해 다룬 적이 있다. bio fetch와 bio search 1. bio fetch - accession number를 이용해 해당 데이터를 자동으로 정확한 destination에서 적절한 format으로 다운로드 (1) from GenBank (a) e.g., accession number NC_045512 $ bio fetch NC_045512 | head LOCUS NC_045512 29903 bp ss-RNA livelyhheesun.tistory.com 이번 포스팅에서는 SO와 GO를 빠르게 검색해 볼 수 있는 bio explain에 대해 간략히 소개하고자 한다. 1. 개념/용어로 찾기 $ bio explain exo..

[Linux] Ontology (2) - Gene Ontology (with goatools)

이전 포스팅에 이어서 이번엔 gene ontology에 대해 소개하려 한다. Ontology (1) - Sequence Ontology Ontology는 의미적으로, 문맥적으로 연결되어 있는 단어 및 용어들 간의 집합 같은 것이다. 생물정보학에서 주로 쓰이는 ontology에는 sequence ontology와 gene ontology, 이렇게 두 가지가 있다. 이번 포스팅 livelyhheesun.tistory.com 2-1. Gene ontology (GO) - gene functions와 관련된 정보에 해당하는 용어들 - 세 개의 sub-ontologies (1) cellular component: gene function의 결과가 나타나는 곳에 대해 (e.g., Golgi cisterna memb..

[Linux] Ontology (1) - Sequence Ontology

Ontology는 의미적으로, 문맥적으로 연결되어 있는 단어 및 용어들 간의 집합 같은 것이다. 생물정보학에서 주로 쓰이는 ontology에는 sequence ontology와 gene ontology, 이렇게 두 가지가 있다. 이번 포스팅에서는 sequence ontology에 대해서만 다루고, 다음 포스팅에서 gene ontology를 별도로 다루겠다. 1. Sequence ontology (SO) - sequence features와 관련된 정보에 해당하는 용어들 - http://www.sequenceontology.org/browser/obob.cgi에서 각 용어 별 정보 및 다른 개념들과의 연관 관계를 검색해 볼 수 있다. The MISO Sequence Ontology Browser www.s..

[Linux] bio fetch와 bio search

1. bio fetch - accession number를 이용해 해당 데이터를 자동으로 정확한 destination에서 적절한 format으로 다운로드 (1) from GenBank (a) e.g., accession number NC_045512 $ bio fetch NC_045512 | head LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020 DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome. ACCESSION NC_045512 VERSION NC_045512.2 DBLINK BioProject: PRJNA485481 KEYWORD..

[Linux] Entrez Web API와 Entrez Direct로 NCBI 데이터베이스 접속하기

Entrez web API와 Entrez Direct를 사용하여 accession number AF086833.2(https://www.ncbi.nlm.nih.gov/nuccore/AF086833.2)에 해당하는 데이터를 불러와 보겠다. Ebola virus - Mayinga, Zaire, 1976, complete genome - Nucleotide - NCBI no features Feature First Previous Next Last Details www.ncbi.nlm.nih.gov 1. Entrez Web API $ curl -s 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?id=AF086833.2&db=nuccore&rettype..

[Linux] Complete Genomic Data 다운 받기

Genomic data의 데이터 소스는 여럿 존재하지만, 그 중 대표적으로 세 플랫폼 (UCSC, Ensembl, NCBI) 이 있다. 1. UCSC - 지난 포스팅에서 사용한 데이터 파일이 UCSC에서 다운 받은 것이기 때문에 해당 포스팅 참고. Human Genome 데이터 예시 * 이번 예시에서 사용한 sequence data는 https://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/에서 찾을 수 있다. 해당 사이트에 업로드되어 있는 데이터는 hg38(GRCh38 Genome Reference Consortium Human Reference 38)의 se livelyhheesun.tistory.com 2. Ensembl (https://ftp.en..

[Linux] Human Genome 데이터 예시

* 이번 예시에서 사용한 sequence data는 https://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/에서 찾을 수 있다. 해당 사이트에 업로드되어 있는 데이터는 hg38(GRCh38 Genome Reference Consortium Human Reference 38)의 sequence data이다. Index of /goldenPath/hg38/chromosomes hgdownload.cse.ucsc.edu 1. 파일 다운 받아 압축 풀고 새 이름의 파일로 저장 $ curl http://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/chr22.fa.gz | gunzip -c > chr22.fa - 2..