bioinformatics 13

DNA Sequence에 Regular Expressions 적용하기

유전체 데이터는 A, T, G, C의 네 가지 알파벳 (염기) 으로 구성된 일종의 텍스트 데이터이다. 따라서 데이터 내에서 특정 패턴의 염기 서열을 추출할 때, regular expressions를 사용할 수 있다. 따라서 이번 포스팅에서는 regular expressions에 대해 공부해보려 한다. 아래 Reference에 있는 링크에 접속하면 더 자세하게 설명되어 있고 연습 문제도 풀어볼 수 있으므로 관심 있다면 한 번 확인해 보면 좋을 것 같다. 1. 문자 - e.g., abcde → abcde Regular Expression DNA Sequence Match or Not CTT TAGACCTTAC Match TTGACCGGAT Not match ACAGTGTCTT Match 2. 숫자 - e.g..

[Linux] Merging Paired-End Reads

Paired-end sequencing을 할 때, DNA 조각이 두 read들의 길이의 합보다 짧을 경우, read들이 겹치는 구간이 발생한다. 이때 이 겹치는 구간을 이용하여 그 두 read들을 합치는 과정을 merging이라고 한다. 이번 포스팅에서는 FLASH (Fast Length Adjustment of SHort reads) 라는 툴을 사용하여 read들을 merging하는 방법을 연습해 보겠다. 1. FLASH 설치 (참고로 내 environment에는 이미 설치가 되어 있다.) $ micromamba install flash -y bioconda/noarch 5.1MB @ 3.9MB/s 1.3s bioconda/linux-64 5.3MB @ 3.8MB/s 1.4s conda-forge/no..

[Linux] Sequence Data Quality Control - Trimming Adapters

DNA sequencing을 할 때 sequencing platform에 DNA fragment들이 붙을 수 있도록 adapter라는 인공적으로 만들어진, 그래서 알려진 염기 서열을 가진, 짧은 DNA sequence를 사용한다. 하지만 각 DNA fragment에 대한 sequencing이 끝나고, 전체 genome에 대한 sequence data가 생성될 때, 다시 말해 genome assembly 전에 adapter들의 sequence는 제거되어야 한다. 따라서 이번 포스팅에서는 sequence data로부터 adapter들을 trim하는 방법에 대해 알아보려 한다. 1. trimming이 필요한 데이터 파일 다운로드 - e.g., SRR519926 Illumina whole genome shotg..

[Linux] Short Read Archive 데이터 다운받기

Short Read Archive (SRA)는 NCBI에서 제공하는 squence 데이터와 정보 저장 서비스이다. 대체 플랫폼으로는 European Nucleotide Archive (ENA)가 있다. Home - SRA - NCBI www.ncbi.nlm.nih.gov ENA Browser www.ebi.ac.uk 1. SRA run accession number로 fastq 파일 다운받기 - e.g., SRR1553610 (paired-end read) $ fastq-dump --split-files SRR1553610 Read 219837 spots for SRR1553610 Written 219837 spots for SRR1553610 → 두 개의 파일 (SRR1553610_1.fastq, SR..

GO Enrichment 분석 연습

이번 포스팅에서는 지카 바이러스 (ZIKV) 감염에 반응하는 upregulated 유전자들의 이름과 downregulated 유전자들의 이름을 가지고 GO enrichment 분석 연습을 해 보려 한다. 참고로, upregulated 유전자들은 baseline이나 reference state에 비해 activity가 증가하는 유전자들이고, 반대로 downregulated 유전자들의 activity는 감소한다. 해당 유전자 데이터는 2016년 Zika Virus Infects Human Cortical Neural Progenitors and Attenuates Their Growth라는 제목의 연구에 의해 distribute되었다. Zika Virus Infects Human Cortical Neural..

[Linux] Ontology (3) - bio explain

이전 한 포스팅에서 bio 패키지의 bio fetch와 bio search에 대해 다룬 적이 있다. bio fetch와 bio search 1. bio fetch - accession number를 이용해 해당 데이터를 자동으로 정확한 destination에서 적절한 format으로 다운로드 (1) from GenBank (a) e.g., accession number NC_045512 $ bio fetch NC_045512 | head LOCUS NC_045512 29903 bp ss-RNA livelyhheesun.tistory.com 이번 포스팅에서는 SO와 GO를 빠르게 검색해 볼 수 있는 bio explain에 대해 간략히 소개하고자 한다. 1. 개념/용어로 찾기 $ bio explain exo..

[Linux] Ontology (2) - Gene Ontology (with goatools)

이전 포스팅에 이어서 이번엔 gene ontology에 대해 소개하려 한다. Ontology (1) - Sequence Ontology Ontology는 의미적으로, 문맥적으로 연결되어 있는 단어 및 용어들 간의 집합 같은 것이다. 생물정보학에서 주로 쓰이는 ontology에는 sequence ontology와 gene ontology, 이렇게 두 가지가 있다. 이번 포스팅 livelyhheesun.tistory.com 2-1. Gene ontology (GO) - gene functions와 관련된 정보에 해당하는 용어들 - 세 개의 sub-ontologies (1) cellular component: gene function의 결과가 나타나는 곳에 대해 (e.g., Golgi cisterna memb..

[Linux] Ontology (1) - Sequence Ontology

Ontology는 의미적으로, 문맥적으로 연결되어 있는 단어 및 용어들 간의 집합 같은 것이다. 생물정보학에서 주로 쓰이는 ontology에는 sequence ontology와 gene ontology, 이렇게 두 가지가 있다. 이번 포스팅에서는 sequence ontology에 대해서만 다루고, 다음 포스팅에서 gene ontology를 별도로 다루겠다. 1. Sequence ontology (SO) - sequence features와 관련된 정보에 해당하는 용어들 - http://www.sequenceontology.org/browser/obob.cgi에서 각 용어 별 정보 및 다른 개념들과의 연관 관계를 검색해 볼 수 있다. The MISO Sequence Ontology Browser www.s..

[Linux] bio fetch와 bio search

1. bio fetch - accession number를 이용해 해당 데이터를 자동으로 정확한 destination에서 적절한 format으로 다운로드 (1) from GenBank (a) e.g., accession number NC_045512 $ bio fetch NC_045512 | head LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020 DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome. ACCESSION NC_045512 VERSION NC_045512.2 DBLINK BioProject: PRJNA485481 KEYWORD..

[Linux] Entrez Web API와 Entrez Direct로 NCBI 데이터베이스 접속하기

Entrez web API와 Entrez Direct를 사용하여 accession number AF086833.2(https://www.ncbi.nlm.nih.gov/nuccore/AF086833.2)에 해당하는 데이터를 불러와 보겠다. Ebola virus - Mayinga, Zaire, 1976, complete genome - Nucleotide - NCBI no features Feature First Previous Next Last Details www.ncbi.nlm.nih.gov 1. Entrez Web API $ curl -s 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?id=AF086833.2&db=nuccore&rettype..