반응형

전체 글 135

49) 2024년 첫 일기

작년이 끝나갈 때 이 카테고리에 마지막 글을 업로드한 후 이제야 2024년의 첫 글을 쓰게 되었다. 그러니까 3개월 반만인 것이다. 그동안 너무 바빴다 - 사실 지금도 무척 바쁘기 때문에 바빠서 글을 못 썼다는 건 아마 핑계에 불과할 것이다. 그냥 글 쓰는 걸 잠시 쉬고 싶었던 것 같다. 블로그 휴식기였던 3개월 반이라는 기간 동안 나의 일상에는 변화가 있었다. 진학을 원하는 랩실에 컨택을 넣어 인턴을 시작하게 되었고 (그러고보니 벌써 인턴 한 지 2개월이나 되었다) 새로운 분야로의 커리어 전환을 위해 요즘 평일, 주말 구분 없이 매일 집과 스터디카페를 오고 가며 나름 열심히 살고 있다. 랩실 구성원들과 교수님과도 대면으로 만났고, 친해짐에 있어서 몇 단계를 벌써 거친 것 같다. 다들 좋고 배울 점이 많..

매일의 생각 2024.03.17

쓸모없는 것들이 우리를 구할 거야 (작고 찬란한 현미경 속 나의 우주) - 김준

[무라카미 하루키 장편소설] 도시와 그 불확실한 벽 『도시와 그 불확실한 벽』은 내가 올해 들어서 독서 습관을 만들어야겠다고 다짐한 이후 처음으로 전자책으로 읽은 작품이다. 사실 종이책의 빳빳하면서도 부드러운 질감과 왠지 모르게 마음 livelyhheesun.tistory.com 한동안 계속 소설만 읽어서인지 다른 종류의 책을 읽어 보고 싶었다. 그래서 무라카미 하루키의 『도시와 그 불확실한 벽』을 완독하자마자 기다렸다는 듯이 알라딘 온라인 서점의 베스트셀러 페이지로 접속했다. 하지만 늘 그렇듯 자기 개발서는 딱히 끌리지 않았다. 그렇게 베스트셀러 목록을 계속해서 구경하던 중 이번에는 과학 분야의 책을 읽어 보는 건 어떨까, 하는 생각이 머리를 스쳤다. 내가 지금 과학 쪽으로 진로를 틀고자 노력하고 있는..

DNA Sequence에 Regular Expressions 적용하기

유전체 데이터는 A, T, G, C의 네 가지 알파벳 (염기) 으로 구성된 일종의 텍스트 데이터이다. 따라서 데이터 내에서 특정 패턴의 염기 서열을 추출할 때, regular expressions를 사용할 수 있다. 따라서 이번 포스팅에서는 regular expressions에 대해 공부해보려 한다. 아래 Reference에 있는 링크에 접속하면 더 자세하게 설명되어 있고 연습 문제도 풀어볼 수 있으므로 관심 있다면 한 번 확인해 보면 좋을 것 같다. 1. 문자 - e.g., abcde → abcde Regular Expression DNA Sequence Match or Not CTT TAGACCTTAC Match TTGACCGGAT Not match ACAGTGTCTT Match 2. 숫자 - e.g..

48) 2023년의 끝자락에서

도대체 뭘 했다고 벌써 2023년이 끝나는 거지. 그래도 돌이켜 보면 나에게 있어 2023년은 끝없는 변화와 도전, 그리고 성장의 한 해였던 것 같다. 2023년의 시작은 프랑스 파리에서 맞이했다. 당시 나는 네덜란드 석사 유학생이었고, 유학 전부터 알고 지내던 동생이 마침 파리에서 교환학생 중이라 이번 새해는 그곳에서 한 번 보내볼까 싶어서 방문했다. 파리에서 짧은 뉴이어 홀리데이를 보내고 네덜란드에 돌아간 나는 인턴십과 논문 때문에 바로 다음 날부터 일상으로 복귀해야 했다. 그래서 1월은 인턴십 하는 회사에도 적응하고 논문 주제도 정하느라 한 달이 어떻게 가는 지도 모르게 정신 없이 보냈던 것 같다. 그러다 부모님을 통해 친할머니의 부고를 듣게 되었고, 잠시라도 가족과 함께 있고자 2월은 5일 동안 ..

매일의 생각 2023.12.31

[Linux] Merging Paired-End Reads

Paired-end sequencing을 할 때, DNA 조각이 두 read들의 길이의 합보다 짧을 경우, read들이 겹치는 구간이 발생한다. 이때 이 겹치는 구간을 이용하여 그 두 read들을 합치는 과정을 merging이라고 한다. 이번 포스팅에서는 FLASH (Fast Length Adjustment of SHort reads) 라는 툴을 사용하여 read들을 merging하는 방법을 연습해 보겠다. 1. FLASH 설치 (참고로 내 environment에는 이미 설치가 되어 있다.) $ micromamba install flash -y bioconda/noarch 5.1MB @ 3.9MB/s 1.3s bioconda/linux-64 5.3MB @ 3.8MB/s 1.4s conda-forge/no..

[Linux] Sequence Data Quality Control - Trimming Adapters

DNA sequencing을 할 때 sequencing platform에 DNA fragment들이 붙을 수 있도록 adapter라는 인공적으로 만들어진, 그래서 알려진 염기 서열을 가진, 짧은 DNA sequence를 사용한다. 하지만 각 DNA fragment에 대한 sequencing이 끝나고, 전체 genome에 대한 sequence data가 생성될 때, 다시 말해 genome assembly 전에 adapter들의 sequence는 제거되어야 한다. 따라서 이번 포스팅에서는 sequence data로부터 adapter들을 trim하는 방법에 대해 알아보려 한다. 1. trimming이 필요한 데이터 파일 다운로드 - e.g., SRR519926 Illumina whole genome shotg..

[무라카미 하루키 장편소설] 도시와 그 불확실한 벽

『도시와 그 불확실한 벽』은 내가 올해 들어서 독서 습관을 만들어야겠다고 다짐한 이후 처음으로 전자책으로 읽은 작품이다. 사실 종이책의 빳빳하면서도 부드러운 질감과 왠지 모르게 마음에 드는 특유의 책 내음에 이끌려 여태껏 종이책을 고집해 오던 나였다. 하지만 개인적으로 느끼는 종이책의 단점들도 물론 있었다. 대중교통 등을 타고 이동할 때 들고 다니면서 읽기가 약간 불편하다는 점, 그리고 책들을 계속해서 소장하고 싶지만 그렇게 하면 방에 짐이 자꾸 늘어난다는 점. 그래서 늘 중고로 구입하고 한 번 읽고 나면 다시 중고로 팔기를 반복했다. 그러던 중 두 세 달 전쯤 미용실에 머리를 하러 갔다. 나는 머리가 반곱슬이기 때문에 적어도 1년에 한 번은 매직펌을 해야 한다. (안 그럼 내 머리카락을 나 스스로가 감..

[Linux] Short Read Archive 데이터 다운받기

Short Read Archive (SRA)는 NCBI에서 제공하는 squence 데이터와 정보 저장 서비스이다. 대체 플랫폼으로는 European Nucleotide Archive (ENA)가 있다. Home - SRA - NCBI www.ncbi.nlm.nih.gov ENA Browser www.ebi.ac.uk 1. SRA run accession number로 fastq 파일 다운받기 - e.g., SRR1553610 (paired-end read) $ fastq-dump --split-files SRR1553610 Read 219837 spots for SRR1553610 Written 219837 spots for SRR1553610 → 두 개의 파일 (SRR1553610_1.fastq, SR..

GO Enrichment 분석 연습

이번 포스팅에서는 지카 바이러스 (ZIKV) 감염에 반응하는 upregulated 유전자들의 이름과 downregulated 유전자들의 이름을 가지고 GO enrichment 분석 연습을 해 보려 한다. 참고로, upregulated 유전자들은 baseline이나 reference state에 비해 activity가 증가하는 유전자들이고, 반대로 downregulated 유전자들의 activity는 감소한다. 해당 유전자 데이터는 2016년 Zika Virus Infects Human Cortical Neural Progenitors and Attenuates Their Growth라는 제목의 연구에 의해 distribute되었다. Zika Virus Infects Human Cortical Neural..

[Linux] Ontology (3) - bio explain

이전 한 포스팅에서 bio 패키지의 bio fetch와 bio search에 대해 다룬 적이 있다. bio fetch와 bio search 1. bio fetch - accession number를 이용해 해당 데이터를 자동으로 정확한 destination에서 적절한 format으로 다운로드 (1) from GenBank (a) e.g., accession number NC_045512 $ bio fetch NC_045512 | head LOCUS NC_045512 29903 bp ss-RNA livelyhheesun.tistory.com 이번 포스팅에서는 SO와 GO를 빠르게 검색해 볼 수 있는 bio explain에 대해 간략히 소개하고자 한다. 1. 개념/용어로 찾기 $ bio explain exo..

반응형