유전체 데이터는 A, T, G, C의 네 가지 알파벳 (염기) 으로 구성된 일종의 텍스트 데이터이다. 따라서 데이터 내에서 특정 패턴의 염기 서열을 추출할 때, regular expressions를 사용할 수 있다. 따라서 이번 포스팅에서는 regular expressions에 대해 공부해보려 한다. 아래 Reference에 있는 링크에 접속하면 더 자세하게 설명되어 있고 연습 문제도 풀어볼 수 있으므로 관심 있다면 한 번 확인해 보면 좋을 것 같다. 1. 문자 - e.g., abcde → abcde Regular Expression DNA Sequence Match or Not CTT TAGACCTTAC Match TTGACCGGAT Not match ACAGTGTCTT Match 2. 숫자 - e.g..