경주 생물정보학 학회

일을 시작한지 2개월이 다되간다. 그간 새로운 분야에 대한 지식을 공부하느라 정신이 없었다.

지금도 여유가 그리 많진 않다. 2주 전에 논문 발표를 했다.
저번 주에는 학부생들 시험문제 제작 및 강의하고, 새로운 연구 과제에 대한 일들을 어떻게 해결할지 고민하는데에 시간을 보냈다.
학부생들이 너무 착하고 순수한 느낌이 나서 수업할 때마다 힐링을 받는다 ㅎㅎ 내가 수업을 한 학생들을 몇 년 후에 마주치고 다시 마주칠 때나 그 학생들이 우리 연구실에 들어와서 내 코딩 방식이 일할 때 도움이 많이 되었다고 말할 때도 기분이 좋았다. 내가 알려준 학생들을 몇 년 후에 우연하게 만나고, 오히려 그 학생들이 더 성장하여 나에게 가르침을 줄 때도 뭔가 새로운 느낌을 받았었다.

여전히 박사 진학을 할 것인지 기업에서 일을 할 것인지에 대해서는 결정하지 못했다. 일을 하며 좀 더 생각을 해야 할 것 같다.

이번 주는 경주에서 열리는 생물정보학 학술대회에 가서 4일간 여러 기술들을 배워올 예정이다.
학회가 여러 기술들 및 연구 동향을 공유하는 자리이기 때문에, 학회에서 배운 기술들을 여기에다가 정리를 해놓으려고 한다.

몇 년전보다는 신체와 정신적으로 더 활력이 많이 생겼다.

그래도 학회 끝나면 하던 일을 멈추는 시간을 가져야 할 것 같다.

새로운 기술들을 익히면서 기존에 하던 일들을 하는 것이 쉽지 않은 것 같다.

지금 배워보고 싶은 것은 Single-cell, AI, genetic variants를 좀 더 상세히 배워보고 싶다. protein-protein interaction도 배워보고 싶다.

매일매일을 일에 몰두하다 보면, 자신이 지금 뭘 하고 있는건지에 대해 잊어버릴 때가 있다. 돈을 벌기 위한 일 자체가 삶의 전부가 되지 않도록 자신이 어떤 사람인지, 뭘 하고 싶은지, 그리고 어떤걸 중요하게 여기는지 항상 생각하며 행동하는 내가 되었으면 좋겠다.

GATK analaysis workshop

Imgur

경주 화백 컨벤션 센터에서 학회를 들었다.

1일차는 특정 기술을 direct하게 배울 수 있는 workshop이었다.

나는 cloud-based variant calling workflow 기술들을 배웠다.

강의 속도가 너무 빠르고, 주어진 명령어를 모두 입력하고 설치하는 작업 뿐이라서, 이 부분에서는 클라우드 기본 개념 외에 본인이 배울만한 것이 많지 않았다. 아래 본인이 이해한 클라우드의 기본 용어들을 정리만 해두었다.


클라우드 기본 개념: 컴퓨터를 사용한 정보처리를 네트워크를 통하여 클라우드 사업자의 컴퓨터에서 처리하는 서비스 

region: 지리적으로 떨어진 독립적인 위치를 의미하며, 사용자의 위치와 요구사항에 맞춰 가장 적합한 region을 선택 (한쪽이 망가질 경우, 지리적으로 떨어진 region은 괜찮을 수 있음)

Availability zone: region 내 존재, 물리적으로 격리된 컴퓨팅 리소스를 갖춘 독립적인 위치

BNS : Availibility zone 내 클라우드에서 제공되는 다양한 네트워크 관련 서비스를 통합적으로 관리하고 활용할 수 있는 플랫폼  
	VPC : 사요ㅇ자가 논리적으로 격리된 가상 네트워크 구성 및 관리
	CDN : 대용량의 콘텐츠를 안정적으로 전달
	Tansit Gateway: 다수의 VPC와 온프레이스 네트워크를 연결

Route Table : VPC 내의 트래픽 경로를 제어 (각 VPC 내 마다 Route를 가지고 있음) => Internet GateWay와 관련 (VPC와 인터넷 간에 통신할 수 있게 해주는 VPC와 구성요소)  

BCS (Beyond Compute Service): 흔히 얘기하는 가상환경 시스템, 가상화 기술을 활용하여 물리적인 하드웨어 시스템을 가상으로 재구성하여 확장가능한 컴퓨팅 자원을 제공하는 클라우드 컴퓨팅 환경  (가상 머신 이미지 => 설치없이 OS 사용가능하도록 함)

BSS (Beyond Storage Service) : NFS (Network File System) 프로토콜을 사용하여 공동의 데이터를 저장할 저장소를 간편하게 생성할 수 있는 서비스  
	파일 형태의 데이터를 저장하고 관리하는 스토리지 유형으로 공유 파일 시스템 및 협업용으로 사용  
인스턴스 : CPU와 시스템 메모리를 포함한 가상 하드웨어 리소스
볼륨 : 실제 데이터가 저장될 공간

BSS – object storage : 대용량 데이터를 처리하는데 최적화된 서비스로, 확장성과 안정성을 갖춘 객체 기반 스토리지  
	버킷 : 객체를 담은 컨테이너이며, 객체에 대한 접근 권한 및 라이프 사이클 설정의 적용 단위  

IAM : 누가 어떤 것에 접근할 수 있는지 관리하여, 시스템과 데이터를 안전하게  지키는 것. 신원 식별 및 엑세스 제어 (Identity and Access Management)

그 다음부터가 정말 배울 것이 많았는데, SNP calling 전까지의 정형화된 preprocessing 과정의 전체 파이프라인을 배울 수 있었고, 각각의 과정이 왜 필요한 건지에 대한 설명을 들을 수 있었다.

파이프라인의 과정은 다음과 같다.

첫째. 각각의 read들을 reference genome에 alignment 한다.
Raw Unmmaped Reads => Map to Reference => Raw Mapped Reads

둘째. SNP calling 전, 다음의 preprocessing 과정을 거친다.
Mark Duplicates (PCR 증폭으로 인해 발생하는 오류 제거 위함) => Recalibrate Base Quality Score (illumina sequencing의 품질 점수 만으로 SNP-calling을 하기에는 정확성이 낮기 때문에, 일종의 재조정이 필요함. 이쪽은 3일차에 다시 다루도록 하겠다.)

셋째. 이후 SNP calling 및 SNP filtering 과정을 거친다.

이 전체적인 과정이 본인이 공부 중인 파이프라인과 매우 흡사해서, 현재 SNP calling 방식이 이미 정형화되어 있다는 것을 알았다.


또한, 강의 해주시는 분 (고려대 박사분이신데 정확한 성함을 듣지 못했다.. 되게 깔끔하게 잘 말씀해주셔서 이해가 너무 쉬웠다.)께 여러 질문을 드렸다.

첫째. vcf downgrade version (GATK 기반)이 본인이 공부 중인 tool에는 안 맞던데, 관련된 해결 방법을 알고 계시는지
답변 => GATK tool은 vcf version에 대해 호환성을 가지는데, 본인이 공부 중인 tool 자체는 그 호환성을 못가지는 것 같습니다.

둘째. sort를 굳이 해줘야 되는건지
답변 => sort를 안하면 프로그램의 기술적 에러가 뜨기가 쉽습니다. (이 말을 듣고 바로 원격 컴퓨터 활용하여 본인의 연구에서 sort를 해줬는데, 실제로 본인이 sort를 안해줬더라면 프로세스를 다시 돌려야 하는 상황이 있었다.)


Imgur

학회가 끝난 후에는 연구실 사람들과 같이 황리단 길을 가서 밥을 먹었다.

풍경이 너무 멋드러져서 연인이랑 가도 좋을 여행지 같았다 (ㅠ).


methylation, GWAS 관련

다른 연구자들이 연구하고 있는 내용을 본인이 적음으로써, 열심히 연구하고 발표해주신 다른 연구자 분들에게 해를 입힐 수 있다는 생각 때문에, 간략히 뭘 들었는지만 적으려고 한다. 강연에 대한 상세한 내용을 모두 언급할 수 없음을 양해 바란다.

질병에 연관된 여러 개의 복잡한 변이들 중 causal variant를 어떻게 측정하느냐를 찾기 위한 연구들을 강연 들었다.

일반적으로 complex disease를 일으킬 수 있는 여러 요인들 중, variants를 중점으로 생각하자면, complex disease는 여러 genetic variants에 의해 발생할 수 있다. 반면, Mendelian disease의 경우, 하나의 강력한 genetic variants가 질병을 유발하는 경우로, 개별적인 variants의 영향이 크다.

보통 해당 변이가 발현으로까지 어떻게 변화하는가를 연구 할 때에는, 여러 사람의 유전체 데이터를 통해 특정 변이가 있는 그룹과 없는 그룹으로 분류 후에, 그 두 그룹 간의 유전자 발현 차이를 비교한다. 이를 통해 유전자 발현에 영향을 미치는 regulatory variants를 찾을 수 있다.

문제는 population 내 여러 variants가 함께 나타나는 경향이 있다는 것이다. 이를 genetic linkage라고 하며, 동일한 유전자에 대해 동일한 상태로 연관성을 나타낼 수 있음을 의미한다.

즉 genetic linkage는 두 개 이상의 유전자나 유전적 변이가 염색체에서 가까운 위치에 있을 때 함께 유전되는 경향을 나타내는 개념이다. 멘델의 독립의 법칙에 따르면 유전자들은 독립적으로 유전되지만, 연관된 유전자들은 서로 가까이 위치해 있기 때문에, 유사한 빈도로 함께 유전되는 경향이 있다.

따라서 연관된 변이들이 동일한 유전자에 대해 유사한 발현 변화 패턴을 보일 수 있기 때문에, 실제로 어떤 변이가 발현에 직접적으로 영향을 미치는지, 즉 causal variants가 무엇인지 구별하기 어렵게 만든다.

따라서 open chromatin 영역에 위치한 variants 만이 activate 된 regulation role을 수행할 수 있다는 가정 및 Bayesian inference 기법을 이용해 open chromatin 내에 있는 variants를 causal variant로 간주한다.

cell별로 open chromatin 영역을 식별하여 각 cell type 별로 특화된 variants를 나누어 보기도 하고, 최종적으로 variants 식별 뒤에는 해당 SNP이 phenotype에 얼마나 영향을 미치는가하는 분석또한 수행한다.

SNP이 발견된 후에는, luciferace reporter를 이용해서 유전자 발현을 확인하기도 하고, knock out을 시켜서 표현형을 확인하기도 한다.

open chromatin 지역 예측을 위한 AI 학습 알고리즘을 개발하기도 했다.


Imgur

연구실 몇몇 사람들과 갔던 카페인데 너무 차가 맛있었다!!