Categories
GSEA - Gene Set Enrichment Analysis
요약
연구실 내에는 굉장히 다양한 사람들이 있다. 다양한 사람들이 많다는 것은, 다양한 기술들을 알고 있는 사람이 많다는 것이다.
오늘은 그 중 한 분에게 GSEA 연구 방법 설명을 들어서, 이를 기록하려고 한다.
자신을 등불로 삼고 자신을 의지하며, 진리를 등불로 삼고 진리를 의지하라.
= 석가모니 =
GSEA란?
GSEA는, Gene Set Enrichment Analysis의 약자다.
당뇨병에 걸린 환자의 유전자와, 정상 환자의 유전자 발현 차이를 연구해본다고 가정하자.
그 다음 어찌저찌 연구해서, 다음과 같은 유전자들이 정상환자와 달리 당뇨병환자에서 더 차이나게 발현했던 유전자임이 밝혀졌다고 가정해보자.
GENE1, GENE2, GENE3, GENE4, …, GENE100
이후, 각각의 GENE들이 주로 인간 몸에서 어느 기능을 하는지 알아봤더니 (Gene Ontology Analysis라 한다.), 42개의 유전자가 “혈액 내 당 조절” 기능에 관련이 있었다. 근데 특이하게도 30개 유전자는 “악성 종양 형성” 기능과 관련되었었다고 가정해보자.
음.. 그렇다면 당뇨병환자에서 이렇게 관련되었었던 “악성 종양 형성” 30개 유전자는, 기존 연구에서 보고된 악성 종양 형성 유전자 1000개 유전자 중 얼마나 중요한 유전자이고, 또한 양은 얼만큼인지를 한번에 볼 수 있을까?
GSEA의 목적이 위에 작성한 문장과 같다.
다만, 본인은 GSEA의 통계기법이 연구 결과를 과장하기 위한 것일 수 있다는 어느 강의자를 말을 들은 바 있다. 자세하게 조사하기를 바라고, 유의하기 바란다.
GSEA 결과 해석
먼저, 그림의 중앙을 보면, 빨간색부터 파란색까지 그라데이션이 그려져 있고, 그 위의 위치에 군데군데 가는 선이 있다.
빨간색부터 파란색까지의 그라데이션은, Reference Gene List이다. 위에서 본인이 작성한 연구 가설을 예를 들어본다면, 빨간색 박스는 “악성 종양 형성” 관련된 전체 gene들 중, 가장 관련성이 높은 gene들이 들어있는 List를 의미하고, 파란색 박스는 관련성이 낮은 gene들이 들어있는 List를 의미한다.
그리고 그라데이션 위에 있는 각각의 검정 선들은, Reference Gene List (1000개)들 중 우리가 당뇨병 환자에서 탐지해낸 “악성 종양 형성” 관련 유전자 30개를 의미한다.
그 위 녹색 선은 무엇일까? 이전에 각각의 검정 선들이 우리가 당뇨병 환자에서 탐지해낸 악성 종양 형성 유전자들이라고 했다. 녹색 선들은, 그 유전자들의 Enrichment Score를 계산해서 선으로 그은 것이다 (링크를 참조하자.).
맨 아래의 회색 곡선은, Signal2Noise라는 메트릭을 사용하여 정렬된 데이터 세트의 순위를 보여준다.
X축은 랭크(순서)를 나타내며, 데이터 세트의 유전자들이 각 랭크에 배치되어 있다.
Y축은 Signal2Noise 값을 나타낸다. 이 값은 양수에서 음수로, 혹은 그 반대로 전환될 수 있으며, 이는 데이터 세트 내에서 유전자들의 상대적인 중요도를 나타낸다.