DNA Microarray Bioinformatics Course Introduction

 

주최

생물정보연구소

강사

원세연 박사

(생물정보연구소, email address)

기간

미정

시간

미정

장소

미정

 

(불기파힌 사정으로 인해 무기한 연기를 합니다. 최대한 빠른 시일 내로 다시 강의를 열도록 하겠습니다.)

코스의 개요 및 목적
 

DNA microarray는 이제는 우리 분야에서 commodity의 하나가 되었으며, 일반적인 모델 종의 경우에는 신뢰를 가지고 사용할 수 있는 factory manufactured chip들이 웬만한 수준의 연구비를 가진 경우라면 얼마든지 선택이 가능한 것이 되었습니다. 또한, DNA microarray의 wet lab experiment에 대한 것들도 거의 10년에 걸친 기간이 지나는 동안 어느 정도 정립이 되어서 이제는 큰 어려움은 없는 문제가 되었습니다. PubMed에서 2005년 한 해 동안 발표된 paper들에 대해서 DNA microarray를 뜻하는 MeSH term인 "Oligonucleotide Array Sequence Analysis"로 검색을 했을 때 4887편이 리스트가 되는 것에서도 이러한 점을 쉽게 확인을 할 수가 있습니다.

DNA microarray에 대해서 생물학자로서 흔히 어려움을 느끼게 되는 점은 크게 두 가지로 나누어볼 수가 있는데, 하나는 실험 디자인에 대한 문제이고, 다른 하나는 실험 결과 얻어진 데이터를 분석하기 위해 필요한, 특히 통계학에 대한 기초적인 지식과 컴퓨터 도구들의 사용에 대한 점입니다. course introduction에 제대로 적기에는 너무 복잡한 이야기들이지만, 아래에 설명을 시도해보았습니다.

실험 디자인에 대한 문제에서는, 무엇보다도 기존의 분자생물학적인 실험의 디자인들과는 상당히 다른 방식의 사고가 요구된다는 점이 있습니다. DNA microarray의 첫째 특징이, 어떤 생물체가 가지고 있는 모든 gene들의 mRNA 발현량을 한꺼번에 측정할 수 있는 것이라는 점은 이 글을 읽고 있는 사람이면 누구나 알고 있는 점일 것입니다. 그런데 이점으로 인해서 전혀 다른 방식의 실험 디자인이 요구되게 됩니다. 단순히 암세포에서, 혹은 어떤 조건에서 (정상 세포, 혹은 다른 조건에 비해서) 많이 발현되는 유전자를 찾으면, 예를 들어 5000개쯤 나오게 됩니다. 물론 발현량의 차이의 크기 순으로 정렬을 해서 상위 몇 개를 고르는 것이 당장 스치고 지나가는 생각일 터이나, 이것은 DNA microarray 데이터가 우리에게 드러내주는 정보의 극히 일부를, 그것도 지난 여러 해 동안 경험들에서 "이렇게 해서는 잘 안 된다"는 것이 이미 증명이 된 방식으로 이용하게 되는 것입니다. 물론 (예를 들어) 어떤 병적인 조건을 불러일으키는 데에 중추적인 역할을 하는 gene은 분명히 발현이 되고 있을 것입니다. 단지 문제는 이 gene이 위의 5000개 중에서 대략 2500등 정도를 하고 있다는 점입니다. 상위 몇 개의 gene들 속에 "주된 원인이 되는 gene들"이 포함되어 있어야 한다는 것은 단지 우리의 희망일 뿐이며, 상당히 naive한 생각이란 점을 인식할 수 있게 되기를 바랍니다. 그리고는 무엇보다도 DNA microarray 데이터는 이보다는 훨씬 더 풍부한 정보를 담고 있다는 점이 있습니다. 이것이 어떤 것들인지 인식을 하고, 이를 낭비없이 제대로 활용함으로써 자신의 연구를 위한 유용한 정보를 추출해낼 수 있게 되는 실험 디자인이 바로 우리에게 필요한 그것일 것입니다.

두 번째 문제에 대해서도 간략히 적어보면 다음과 같습니다. 소위 "통계적인 현상"은 세상을 지배하는 ubiquitous한 원리 중의 하나입니다. 그런데 지금까지 분자생물학자로서 제대로 연구를 수행하기 위해서 통계학적인 기초 지식이 굳이 필요가 없었던 이유가 무엇인지는 이 글을 읽고 있는 사람들은 누구나 답을 할 수 있을 것입니다. "통계적인 현상"은 수가 많을 때에만 드러나게 됩니다. 우리는 그런 많은 수의 무엇인가를 다루지는 않아왔던 것입니다. DNA microarray에서는 이와는 완전히 다른 상황일 수밖에 없다는 것은 설명을 하지 않아도 될 것입니다. DNA microarray 데이터의 분석에는 거의 모든 step들에 통계학이 버티고 있게 됩니다. 이에 대한 이해가 깊을수록 DNA microarray를 이용해서 더욱 좋은 연구를 해낼 수 있다는 것은 할 필요조차 없는 소리일 것입니다. 그리고, 이러한 데이터를 다루는 일은 당연히 컴퓨터 상에서 어떤 소프트웨어를 사용해서 하게 되는 일이고, 이에 대한 지식이 필요하게 된다는 것 또한 더 적을 필요도 없는 점일 것입니다.

본 코스는 위에 언급한 점들을 최대한 모두 해소를 해주고자 하는 목적의 코스입니다. 코스에서 전달하게 되는 내용들을 조금 더 구체적으로 적어보면 다음과 같습니다. 우선, 위에 언급한 실험 디자인에 대한 것은 코스 전체에 걸쳐서 지속적으로 관련이 있을 때마다 설명이 됩니다. (한 가지 추가할 것으로, 지금까지 언급한 것은 "생물학적인 실험 디자인"이고, 통계학에서 말하는 "실험 디자인"도 있습니다. 예를 들어 "noise가 최대한 줄어들도록 디자인 하는 방법은 무엇인가", "같은 수의 chip으로 sample들 사이에 서로 비교가 되는 조합을 최대한 늘이려면 어떻게 해야 하는가"와 같은 문제에 대한 것들입니다. 이 부분도 강의에서 요약된 설명이 있게 됩니다.) 그리고는, 공통적으로 필요한 DNA microarray 데이터의 processing에 대한 여러 step들에 대해서 설명을 합니다. (이보다 더 자세히 적을 수도 있으나, 지나치게 긴 나열이 될 것이므로 이렇게 줄여서 적습니다. 즉, image analysis부터 시작해서 컴퓨터로 해야 하는 필수적인 여러 step들을 강의에서 설명을 합니다.) 그리고는 가장 중요한 부분이라 할 수 있는, "생물학적인 유용한 지식을 뽑아내는 분석 방법들"에 대해서 설명을 합니다.

강의에서 전달하는 컴퓨터 도구는 R을 중심으로 하는데, R은 현재 가장 널리 쓰이는 통계 패키지입니다. 생물학자들에게 어려운 점은 R이 프로그래밍을 해서 사용하는 형태의 것이라는 점인데, 대개는 처음으로 해보는 도전일 것입니다. 어느 정도 사용을 하게 되는 것은 그리 어렵지가 않으며, R을 일단 익혀 놓으면 데이터 분석과 관련된 온갖 일들을 자유자재로 할 수 있게 된다는 큰 잇점을 생각을 해서, 한 번 시간과 노력을 투자해보게 되기를 바랍니다. 물론 본 코스에서는 DNA microarray의 데이터 분석을 수행하는 과정에 대한 것들을 다루게 되지만, 이때 전달이 되는 R의 사용방법은 다른 목적으로 사용할 때에도 동일한 것이며, 한 번 배워두면 앞으로 연구자로서의 여러 일들에서 다양한 역할을 해내게 될 것입니다. 그리고 본 코스에서 전달되는 내용 중의 하나인 Bioconductor는, R 상에서 돌아가는 생물정보학적인 도구들을 모아놓은 것인데, DNA microarray 분석에 대한 것이 그 가장 큰 부분을 차지하고 있습니다.

이상이 본 코스에서 전달하고자 하는 주요 내용에 대한 대략적인 설명입니다. 주교재로는 지금까지 나온 DNA microarray 데이터 분석에 관련된 textbook 중에서 가장 평이 좋은 것 중의 하나인 "Data Analysis Tools for DNA Microarrays, Sorin Draghici"을 사용하는데, 특히 통계학에 대해 자세하고 친절한 설명도 포함되어 있어서 다른 책들보다 훨씬 그 자체로 완전하며 또한 "공부하기"에 좋은 책입니다. 본 코스에서는 이 책의 내용의 거의 전부에 대해서 적어도 요약된 설명은 하게 되는데, 각자 주교재를 반드시 읽어내게 되기를 바랍니다. 그리고 DNA microarray 데이터의 실제 분석 예는 "JSM 2005"의 material을 사용합니다.

그리고 아래는 강의에서 전달되는 내용을 더 구체적으로 미리 살펴볼 수 있는 관련 exercise들입니다.


주교재
 
  1. Data Analysis Tools for DNA Microarrays, Sorin Draghici, 2003, Chapman & Hall /CRC
  2. Materials in "Analysis of Gene Expression Data Short Course, JSM2005"

Recommended Readings
 
  1. Bioinformatics and Computational Biology Solutions Using R and Bioconductor (Statistics for Biology and Health), Robert Gentleman, Vincent Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit (Editors), 2005, Springer
  2. Introductory Statistics with R, Peter Dalgaard, 2002, Springer

Prerequisites
  생물학: 학부 3학년 수준의 분자생물학
전산학, 통계학: 없음
컴퓨터 프로그래밍: 없음

Course History
 

1차: 2004년 4월 13일 - 2004년 5월 14일
2차: 2005년 9월 13일 - 2005년 10월 13일


Bioinformatics Course Series의 공통적인 사항들
  Bioinformatics Course Series

Exercises:

    본 사이트의 "Bioinformatics Exercises" 페이지에는 여러 가지 형태의 exercise들이 문제 은행 형태로 지속적으로 만들어져서 올려지게 됩니다. 이론적인 면에 대한 이해를 묻는 것들, bioinformatics 도구들의 사용에 등에 대한 것들, 그리고 biological research에서의 실제 상황을 경험해볼 수 있는 project 등으로 구성되어 있는데, 이들 중에서 각 코스의 주제에 해당하는 것들이 선별이 되어서 각 코스의 exercise로서 제시가 됩니다. 코스에서 얻을 수 있는 것의 적어도 절반은 이들을 해냄으로써 얻어질 수 있는 것이므로, 반드시 시도를 해보게 되기를 바랍니다.

수료증:

    Bioinformatics Course Series의 5개 이상의 코스의 exercise들에 대해서 각기 60점 이상인 경우에 수료증명서 발급의 대상이 됩니다. 수료증명서에는 코스명을 비롯한 수료의 근거가 되는 사항들이 나열이 되며, 날인된 공문서 형태로 수료자가 원하는 경우에 지속적으로 발급이 됩니다. 수료에는 상당히 엄격한 기준이 적용됩니다. 즉 코스의 내용을 제대로 이해하고 있으며 해당분야 bioinformatics work을 해낼 수 있다는 것이 확실할 때에만 기준을 통과할 수 있습니다. 시리즈 전체에 대해서만 수료증명서가 발급되며, 개별 코스에 대한 수료증명서는 발급되지 않습니다.

생물학자로서 생물정보학을 제대로 시작하려면:

    생물정보학적인 일은 컴퓨터를 사용해서 하는 일이라는 것은 당연히 알고 있을 것입니다. 그런데 이때의 컴퓨터 사용법은 여러분이 지금까지 경험을 해왔던 것과는 상당히 다릅니다. 초급 수준의 프로그래밍이 가미된 것으로, 일반적인 PC사용법과는 달리 일부러 공부를 해야만 익힐 수가 있는 것들입니다. 다른 더 쉬운 대안은 없으며, 앞으로도 오랜 세월 동안은 생겨나지 않을 것입니다. 이는 computer science 그 자체의 한계와 함께, 우리가 수행해야 하는 일의 성격이 그러하기 때문인데, 더 자세한 이야기는 이곳에 적지는 않겠습니다. 선진국들에서 현재 벌어지고 있는 상황에서도 볼 수 있는 것처럼, 이것을 익히는 것이 생물학자들이 생물정보학적인 도구를 자신의 연구에 도입하고자 하는 과정에서 가장 넘기 힘든 장애로 작용을 하고 있습니다.

    다시 풀어서 적으면, 생물정보학적인 도구를 자신의 연구에 활용을 하기 위해서는 해당 분야의 도구들에 대한 지식과 함께, 어느 분야이든 무관하게 "컴퓨터로 많은 양의 데이터를 다루어야 한다는 점"으로 인해 공통적으로 요구되는 컴퓨터 사용 기술이 있습니다. 이 두 가지 모두를 갖추어야만 제대로 활용을 해낼 수가 있게 됩니다. 어떤 분야의 연구를 하든 무관하게, 그리고 본 시리즈의 어느 코스를 수강하든 무관하게, 누구나 반드시 갖추어야 하는 기술임을 인식하게 되기를 바랍니다. 그리고, 본 사이트의 Beginning Bioinformatics for Biologists 페이지에 생물 분야 전공자로서 생물정보학적인 도구들을 실제로 사용할 수 있도록 출발하는데 도움이 되고자 하는 목적의 일종의 온라인 책이 현재 작성이 되고 있으니 살펴보기 바랍니다.

Course mailing list:

    본 시리즈의 코스들에서는 email로 코스의 또 다른 부분이 진행되는데, 강의 내용 및 관련 주제들에 대한 여러 가지 정보가 email 및 웹을 통해서 다양하게 전달이 됩니다. 이 정보에는 관련 textbook들에 대한 안내, 공부 및 동향 파악을 위한 journal paper와 기타 문서들, 여러 관련 웹 resource들, 그리고 informal하게 적은 여러 가지 글 등, 다양한 것들이 포함됩니다. 또한, 코스가 종료된 이후에도 원하는 경우에는 old class mailing list 통해서 이와 같은 정보들을 계속 전달 받을 수 있습니다.

강의의 방식 및 기타 사항:

  • 본 코스는 빔 프로젝터로 스크린에 띄운 자료와 칠판을 함께 사용하는 일반적으로 볼 수 있는 강의의 형태입니다. 즉, 컴퓨터 실습실에서 실습을 하는 방식이 아닙니다.
  • 코스의 자료들은 별도의 웹 페이지에 올려집니다. 이 웹 페이지의 URL과  ID 및 password는 email로 전달이 됩니다.
  • email을 통해 강의의 또 다른 부분이 진행이 되며, email로 전달된 내용의 일부는 왼쪽 메뉴의 "Course Board"에도 일정 기간이 지난 뒤에 올려집니다.
  • bioinformatics.pe.kr로부터 오는 email을 스팸으로 취급을 해 버리는 곳들이 종종 있습니다. 요즘은 email 계정을 얻기가 매우 쉬우므로 이런 문제가 없는 email 계정을 본 코스를 수강하기 위해서 사용을 해야 합니다.
  • 강의 날짜는 왼쪽 메뉴의 Lecture Schedule 페이지에 나와 있으며, 마지막의 spare time slot은 불가피한 사정으로 강의가 연기가 될 경우를 대비한 것입니다.

 

Bioinformatics Information      Up

 

 

 

Last update: 11/15/2006