Statistics for Bioinformatics Course Introduction

 

주최

생물정보연구소

강사

원세연 박사

(생물정보연구소, email address)

기간

미정

시간

목요일 6:00pm - 9:00pm

장소

성북정보도서관 세미나실 I

 

 

 
코스의 개요 및 목적
 

본 코스는 생물 분야 학생 및 연구자를 주대상으로 하며, 실용적인 면을 강조하여 통계학적인 도구들을 실제로 사용할 수 있도록 하는 데에 주된 목표를 둡니다. 고등학교 수준 이상의 통계학 및 수학에 대한 기초 지식은 요구되지 않으며, 컴퓨터 프로그래밍에 대한 사전 지식 또한 요구되지 않습니다. 통계 소프트웨어는 R을 사용하며, 실제 biological research에서 마주치게 되는 상황을 예로써 사용하여 설명을 합니다.

우선 이러한 통계학 지식이 biological research의 수행을 위해서 필요한 이유에 대해서 간략히 적으면 다음과 같습니다. 몇 개의 시료에 대해서 gel 상에 band가 나타나는지를 "++, +, -" 식으로 기록해두는 방식의 연구에서는 통계학은 굳이 필요가 없을 것입니다. 그렇지만, 오늘날의 소위 omics 또는 high-throughput 방식의 biological research에서는 측정치들은 거의 예외없이 정량적인 수치로 얻어지며, 게다가 수천, 수만 혹은 그 이상의 수치들이 한 번의 실험에서 얻어지게 됩니다. 이러한 데이터를 다루기 위해서 인간이 만들어 놓은 기술이 바로 통계학이라 부르는 것입니다. 또한, "연관이 있다고 알려진 몇 개의 gene과 자신의 실험 결과와의 관계에 대한 정성적인 설명"과 같은 방식은 전혀 충분하지 못하게 됩니다. 예를 들어, gene ontology 또는 gene network 상에서 연결된 pathway에 속하는 다수의 gene들에 대해서 무언가 정량적인 분석 결과를 제시해야 합니다. 이러한 것들을 위해서는 다른 방법은 존재하지 않으며, 오로지 통계학이란 것을 사용할 수밖에 다른 수는 없는 것입니다. 게다가, 이것이 바로 실험 데이터를 들여다보는 것이니, 누군가에게 대신하도록 맡긴다는 것은 한 마디로 어불성설이 됩니다. 아마도 국내에서 이러한 "요즘 생물학" 방식이 유독 약한 상황인 주된 이유 중의 하나가 바로 통계학의 결핍에서 오는 것이라 볼 수 있을 것입니다.

본 코스에서는 통계학의 필수적인 이론적 백그라운드 부분에 대해서는 수식은 가급적 사용하지 않고 개념파악 위주로 요약하여 설명을 합니다. 본 코스에서 다루는 통계기법들은 실제 biological research에서 널리 쓰이는 것들을 선별한 것이며, 이들에 대해서 R을 이용하여 실제 biological data를 가지고서 분석을 수행하고 그 결과를 해석하는 방법을 전달하는 형태로 설명을 하게 됩니다.


Recommended Readings
 

주교재는 없으며, 강의에 필요한 자료가 웹을 통해 제공됩니다.

  1. Introduction to the Practice of Statistics, Fifth Edition, David S. Moore, George P. McCabe, 2005, Freeman
  2. Choosing and Using Statistics: A Biologist's Guide 2nd Edition, Calvin Dytham, 2003, Blackwell Publishing
  3. Introductory Statistics with R, Peter Dalgaard, 2004, Springer

Prerequisites
  별도의 정해진 prerequisite은 없습니다. 수학과 통계학에 대해서는 고등학교 수학을 넘어서는 것은 갖추고 있지 않다고 가정을 하고 최대한 알기 쉽게 설명을 진행합니다. 전산학 및 컴퓨터 프로그래밍에 대해서도 아무런 사전 요구 사항이 없습니다.

Bioinformatics Course Series의 공통적인 사항들
  Bioinformatics Course Series

Exercises:

    본 사이트의 "Bioinformatics Exercises" 페이지에는 여러 가지 형태의 exercise들이 문제 은행 형태로 지속적으로 만들어져서 올려지게 됩니다. 이론적인 면에 대한 이해를 묻는 것들, bioinformatics 도구들의 사용에 등에 대한 것들, 그리고 biological research에서의 실제 상황을 경험해볼 수 있는 project 등으로 구성되어 있는데, 이들 중에서 각 코스의 주제에 해당하는 것들이 선별이 되어서 각 코스의 exercise로서 제시가 됩니다. 코스에서 얻을 수 있는 것의 적어도 절반은 이들을 해냄으로써 얻어질 수 있는 것이므로, 반드시 시도를 해보게 되기를 바랍니다.

수료증:

    Bioinformatics Course Series의 5개 이상의 코스의 exercise들에 대해서 각기 60점 이상인 경우에 수료증명서 발급의 대상이 됩니다. 수료증명서에는 코스명을 비롯한 수료의 근거가 되는 사항들이 나열이 되며, 날인된 공문서 형태로 수료자가 원하는 경우에 지속적으로 발급이 됩니다. 수료에는 상당히 엄격한 기준이 적용됩니다. 즉 코스의 내용을 제대로 이해하고 있으며 해당분야 bioinformatics work을 해낼 수 있다는 것이 확실할 때에만 기준을 통과할 수 있습니다. 시리즈 전체에 대해서만 수료증명서가 발급되며, 개별 코스에 대한 수료증명서는 발급되지 않습니다.

생물학자로서 생물정보학을 제대로 시작하려면:

    생물정보학적인 일은 컴퓨터를 사용해서 하는 일이라는 것은 당연히 알고 있을 것입니다. 그런데 이때의 컴퓨터 사용법은 여러분이 지금까지 경험을 해왔던 것과는 상당히 다릅니다. 초급 수준의 프로그래밍이 가미된 것으로, 일반적인 PC사용법과는 달리 일부러 공부를 해야만 익힐 수가 있는 것들입니다. 다른 더 쉬운 대안은 없으며, 앞으로도 오랜 세월 동안은 생겨나지 않을 것입니다. 이는 computer science 그 자체의 한계와 함께, 우리가 수행해야 하는 일의 성격이 그러하기 때문인데, 더 자세한 이야기는 이곳에 적지는 않겠습니다. 선진국들에서 현재 벌어지고 있는 상황에서도 볼 수 있는 것처럼, 이것을 익히는 것이 생물학자들이 생물정보학적인 도구를 자신의 연구에 도입하고자 하는 과정에서 가장 넘기 힘든 장애로 작용을 하고 있습니다.

    다시 풀어서 적으면, 생물정보학적인 도구를 자신의 연구에 활용을 하기 위해서는 해당 분야의 도구들에 대한 지식과 함께, 어느 분야이든 무관하게 "컴퓨터로 많은 양의 데이터를 다루어야 한다는 점"으로 인해 공통적으로 요구되는 컴퓨터 사용 기술이 있습니다. 이 두 가지 모두를 갖추어야만 제대로 활용을 해낼 수가 있게 됩니다. 어떤 분야의 연구를 하든 무관하게, 그리고 본 시리즈의 어느 코스를 수강하든 무관하게, 누구나 반드시 갖추어야 하는 기술임을 인식하게 되기를 바랍니다. 그리고, 본 사이트의 Beginning Bioinformatics for Biologists 페이지에 생물 분야 전공자로서 생물정보학적인 도구들을 실제로 사용할 수 있도록 출발하는데 도움이 되고자 하는 목적의 일종의 온라인 책이 현재 작성이 되고 있으니 살펴보기 바랍니다.

Course mailing list:

    본 시리즈의 코스들에서는 email로 코스의 또 다른 부분이 진행되는데, 강의 내용 및 관련 주제들에 대한 여러 가지 정보가 email 및 웹을 통해서 다양하게 전달이 됩니다. 이 정보에는 관련 textbook들에 대한 안내, 공부 및 동향 파악을 위한 journal paper와 기타 문서들, 여러 관련 웹 resource들, 그리고 informal하게 적은 여러 가지 글 등, 다양한 것들이 포함됩니다. 또한, 코스가 종료된 이후에도 원하는 경우에는 old class mailing list 통해서 이와 같은 정보들을 계속 전달 받을 수 있습니다.

강의의 방식 및 기타 사항:

  • 본 코스는 빔 프로젝터로 스크린에 띄운 자료와 칠판을 함께 사용하는 일반적으로 볼 수 있는 강의의 형태입니다. 즉, 컴퓨터 실습실에서 실습을 하는 방식이 아닙니다.
  • 코스의 자료들은 별도의 웹 페이지에 올려집니다. 이 웹 페이지의 URL과  ID 및 password는 email로 전달이 됩니다.
  • email을 통해 강의의 또 다른 부분이 진행이 되며, email로 전달된 내용의 일부는 왼쪽 메뉴의 "Course Board"에도 일정 기간이 지난 뒤에 올려집니다.
  • bioinformatics.pe.kr로부터 오는 email을 스팸으로 취급을 해 버리는 곳들이 종종 있습니다. 요즘은 email 계정을 얻기가 매우 쉬우므로 이런 문제가 없는 email 계정을 본 코스를 수강하기 위해서 사용을 해야 합니다.
  • 강의 날짜는 왼쪽 메뉴의 Lecture Schedule 페이지에 나와 있으며, 마지막의 spare time slot은 불가피한 사정으로 강의가 연기가 될 경우를 대비한 것입니다.

 

Bioinformatics Information      Up

 

 

 

Last update: 9/16/2006