Bioinformatics Training Course Introduction

 

주최

생물정보연구소

강사

원세연 박사

(생물정보연구소, email address)

기간

서울: 미정 (요청에 의해 개설)

대전: 미정 (요청에 의해 개설)

(3시간 강의 21회)

시간

서울: 목요일 6:00pm - 9:00pm

대전: 화요일 6:00pm - 9:00pm

장소

서울: 성북정보도서관 세미나실 I

대전: 대전중소기업지원센터 종합연수실

 

 

 
코스의 개요 및 목적
 

본 코스는 생물정보학의 전반에 걸친 것들을 알고리즘 및 통계학적인 방법들을 위주로 살펴보는 코스입니다. 본 코스를 수강하기 위해서는, 아래에 나열되어 있는 prerequisite들을 이미 충족시킨 상태일 것이 권고됩니다. 이를 충족시키지 못한 경우와 생물정보학에 처음 입문을 하는 경우에는 본 코스 대신에 Bioinformatics Course Series의 코스들을 수강하기 바랍니다.

본 코스에서 다루는 구체적인 주제들에 대해서는 Lecture Schedule에서 살펴보기 바랍니다. 이 주제들에 대해서 이론적인 면까지 포함하여 상당히 심도가 있게 다루게 되나, 기초지식부터 최대한 포괄하여 설명을 하게 되며, 여러 알고리즘 및 통계학적 방법에 대해서 지속적으로 쌓아올라가는 방식입니다. 예를 들어 그래프 알고리즘을 이미 상당한 정도를 알고 있는 경우에만 본 코스를 수강할 수 있는 것이 아니라, 강의에서 그래프 알고리즘에 대해서 기초부터 시작하여 상당히 압축된, 그러나 어느 정도 완전한 설명을 하면서, 이때 예로써 생물정보학적인 응용이 사용이 되는 식입니다. 따라서, 아래에 나열된 prerequisite들을 수강한 적이 있는 경우에는, 크게 부담을 가지지 않고서 본 코스를 수강해도 됩니다.

bioinformatics work을 실제로 해낼 수 있게 되기 위해서는, 본 코스에서 다루는 이론적인 면들 이외에 여러 실용적인 지식들이 필요하게 됩니다. 이에는 biological database들에 대한 지식, 여러 bioinformatics software의 사용에 대한 지식, script programming, DBMS, 그리고 통계처리에 대한 지식 등이 포함됩니다. 본 코스는 기본적으로 이들에 대해서는 짧은 introduction과 함께, 스스로 공부를 할 수 있도록 자료를 제공을 주는 것까지만 하게 됩니다. 대신 과제는 이들이 요구되는 것이 출제가 되므로, 본 코스를 수료하기 위해서는 이러한 지식들이 필요하게 됩니다. 따라서, 제공되는 자료들 및 그밖에 다른 책 등을 통해서 스스로 공부를 해야 합니다. 이러한 bioinformatics work의 기반이 되는 실용적인 지식들에 대해서는 Bioinformatics Course Series의 코스들에서 다루어지게 됩니다.

생물학적인 지식 및 wet lab 실험에 대한 지식에 대해도 역시 위와 같은 방식으로 진행이 됩니다. 즉, 이에 대한 reading assignment들이 주어지며, 이를 스스로 공부를 해야 합니다. 강의에서는 물론 해당 내용에 대해서 간략하게 줄인 설명은 있게 되지만, 많은 양의 독서를 스스로 해내야 합니다. 이처럼, 본 코스는 기본적으로 "혼자서 공부를 할 수 있는 것은 최대한 스스로 하도록 하고, 복잡한 알고리즘 등에 대한 것에만 주로 시간을 쓰는 방식"을 택한 것입니다. 이 방식이 제대로 효과를 거둘 수 있게 되는 것은, 각자의 노력에 달려 있을 것입니다.


Prerequisites
 
  • 생물학: 생물분야 학부 3학년 수준의 분자생물학
  • 전산학: 이산수학, 자료구조
  • 통계학: 대학 이공계 분야의 기초 통계학 혹은 생물 통계학
  • 프로그래밍 언어 및 기타 컴퓨팅 도구: 아래 설명 참조
  • 위의 prerequisite들을 아직 갖추지 못한 경우, 또는 bioinformatics에 처음 입문을 하는 경우에는 본 코스 대신 Bioinformatics Course Series의 코스들을 수강하기 바랍니다.

과제
 

과제는 (1)이론적인 이해를 묻는 것, (2)실제 데이터를 분석해보는 실습 프로젝트, 그리고 (3)프로그래밍 그 자체가 위주가 되는 것의 3가지 유형으로 나누어집니다. (2)를 위해서는 R, SQL, 그리고 Perl 혹은 Python 프로그래밍이 필요하게 되며, (3)의 경우에는 C, C++, Java, Perl, Python 중에서 선택을 할 수가 있습니다. 과제에는 제출 마감이 따로 없으며, 자신이 해낼 수 있을 때에 마무리를 해서 제출을 하면 됩니다. 단, 너무 늦어질 경우에는 새로 출제된 과제를 대신 해서 해야만 합니다. 정확히 어떤 과제를 제출해야 하는지는 강의 홈 페이지에 올려져 있게 됩니다.


수료증
 

70% 이상 출석, 과제의 성적이 60점 이상인 경우에 한하여 수여하며, 필요한 수료자의 요청시에 날인된 공문서 형태로 발급합니다.


프로그래밍에 대해
 

본 코스에서 필요한 프로그래밍 및 기타 컴퓨팅 도구들에 대해서 적어보면 다음과 같습니다. 이들에 대해서는 Bioinformatics Course Series의 코스들에서 다루어지며, 본 코스에서는 짧은 introduction 만을 하게 됩니다. Unix와 MySQL은 Practical Bioinformatics Tools 코스에서, Perl은 Bioinformatics Programming 코스에서 다루어지며, R은 DNA Microarray Bioinformatics 코스와  Practical Bioinformatics Tools 코스에서 다루어집니다.

  • Unix: 본 코스는 운영체계는 리눅스를 사용하는 것으로 간주합니다.
  • R: 통계처리를 위해 가장 널리 쓰이는 도구입니다.
  • MySQL: 많은 양의 데이터를 다루기 위해 필요한 DBMS 중에서 bioinformatics work에서 가장 널리 쓰이는 것입니다.
  • Perl: bioinformatics work을 위해 가장 널리 쓰이는 script 언어로써, C/C++/Java 등을 잘 알고 있는 경우일지라도 본 코스의 과제들을 위해서는 Perl을 반드시 사용을 해야만 합니다. 원하는 경우에는 Python으로 대체를 할 수 있습니다.
  • 기타: Bioperl, Bioconductor, EMBOSS 및 그밖에 필요한 bioinformatics 도구들에 대해서는 강의에서 짧은 introduction 만을 하게 됩니다. Bioperl은 Bioinformatics Programming 코스에서, Bioconductor는 DNA Microarray Bioinformatics 코스에서, EMBOSS는 Practical Bioinformatics Tools 코스에서 다루어집니다.

Recommended Readings
 

주교재는 없으며, 강의에 필요한 자료가 웹을 통해 제공됩니다.

  1. An Introduction to Bioinformatics Algorithms (Computational Molecular Biology), Neil C. Jones, Pavel A. Pevzner, 2004, MIT Press
  2. Bioinformatics: Sequence and Genome Analysis, Second Edition, David W. Mount, 2004, Cold Spring Harbor Laboratory Press
  3. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Richard Durbin, S. Eddy, A. Krogh, G. Mitchison, 1998, Cambridge University Press
  4. Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology, Dan Gusfield, 1997, Cambridge University Press
  5. The Phylogenetic Handbook: A Practical Approach to DNA and Protein Phylogeny, Marco Salemi, Anne-Mieke Vandamme (Editors), 2003, Cambridge University Press
  6. A Primer of Genome Science, 2nd Edition, Greg Gibson, Spencer V. Muse, 2004, Sinauer Associates
  7. Data Analysis Tools for DNA Microarrays, Sorin Draghici, 2003, Chapman & Hall /CRC
  8. Statistical Methods in Genetic Epidemiology, Duncan C. Thomas, 2004, Oxford University Press
  9. Genomes, Terence A. Brown, 2002, John Wiley & Sons
  10. Human Molecular Genetics, Andrew P. Read, Tom Strachan, Third Edition 2004, Garland Science/Taylor & Francis Group

Course History
 

Bioinformatics Training Course(BTC)는 2000년 9월에 처음 열렸으며, 2003년 8월까지 각기 1년에 걸친 3기의 코스들이 열렸습니다. 2004년부터는  BTC가 중단이 되었고, 대신 Bioinformatics Course Series라는 이름 하에 주제별로 나누어진 단기 코스들이 계속 열리고 있습니다.

본 코스에 대해서 한 가지 내세울 만한 점은, 지난 1, 2, 3기의 BTC를 수강한 사람들 중에서 Washington University in Saint Louis, University of Washington, Seattle, 그리고 영국의 Cambridge University의 생물정보학 과정으로 4명이 유학을 갔다는 점입니다. 새로 BTC 4기를 수강하는 사람들 중에서 그 다음 사람이 더 나올 수 있게 되기를 바랍니다. 이런 사람을 계속 만들어내야 한다는 생각이 여러 가지 어려움에도 불구하고 BTC를 열게 되는 동기이기도 합니다.


강의의 방식 및 기타 사항
 
  • 본 코스는 빔 프로젝터로 스크린에 띄운 자료와 칠판을 함께 사용하는 일반적으로 볼 수 있는 강의의 형태입니다. 즉, 컴퓨터 실습실에서 실습을 하는 방식이 아닙니다.
  • 코스의 자료들은 별도의 웹 페이지에 올려집니다. 이 웹 페이지의 URL과  ID 및 password는 email로 전달이 됩니다.
  • 그밖에 코스에 관한 FAQ와 기타 정보는 왼쪽 메뉴의 "Course Board"에 올려집니다.
  • email을 통해 강의의 또 다른 부분이 진행이 됩니다.
  • bioinformatics.pe.kr로부터 오는 email을 거부하는 곳들이 종종 있습니다. 요즘은 email 계정을 얻기가 매우 쉬우므로 이런 문제가 없는 email 계정을 본 코스를 수강하기 위해서 사용을 해야 합니다. 등록 후에 자신의 email 계정이 이런 문제가 없는 것인지를 확인하는 절차가 있게 됩니다.
  • 같은 주에 대전과 서울에서 동일한 강의가 반복이 되며, 필요한 경우에는 신청한 지역에 상관없이 옮겨서 들을 수가 있습니다.

 

Bioinformatics Information      Up

 

 

 

Last update: 9/16/2006