Bioinformatics Exercises
  Bioinformatics Exercises에 대해
  Writer : Seyeon Weon   Updated : 10-26   Hit : 10499   Updates 
이곳에 있는 exercise들은 일종의 문제 은행 형태로 계속 만들어가고 있는 것으로 다음과 같이 분류를 해놓았습니다.
 
가장 상위의 분류는 필요로 하는 prerequisite에 따라서 나누어놓았습니다.
  • A 타입은 아무런 prerequisite이 없습니다.
  • B 타입은 Unix, shell script, perl, MySQL, R에 대한 지식을 요구합니다.
  • C 타입은 알고리즘에 대한 어느 정도 본격적인 수준의 이해를 요구합니다.
A와 B 타입은 생물학자로서 생물정보학을 자신의 연구에 활용하고자 할 때 기본적으로 필요한 수준이 위주가 되는 것이고, C 타입은 이 두 가지보다는 조금 더 advanced한 내용입니다. 즉, 생물 분야 연구자로서 필요한 생물정보학적인 일을 해낼 수 있기 위해서는 B 타입까지는 풀 수 있어야 합니다. C 타입에는 두 가지 성질의 것들이 섞여 있는데, 하나는 생물학자로서 전산학 공부도 어느 정도 해낸 경우에 충분히 풀 수 있는 수준의 것이고, 다른 하나는 본격적인 수준으로 알고리즘에 대한 이해 및 프로그래밍이 요구되는 것입니다. 이 두 가지를 나누어 놓을 수도 있을 터이나, 도전을 해보게 되기를 바라는 뜻에서 함께 모아둡니다.
 
통계학에 대해서는 별도의 구분이 없는데, 이는 적어도 기초적인 수준의 통계학은 사실상 어떤 일에서나 항상 필요한 것이기 때문입니다. 그렇지만, 상당히 advanced 수준의 통계학 지식이 필요한 예외적인 경우에는 C 타입으로 구분을 해놓게 됩니다.
 
그 아래 단계의 구분은 exercise 그 자체의 형식에 따른 것으로 다음과 같습니다.
  • Question은 간단히 답을 할 수 있는 질문들입니다.
  • Problem은 풀기 위해서는 컴퓨터나 연습장 등으로 작업을 수행을 해야 하는 것들입니다.
  • Computer Tool은 도구의 사용법 그 자체가 더 위주가 되는 것들입니다.
  • Hands-on Project는 훨씬 본격적으로 컴퓨터 상의 작업이 필요한 것들입니다.
다른 문제에서 reference가 되는 문제들은 앞부분에 [Distance Matrix]와 같은 형식으로 그 문제의 주제를 몇 단어로 요약한 타이틀을 달아놓게 됩니다. 그런 다음 refer가 되는 문제에서는 [Distance Matrix]처럼 링크를 걸게 됩니다. 만약 아예 다른 페이지에 있는 문제인 경우에는, 예를 들어 B 타입의 hands on project이고 DNA microarray에 대한 exercise라면, "B.Hands-on. DNA Microarray [Distance Matrix]"와 같이 표기를 하고 역시 링크를 걸어놓게 됩니다. 보통 이러한 목적에는 문제의 번호를 사용하는 것이지만, 문제 은행 식으로 계속 추가를 하는 것이라 번호가 빈번하게 바뀌게 되는데, 이때 바뀐 번호를 찾아서 계속 수정을 하는 것은 쉬운 일이 아니므로 이런 방식을 택했습니다. (진정한 해결책은 이런 목적에 맞도록 아예 php로 새로 하나 만드는 것인데, 언젠가 시간이 나면 해보도록 하겠습니다.)
 
본 exercise에서 사용되는 컴퓨터 도구들에 대해서 적어보면 다음과 같습니다.
  • bioinformatics work을 위해서 생물학자들 사이에서 현재 가장 널리 쓰이고 있는 것들을 최대한 선택하였습니다.
  • Unix 상에서 실행하는 것을 기준으로 합니다. MS Windows로는 제대로 해내기 힘든 일들이며, 이로 인해서 온갖 비효율에 계속 시달리는 것보다는 Unix를 배워버리는 것이 자신의 정신건강에도 이로울 것입니다.
  • perl/python/ruby는 서로 어느 정도 interchangeable하며, 뒤의 두 가지가 계속 추격을 하고 있으나, 현재로서는 여전히 perl이 여러 가지 점들을 고려할 때 가장 효율적인 선택입니다.
  • 물론 MySQL 대신 다른 DBMS도 가능하나, 적어도 현재로서는 굳이 그럴 이유가 없으리라 생각이 됩니다.
  • R 역시 programming interface를 가지고 있는 다른 통계 패키지로 대체가 가능하나 굳이 그럴 이유가 없으리라 생각이 됩니다.
위에 해당하지 않는 것으로, 생물학 그 자체에 대한 문제들도 좀 올려놓습니다. 현재는 2000년도에 제가 가르쳤던 코스에서 "Basic Knowledge in Biolgy"라는 제목으로 냈던 문제들만 올려져 있는데, 종종 생물학 그 자체에 대해서도 문제들을 만들어보겠습니다.
 
끝으로, browsing을 하는 방법 및 표기 규칙에 대해서 적어보면 다음과 같습니다.
  • 다시 목차 페이지로 돌아오게 하는 방법은 [List]이라고 되어 있는 버튼, 상단에 있는 제목, 그리고 왼쪽 메뉴의 해당 항목 등을 누르면 됩니다. 브라우저의 [뒤로] 버튼도 물론 작동을 합니다.
  • "Updates"를 누르면 최근에 수정된 것일수록 위쪽에 위치하게 되는 순서로 정렬을 하여 10개까지 보여줍니다. 자주 방문을 하는 경우에는 이 기능을 이용하면 편리할 것으로 생각이 됩니다.
  • 검색 기능도 활용을 해보기 바랍니다.
  • hypertext의 layout은 단순히 두 개의 층으로만 되어 있습니다. 즉, 가장 상위에 하나의 페이지로 된 목차가 있고, 이 목차 페이지에 문제가 들어 있는 페이지들이 모두 직접 연결이 되어 있습니다. browsing을 할 때에 이와 같은 두 개의 층 사이를 오가면 됩니다.
  • 본문에서 주석이 달린 단어들은 페이지의 하단에 있는 주석에 링크가 되어 있으며, 클릭을 하면 해당 주석은 붉은색으로 표시가 됩니다. 주석은 본문에서 나타나는 순서와는 상관없이 나열이 되어 있습니다. 주석의 순서를 본문과 맞추는 것은 조금 번거로운 일이라 일단은 이렇게 해둡니다
  • 녹색으로 된 부분은 코스를 수강한 사람이 평가를 원하여 제출을 하는 경우에 적용되는 내용입니다.
  • 엷은 회색으로 된 부분은 주로 주석에 별도로 적기에는 분량이 적은 부가적인 첨언입니다. (온라인 문서는 이처럼 여러 색상을 인쇄 비용 등의 부담이 없이 사용을 할 수가 있다는 장점도 있군요.)

Up