Bioinformatics Q&A
   
  [예전 글] 두 가지 큰 방향
  Writer : Seyeon Weon     Date : 06-02     Hit : 7914    
  트랙백 주소 : http://www.bioinformatics.pe.kr/gnuboard/bbs/tb.php/qa/13
(아래 글은 강의를 듣는 학생들에게 보낸 email입니다. 앞부분에 무관한 내용은
생략을 했습니다.)

그리고, 앞으로의 내용 일부 및 이해를 돕기 위한 몇 마디...  다음 강의까지는
대략 discrete algorithm 쪽만 하게 됩니다.  scoring system(즉, PAM 그리고
BLOSUM matrix)과 alignment의 significance는 강의 5에 잡혀 있습니다.  따라서,
pairwise alignment에 대한 full story는 12월초가 되어야 끝이 나게
되는군요. 그리고, 강의 4에서 scoring system의 이해를 위한 기초가 되는
position specific weight matrix를 하게 됩니다.  이 부분에서는 통계학이
등장을 하게 됩니다.  아마도 생물학자 입장에서는 더욱 중요한 부분이 바로 이
부분일 것 같습니다.  이 부분이 바로 database search 뒤에 받게 된 결과가 무슨
뜻인지, 얼마나 significant한 match인지 이해하는 핵심이 되는 것이니 말입니다.

문제는 통계학을 공부를 하는 것이군요.  이 부분까지에서 필요한 통계학은 사실
고등학교 이상의 내용은 아닙니다.  물론 그 뒤로 점점 더 심각해지지만
말입니다.  우리 코스에서 장차 DNA microarray에 대한 제1 부교재로 삼으려고
하는 책의 저자인 Speed 교수가 통계학과 교수인 것만 봐도 알 수 있듯이, DNA
microarray는 그야말로 통계학의 full swing이 되는 것이군요.  지금 꺼내긴 좀
무거운 이야기이지만, 이것이 바로 "DNA microarray 가지고 한번 실험 해봐라,
결국 무슨 소용이 있는지"라는 말이나 서로 돌게 되는 바로 그 이유의 단적인
면인 셈이군요.  거의 불가능한 일이겠죠?  DNA microarray 실험은 통계학이 full
swing인 것인데, 통계학이 깜깜해서는 완전 장님 그림 그리기 꼴이 되겠죠.  (음,
더 좋은 표현이 없는지...)  하여간, 이번 3기에서는 특히 이 부분에 있어서
최대한 제대로 갖춘, 그리고 최대한 많은 사람들을 고지에 올려놓을 수 있게 되는
강의들을 해보고자 하는 것이 제1 목표로 삼고 있는 것이군요.  얼마나 잘 해낼지
모르겠지만 말입니다...

통계학 공부의 심각성이 절감이 되는지요?  그리고, 소위 proteomics라 부르는
것도 완전히 마찬가지입니다.  어쩌면 국내에서는 DNA microarray쪽보다는
proteomics 쪽이 오히려 더 active한 것 같던데, 제대로 본 것인지
모르겠군요. 그런데, 선진국들에서는 그렇지가 않죠.  proteomics 쪽은 아직
상대적으로 열악한 점이 너무 많으니 말입니다.  음, 이 부분 이야기는 다음
기회에 하는 편이 좋겠군요.  핵심적으로 이해해야 할 부분은 이것입니다.  소위
omics적인 방법은 "단순 비교를 여러 개의 eppendorf tube 그리고 여러 개의
well에 loading해서 귀찮게 반복하는 대신에 편하게 한 판에 할 수 있게 해주는
도구"가 절대 아니라는 점입니다.  너무 국내 상황을 무시하는 언사인지
모르겠지만, 국내에서는 많은 경우에 바로 이렇게 인식이 되어 있는 것 같다는
점이 문제의 핵심인 것이죠.  만약 그런 것이었다면, Speed 교수 같은 사람이
괜히 이 분야를 하게 되지도 않았겠죠.  (수학적인 면만 따지면) 중학생도 할 수
있는 단순 비교 반복을 위해서 이런 뛰어난 학자까지 거들어줄 필요가 없었겠죠.
음, 좋은 설명인지 모르겠지만...

"그렇다면 도대체 뭐란 말인가"라고 묻는 사람들이 있겠군요.  이 email의 제목에
달아놓은 것처럼, "The DeWitt Stetten, Jr. Symposium on Computational Cell
Biology"라는 제목의 심포지움이 NIH 동화상 사이트에 막
올라왔군요. http://videocast.nih.gov/PastEvents.asp?c=3 에서 첫번째
것입니다(물론 날짜가 지나면 뒤로 밀려나겠지만).  이제 진도가 나가는 첫
강의를 겨우 마친 상태에서 한꺼번에 너무 무거운 이야기들을 하게 되는 것
같지만, 이 심포지움의 내용은 위의 통계학과는 또 다른 쪽입니다.  omics
research(혹은 분자생물학 새 버전, 혹은 이름을 무엇으로 붙이든 간에)의 두
가지 큰 방향의 하나가 위에서 언급한 (음, 제대로 설명을 한 것은 아니지만...
이걸 앞으로 일년 동안 풀어준다는 소리라는 것 알죠?) 통계학적인 것이고,
두번째 큰 방향이 바로 이 심포지움에 있는 내용과 같은 류의 것이죠.  즉, 소위
network modeling 정도로 불리는 것입니다.  생물체 내에서 일어나는 현상들이
단백질들을 비롯한 여러 가지 요소들이 상호작용을 하는 network이란 것은 당연히
이해하고 있을 터이고요. 이걸 수학적으로 보면 어떨 것이라고 생각을 하나요?
위 심포지움의 한 발표자가 쓴 표현으로 "unless simple linear propagation"이란
말이 있군요.  즉, simple linear propagation이 아니란 소리이죠.  이게 아니면
뭐가 달라진다는 것일까요? 이게 아닌 순간, 단순 비교 및 (적절한 표현인지
모르겠지만) 산수 수준으로는 아예 전혀 다룰 수가 없는 일이 되어 버립니다.
물론 이 방향은 아직은 통계학쪽 방향만큼 잘 정립되지도 연구가 많이 진척이
되지도 않았습니다.  (하긴, 통계학쪽도 이제 막 이것저것 해보고 있는 것은
마찬가지이군요.  비교를 굳이 하자면 그렇다는 것입니다.)  하지만, 다들 장차는
훨씬 더 중요하게 될 것이고, 그리고 궁극적으로 바로 이것이라고 말들을 하고
있는 것입니다.  그리고, 생물학자들에게 더욱 심각해지는 점은, 이 부분은 바로
생명현상에서 얻어진 데이터를 가지고 뭘 하게 되는 핵심(하긴, 위의 통계학쪽도
별로 다를 바가 없군요.)이 되는 것이니, 누굴 시킬 수 있는 성질의 것이 전혀
아니라는 점입니다.  이게 연구 그 자체인데, 이걸 누굴시키면 자신은 실험이나
해주는 테크니션이 되고 연구는 그 사람이 하게 되는 꼴이 되는 것이죠.  충분히
납득이 되도록 길게 적진 못했지만, 대략 이해가 되는지요?

음, 글이 꽤 길어졌군요.  초장부터 너무 무거운 이야기들을 꺼집어낸 것 같긴
하군요.  원래는 좀 더 가볍게 적으려고 시작한 글인데 (제목을 잡아 놓은
것처럼, 심포지움 소개를 하려고...) 너무 거칠게 몰아치는 글이 되어버린 것
같군요.  그럼 앞으로 강의에서 천천히 해보도록 합시다.

- 원세연 ( http://www.bioinformatics.pe.kr )