왜 생물정보학 공부를 해야 하는가? - 학부생들을 위해 적은 글

 

원세연 (http://www.bioinformatics.pe.kr)

생물정보연구소

2005. 6. 30 (최종 수정: 2006. 9. 6)

이 글을 생물 분야 학부생이 지금 읽고 있다고 가정을 하고 적습니다. 학문은 중단없이 발전을 하는 것이지만, 생물학은 현재 유난히 큰 변화를 겪고 있습니다. 이 변화가 어떤 것이며 여러분과 어떤 상관이 있는가를 여기에 조금 풀어서 적어봅니다. 생물학의 역사는 상당히 길고, 이 역사에 대해 "LANDMARKS IN THE HISTORY OF GENETICS"라는 제목의 홈 페이지에서 잘 정리를 해놓은 것을 찾아볼 수 있습니다. 오늘날 생물학의 주된 부분, 따라서 여러분이 현재 학교에서 배우는 주된 부분은 지난 50여년간 이른 바 분자생물학이라 불리는 분야, 그보다 수십 년 전부터 활발했던 생화학이라 불리는 분야, 그리고 역시 긴 역사를 가진 유전학이라 불리는 분야들이 만들어낸 것입니다. 생화학은 생명체에 담긴 화합물들을 분리하여 살펴봄으로써 생명 현상을 이해해 보고자 하는 방식의 것입니다. 유전학은, 결국 이러한 생명 현상은 유전물질에 의해서 지배가 되므로, 교배 등을 통한 외형적으로 드러나는 유전적인 현상을 추적함으로써 살펴보는 방식의 것입니다. 분자생물학은 생화학과 유전학의 연결이라 할 수 있는데, 유전물질, 즉 DNA를 직접 분리, 조작, 추적함으로써 살펴보는 방식의 것입니다. 여기까지는 생물 분야 학부 고학년이라면 대개 이해하고 있는 내용일 것입니다. (물론 위에 적은 것이 생물학의 전부는 아니며, 생물학은 매우 폭이 넓은 분야입니다. 그렇지만, 위에 적은 것이 오늘날 생물학의 여러 분야에 두루 걸쳐 중심적인 위치를 차지하고 있습니다.)

우선, 오늘날의 변화로 인해 위에 적은 것들이 사라지거나 중요하지 않게 되거나 하는 것은 아니라는 점이 있습니다. 따라서, 여러분이 학교에서 현재 배우고 있는 과목들은 매우 중요하고 앞으로도 계속 유효한 것들이니 결코 등한시 해서는 안 됩니다. 그렇지만, 요즘은 그 이상의 어떤 것들이 더 있는 것인가를 이해하는 것이 중요한데, 이에 대해서 풀어서 적어봅니다. 이러한 변화의 가장 중요한 요인으로 20세기 말에 생명체를 들여다보는 도구의 발전이 크게 있었는데, 이는 주로 전자공학, 그리고 화학의 발전에 힘입은 것입니다. human genome project가 무엇인지는 아마도 이 글을 읽고 있는 사람들은 모두 알고 있을 것입니다. 요즘은 냉장고 크기보다 작은 기계 한 대에서 하루에 백만 개가 넘는 염기의 서열을 읽어낼 수 있으며, 아마도 여러분이 속한 학과에서도 이런 기계들을 쉽게 구경할 수가 있을 것입니다. 그리고 DNA chip 혹은 DNA microarray라는 것도 들어봤을 것입니다. 이것은 손톱만한 chip 하나로 한꺼번에 수만 개의 유전자들의 발현량을 측정해줍니다. 요즘은 그리 비싸지도 않으니 연구비만 어느 정도 있다면 한꺼번에 수십 개 혹은 수백 개의 이러한 chip을 사용해서 실로 엄청난 양의 데이터를 자신이 들여다보고자 하는 시료들로부터 간편하게 얻어낼 수 있습니다. 이러한 장치들은 이 외에도 다양한 것들이 더 있고, 또한 앞으로도 계속 새로운 것들이 만들어질 것입니다. 이러한 장치들을 사용해서 생물체로부터 얻어지는 데이터는 손으로 직접 종이에 기록을 하기에는 너무 많은 양이며, 이로부터 무언가 유용한 지식을 얻어내기 위한 분석을 위해서는 컴퓨터가 필요할 것이라는 점은 쉽게 이해가 될 것입니다.

이러한 도구의 변화가 생물 분야의 연구 방식에 있어서 근본적인 변화를 일으키고 있고, 이에 따라 연구를 해내기 위해 필요한 기초 지식도 크게 달라지고 있다는 점을 이해하는 것이 중요합니다. 이제 이를 풀어서 적어보고자 하는데, 아직 기존의 분자생물학 등의 연구 방식에 대한 체험도 부족한 상태인 학부생들에게 이 부분을 제대로 이해가 되도록 설명을 하는 것은 그리 쉬운 일은 아니지만, 한번 시도를 해보겠습니다. 그리고, 이러한 도구의 변화는 패러다임의 변화도 함께 수반을 하고 있는데, 이러한 패러다임의 변화가 왜 필요하게 되었는지에 대해서 먼저 적어봅니다. 우선, 환원주의라는 용어가 있습니다. 이것은 어떤 현상의 원인은 그 현상이 일어난 시스템을 구성하는 요소들로 환원시킬 수가 있다고 보는 방식입니다. 예를 들어 어떤 종류의 암이 있으면, 그 암은 어떤 유전자가 잘못 되어서 일어난다는 식을 말합니다. 이것이 바로 지난 50여년간의 분자생물학의 근간을 이루는 사고방식이며, 이 방식이 매우 성공적이라 지금까지의 큰 발전들을 이루어낸 것입니다. 이것은 복잡한 시스템을 들여다보는 효율적인 방식입니다. 그런데 도대체 무엇이 부족해서, 요즘 생물 분야의 새로운 움직임을 대표하는 용어들인 genomics니 bioinformatics니 systems biology니 하는 것들, 그리고 이런 글까지 생겨나게 한 다양한 새로운 움직임들이 현재 전세계적으로 활발하게 일어나고 있는 것일까요? 한 가지 걱정이 되는 상황은, 이런 것들은 "우리 생물학과는 상관이 없는 딴 것이다"라고 생각을 하는 경우입니다. 물론 국내에서의 지금 당장의 "우리 생물학"은 그럴지 모르겠지만, 이 글을 읽고 있는 학부생들이 활동을 해야 하는 시절의 생물학은, 마치 요즘은 분자생물학이 "보통의 생물학"인 것처럼, genomics, bioinformatics, systems biology와 같은 용어 속에 담긴 것들이 다 포함된 것들이 "보통의 생물학"이 되어 있는 시절을 살게 될 것은 너무나 명백한 것입니다. 이 방향의 변화는 이미 선진국들에서는 90년대 중반부터 출발을 하여 상당히 많이 진행이 되어 있는 상황이며, 국내에 분자생물학의 도입이 선진국들에 비해서 10여년 뒤쳐져 80년대 중반에 일어났던 것처럼, 한편으로는 같은 역사가 반복되고 있는 상황이라 할 수 있습니다. 이러한 변화는 기성세대에게는 결코 쉽게 받아들여지는 것이 아니며, 이런 종류의 마찰은 온갖 곳에서 늘 반복해서 일어나는 것이기도 합니다.

자, 다시 본론으로 돌아와서 이러한 패러다임의 변화가 필요하게 된 이유에 대한 설명을 암에 대한 것을 예를 들어 시도해보겠습니다. 지금까지 위와 같은 환원주의적인 접근으로 수백 개의 암 원인 유전자들을 찾아냈습니다. 사람에는 백 가지가 넘는 종류의 암이 알려져 있는데, 이 유전자들 중에서 어떤 것은 온갖 종류의 암에서 흔하게 잘못 발현된 것이 발견되고, 어떤 것은 암의 종류에 대해 훨씬 더 특이적으로 잘못된 것이 발견이 됩니다. 암의 종류와 유전자들과의 이와 같은 관계 그 자체를 찾아보는 것은 데이터를 모아서 잘 정리만 하면 되니 별 문제가 아닐 것입니다. 그런데 이러한 지식들을 가지고 있음에도 불구하고, 막상 예를 들어 왜 어떤 유전자는 주로 어떤 종류의 백혈병에서만 잘못된 것이 보이고 다른 암에서는 그렇지 않은가 하는 당연한 의문조차도 우리는 아직 거의 갈피를 잡지 못하고 있습니다. 이것은 결국 암의 발생 기작에 대한 이해, 나아가 치료를 해낼 수 있는 지식을 제대로 가지게 되면 해결이 되어 있을 문제이리라는 것은 쉽게 이해가 될 것입니다. "환원주의적인 생각"을 암의 치료법에 적용시켜보면, "그럼 그 잘못된 발암 유전자를 제대로 되게 해주면 되겠군"이란 생각이 명백하고 자명한 생각일 것입니다. 물론 글리벡이란 약이 이를 해주는 좋은 예입니다. 즉, 어떤 종류의 백혈병의 암 세포에서 많이 발현되어 있는 유전자 하나에 달라붙어서 더 이상 활동을 못하게 막아주는 약입니다. 그런데 이 약은 한 때는 기적의 약이었지만, 몇 년 동안 계속 먹으면 잠자코 있던 암이 다시 신기하게도 진화를 해서 글리벡이야 있든 말든 계속 증식을 하게 되는 문제로 인해 현재 많은 환자들이 심각한 상황이라는 것을 아마도 매스컴이나 수업 시간에 교수님 등을 통해서 들었을 것입니다.

우리가 현재 어디까지 와 있는지 어느 정도 이해가 되는지요? 물론 지난 50여년간의 분자생물학은 결코 헛되지는 않았으며, 이젠 적어도 많은 수의 발암 유전자들의 리스트와 이들이 어느 암에서 주로 잘못되어 있는지 정도는 알게 되었습니다. 그럼에도 불구하고, 도대체 왜 고작 이 정도밖에 암의 치료에 대해 해결을 하지 못하고 있는 것일까요? 아예 확 근본적으로 해결을 해 버리지는 못하는 것일까요? 미국에서 나오는 말로 지난 30여년간 엄청난 돈을 암 치료법 개발에 쏟아부었지만, 그 결과는 "차라리 금연운동과 시민 체육시설에 그 돈을 썼더라면 몇 배는 더 나을 뻔했다"라는 씁쓸한 말이나 듣고 있는 상황인 것입니다. 그렇다면 이 상황을 돌파하기 위해서는 도대체 뭐가 더 필요한 것일까요? 지금까지 환원주의적인 접근으로 상당히 큰 성공을 거두었지만, 그 이상의 것, 즉 자세한 내부 메커니즘에 대한 이해, 요즘 흔히 하는 표현으로 gene regulatory network의 system 레벨의 이해는 아직은 걸음마도 제대로 떼지 못하고 있는 상황인 것입니다. 이러한 더 높은 수준의 이해가 필요한 이유를 다른 예로 설명을 해보면, 마치 "이 회사가 요즘 계속 적자가 나는 것이 바로 요 사원 때문이다. 따라서, 요 놈을 당장 잘라야 한다."라는 것과 유사한 생각이 환원주의적인 방식에서의 생각입니다. 또는, "한국이 2005년 세계 청소년 축구대회에서 브라질에 대패를 한 것은 박-주-영이 팔꿈치 부상에다 쌓인 피로에 지쳐서 헤맸기 때문이다. 박-주-영을 당장 잘라야 한다."라는 예도 가능합니다. 이는 실제로 이른 바 발암 유전자라 우리가 이름을 붙여놓은 것들이 대부분의 경우 세포의 증식을 조절하는 데 있어서 박-주-영처럼 없어서는 안 되는 핵심적인 유전자들이므로 더욱 그럴듯한 비유라 할 수 있습니다. 기존의 이러한 방식들이 상당히 부족한 생각이라는 것은 이렇게 예를 들면 쉽게 납득이 될 것입니다. 그리고, 물론 암이 많은 사람들이 쉽게 이해를 할 수 있을 것이라 예로 든 것이고, 현재 생물 분야에서 다루는 많은 것들이 이와 유사한 상황에 놓여 있습니다.

현재 생물 분야에서의 변화를 한 마디로 줄여서 적으면, 위에서 적은 것처럼 자동화된 장치로 많은 양의 데이터를 얻어내고 이것을 분석을 해서, 윗문단에 적은 것과 같은 종류의, 현재 꽉 막혀 있는 한계를 넘어서 보자는 것입니다. 이러한 분석에 대해서 이해를 해야 할 중요한 점은, 단순히 데이터의 양이 많아서 생기는 문제만 있는 것이 아니며, 수학/통계학/전산학의 지식을 바탕으로 하는 도구들을 사용하여 훨씬 복잡한 관계들을 살펴본다는 점입니다. 이것이 여러분과 당장 관련이 있는 중요한 점은, 이를 제대로 해내기 위해서는 수학/통계학/전산학의 기초 지식들을 반드시 가지고 있어야 하며, 여러분은 현재 이러한 공부를 해내야 하는 바로 그 시기에 놓여있다는 점입니다. 이처럼 대량의 데이터에서 복잡한 관계를 따져보는 일은 지금까지의 환원주의적인 접근의 분자생물학에서와는 달리, 단순비교, 간단히 경향만 보는 것, 간단한 관계만 보는 것과 같은 "산수 수준의 도구에 의존해서 논리적으로 잘 따지는 능력"만으로는 되지 않는 일입니다. 따라서, 생물 분야도 이제는 다른 이공계 분야들과 마찬가지로 수리적인 사고체계를 기반으로 하는 것이 되어가고 있으며, 이를 학부 시절부터 본격적으로 익혀나가기 시작해야 하는 것입니다. 이 글을 읽고 있는 여러분들이 바로 이러한 앞으로의 생물 분야 연구를 해낼 사람들입니다. "대학원 가서 연구할 때 필요하면 그때 가서 배우지 뭐"는 물론 말이 안 되는 소리입니다. 이러한 수리적인 사고체계는 최대한 나이가 적을 때에 시작을 해야만 제대로 머리에 자리를 잡을 수가 있는 것입니다. 이미 "산수 수준으로 논리적 사고를 하는 것"에 익숙해져 있는 사람에게는 무척이나 힘든 변화입니다. 이것은 바로 오늘날 모든 선진국들의 생물 분야에서도 똑 같이 겪고 있는 고통입니다. 이로 인해 오늘날 선진국들에서는 생물학 교육을 (특히 학부 교육을) 어떻게 바꾸어야 하는지에 대해서 큰 고민에 휩싸여 있으며, 다양한 시도들이 이미 이루어지고 있는 상황입니다.

아직 학부 저학년인 경우를 위해서 조금 풀어서 적으면, 여러분이 앞으로 받게 될 기존의 생물 분야 교육에서는 아래에 구체적으로 나열해놓은 수학과 전산학 등의 기초들은 상당히 결핍되어 있습니다. 그리고, 위에도 적었지만 이러한 "수리적 기초 지식과 사고 능력"은 최대한 학부 저학년때부터 출발을 해야 합니다. 선진국들의 이러한 움직임에 대해서 예를 들어, BIO2010: Transforming Undergraduate Education for Future Research Biologists 도 읽어보고, Princeton University의 Integrative Genomics 프로그램과 과목들에 대한 글도 좀 읽어보고, 혹시 영어 듣기가 되는 경우에는 An Introductory Science Curriculum for 21st Century Biologists 도 한번 들어보기 바랍니다. 물론 이런 골치거리는 존재하지 않는다고 치부를 해 버리거나, 우리와는 상관이 없는 일이라고 외면하는 것도 "손바닥으로 하늘을 가리는" 방법이겠지만, 이 글을 여기까지 읽고 있는 학부생들은 그런 말에는 현혹이 되지 않으리라 믿습니다. 또한, "이런 일을 하는 컴퓨터 소프트웨어가 다 나와 있으니 우리는 그냥 쓰기만 하면 된다"라는 말에도 현혹되지 말아야 합니다. 이런 설명까지 해야 한다는 것이 한편 좀 우습지만, 종종 일어나는 일로 보여서 굳이 적습니다. 하여간, 이것은 전혀 말도 안 되는 헛소리입니다. CAD 프로그램이 있다고 건축 설계나 기계 설계를 할 수 있는 것은 아니라는 점은 당연히 이해가 될 것입니다. 더 길게 적을 필요는 없을 것입니다. 이런 말을 하는 사람이 주변에 있다면 굳이 논쟁을 하지 말고 그냥 웃으면서 이야기를 딴 곳으로 돌리기 바랍니다.

그리고, 윗 문단에 링크된 생물 분야 학부 교육에 대한 글들에서, 그리고 이 글에서 말하고 있는 것은 "CAD 프로그램을 손수 만들어야 한다"에 해당하는 것이 아니라는 점을 노파심에 추가를 합니다. 예를 들어, 현재 생물체로부터 얻은 대규모 데이터를 분석하기 위해서 가장 많이 쓰이는 도구 중의 하나가 R이란 이름의 통계 패키지인데, R을 직접 만들 필요는 물론 없으며, 사용법 그 자체 또한 전혀 문제거리가 아닙니다. 문제가 되는 것은 통계학에 대한 확고한 기초지식과 이를 생명 현상 연구에 어떻게 적용을 시키는가 하는 점에 대한 지식입니다. 아마도 주변에서 "이런 것까지 우리가 직접 알 필요는 없고, 누구한테 시켜서 최종 결과만 가져오면 된다"는 류의 온갖 "자기 합리화"를 시도하는 이야기들도 들을 수 있을 것입니다. 이것은 한 마디로 손바닥으로 하늘을 가리려는 것일 따름입니다. 논쟁을 할 필요도 없이, "저는 우직하게 공부를 할 터이니, 열심히 잘 가리고 사시기 바랍니다." 정도의 태도를 (가급적 겉으로 드러나지 않도록) 취하면 현명할 듯 합니다. 그리고 이런 현상이 생기는 이유는, 위에서도 적은 것처럼 "학부 저학년 때부터 수리적인 학문들에 대한 공부"를 해두기 않았기 때문입니다. 기회를 놓치면 무척이나 힘든 일이 됩니다. 자칫 자신도 후배들 앞에서 손바닥으로 하늘을 가리는 소리나 하는 사람이 될 것입니다. 할 필요도 없는 소리이지만, 그런 사람이 되는 것보다는 핸디캡이 없는 사람이 되는 것이 훨씬 나을 것입니다. 더욱이 학문을 하자는 것이니, 당장의 편리함보다는 뭔가 우직한 것이 훨씬 낫다는 일반적인 진리가 적용되는 것이기도 합니다. 이런 소리를 추가하게 되는 이유는, 당장 진학을 할 곳을 살펴보면 상당한 괴리를 느끼게 될 것이기 때문입니다. 즉, 현실은 아무도 하라고 하지 않는 공부를 굳이 하는 꼴이 됩니다. 그런데, 이런 글까지 굳이 적고 있는 이유가 바로 이것입니다. 모두가 이미 하고 있는 소리라면, 굳이 시간을 내서 이런 글을 적을 필요도 없을 것입니다. 하지만 문제는, 선진국들의 움직임, 그리고 전세계가 모두 같은 마당에서 활동을 하고 있는 생물 분야 연구 그 자체가 바뀌고 있다는 점입니다. 이것은 우리가 제자리를 맴돌든 거꾸로 가고 있든 상관없이 변해가는 것이니 말입니다.

제대로 전달이 되게 적었는지 여전히 걱정스럽긴 하지만, 글이 너무 긴 것도 좋지 않을 것이므로 이 정도로 대략 마무리에 들어갑니다. 그리고, 간략하게나마 공부해야 할 것들에 대해서 조금 적어봅니다. 우선, 여러분이 수학/통계학/전산학의 공부를 위해 수강해야 하는 과목들은 여러분이 소속된 대학에 항상 개설이 되고 있는 것들이란 점이 있습니다. 단지, 쉬운 교양 과목 등을 대신해서 각오를 좀 단단히 하고 들으면 될 것입니다. 반드시 들어야 하는 최소한의 과목들은 다음과 같습니다. 우선 수학은 다변수 해석학까지의 해석학, 선형대수, 미분방정식인데, 일반적으로 쉽게 택할 수 있는 과목이 "공업수학"이란 이름이 붙은 과목일 것입니다. 물론 1학년 때 기초 미적분학은 당연히 들었다고 가정을 하고 적은 것입니다. 그리고 수치해석이란 과목도 필수적입니다. 통계학은 일단 이공계용 기초 통계학은 반드시 듣고, R과 같은 통계 패키지를 사용해서 기본적인 통계분석은 할 수 있게 되어야 합니다. 그 다음 전산학은 이산수학, 자료구조, 알고리즘, 데이터베이스, 인공지능인데, 할 필요도 없는 소리지만 여기에 덧붙여서 반드시 컴퓨터 프로그래밍을 할 줄 알아야 합니다. 위에 적은 프린스턴의 경우에는 이러한 새로운 생물학을 해내기 위해 교육시키고 있는 학생들에게 아예 1학년 1학기의 첫 시작에서 java를 6주일 동안 가르친 다음에 모든 시작을 하게 하는군요. 즉, 프로그래밍을 할 줄 아는 것은 마치 글씨를 쓸 줄 아는 것이나 마찬가지가 되는 것입니다. 이 정도가 대략 최소한의 과목들입니다. 아마도 제대로 규모가 있는 이공계를 가진 대학이라면 이 중에서 개설되어 있지 않은 과목은 없을 것입니다. 쉬운 교양과목을 줄여가며 듣는 일이 상당히 힘들 터이지만, 수학에는 특히 아낌없이 투자를 해야 합니다. 그렇지 않으면 두고두고 후회를 하게 됩니다. 현재 전세계 많은 저명한 생물학자들, 그리고 심지어는 bioinformatics 전문가들조차 종종 "내가 왜 학부 시절에 수학 과목들을 그것밖에 안 들었던가"를 외치고 있습니다. 그밖에도 들어두면 좋을 많은 과목들이 있지만, 여기에 적은 것이 가장 중요한 과목들입니다.

그리고 굳이 한 가지 추가를 할 점이 있습니다. 생물정보학은 무슨 산업이 제대로 되는 그런 분야는 아닙니다. 단지 이러한 새로운 방식의 생물학 연구를 해내기 위해서 생물 분야 연구자가 반드시 갖추고 있어야 하는 기술 및 지식의 일부일 따름입니다. 따라서, 이 부분만 따로 떼서 무슨 전문가를 양산을 해낸다는 것은 성립이 되지 않는다는 것이 이해가 되는지요? 괜히 이 글이 "야, 그럼 생물정보학을 아예 전공으로 해야겠구나"라는 착각을 불러일으키는 글이 될까 심히 걱정이 되어서 적는 것입니다. 길게 적지 않아도 이해가 되리라 믿습니다. 적당한 예인지 모르겠지만, 화가가 되려면 미대 회화과 같은 곳을 가거나 해야지, "붓 만들기 과"나 "물감 잘 섞는 방법 배우기 과"를 다녀서는 안되는 것입니다. 물론 붓을 만들거나, 물감의 혼합에 대해서 연구를 하는 사람도 소수는 필요할 것입니다. 그렇지만 이들은 아주 소수가 필요할 뿐이고, 결국 필요한 것은 대다수를 차지하는 그림 그리는 사람들이며, 생물 분야 연구에서 이에 해당하는 것은 바로 생물학과 등에서 하는 것입니다. 다시 적지만, 생물정보학이 독자적인 산업이 되거나 하지는 결코 못하며, 이에 따라 제대로 직업이 있거나 할 수는 없는 분야라는 점도 인식하고 있어야 합니다. 단지, 이미 선진국들에서는 그렇게 된 점으로, 이러한 새로운 방식의 생물 분야 연구를 대규모로 하는 몇몇 곳에서 필요로 하는 소수의 전문가들이 거의 전부인, 그런 특수 직종 정도는 될 수가 있습니다. 물론 국내에서 그 수요가 얼마나 될지, 그리고 단지 지원 부서에 해당할 뿐인 것이라 결코 연구의 주도권을 가질 수는 없는 이들에 대한 대우가 얼마나 좋을 지에 대해서는 별로 희망적인 말은 하기 힘듭니다. 따라서, 이를 위한 대규모 인재 양성 같은 것은 필요로 하지 않는다는 것은 당연한 점일 것입니다. 하여간, 이 글이 괜히 엉뚱한 곳으로 인도를 하는 글은 절대 되지 않아야 한다는 노파심에 적었습니다. 이 글은 미래에 제대로 생물 분야 연구를 해낼 수 있는 유능한 생물학자가 되려면, 현재 생물 분야 학부생이 왜 그리고 무엇을 공부를 해야 하는지에 대해서 적어본 것입니다.

 

Bioinformatics Information      Up

 

 

 

Last update: 9/16/2006