Bioinformatics Course Board
   
  [DNA Microarray Bioinformatics] microarray data의 특징, R과 xmacs의 연결, 컴퓨터 하드웨어
  Writer : Seyeon Weon     Date : 10-02     Hit : 7624    
  트랙백 주소 : http://www.bioinformatics.pe.kr/gnuboard/bbs/tb.php/course/41
(이 글은 2005년 가을 경에 작성된 글입니다.)

(전략)


그리고, 서울 강의에서 아예 빠뜨려버린 부분이 있군요.  Microsoft Excel에서

row와 column이 각각 몇 개인지 한번 조사를 해보기 바랍니다.  여기에다 DNA

chip 한 장의 data를 넣으려면 어떤 방향으로 넣어야 할까요?  즉, gene을 row로

해야 할까요, 아니면 column으로 해야 할까요?  일반적인 data, 예를 들어 어느

고등학교의 신체검사 결과라면 어떻게 넣는 것이 자연스러울까요?


윗 문단이 담고 있는 것이 바로 DNA chip의 매우 특징적인 점 하나를 보여주는

것입니다.  이것은 극복할 방법이 (적어도 현재로서는) 없는 것이죠.  이로

인해서 통계학이란 것이 작동하는 근본원리인 이른 바 "law of large number"가

DNA chip에서는 영 제대로 작동하지가 않게 됩니다.  또한 이로 인해서, "단순히

통계학을 책에 나와 있는대로 잘 적용하면 되는 일"이 아닌 일이 되어버리는

것이죠.  그리고, "워낙 intrinsic한 problem이고, 그냥 무시해도 그럭저럭 되는

일"이 아니라는 점을 인식하는 것 또한 중요합니다.  이 한계를 항상 염두에

두고서 data analysis를 해야 하는 것이죠.  여기에서 대해서는 다음 주 강의에서

더 이야기를 해보도록 하겠습니다.


그 다음 혹시 관심이 있는 사람을 위해...  서울 강의에서 이야기 했던

sequencing by hybridization에 대해서는,

http://www.math.tau.ac.il/~rshamir/algmb/01/algmb01.html 에 있는 lecture 11,

"DNA Chips and Gene Networks"의 강의 노트가 좋은 읽을 거리입니다.


그리고, R과 xemacs 연결에 대해서 적어야 하는군요.  우선, 강의에서 언급했던

John Fox의 방법이란 것은

http://socserv.mcmaster.ca/jfox/Books/Companion/ESS/ 에 있는 것입니다.  일단

여기에 나와 있는 대로 따라 하는 것을 시도를 보기 바랍니다.  제가 쓰고 있는

그대로를 나중에 소개를 하도록 하겠습니다.


그 다음, 만약 본격적으로 DNA microarray 분석을 앞으로 주욱 하고자 하는

경우에 하드웨어 등에 대한 이야기 조금...  이 경우에는 linux로 하는 것이

"정상"입니다.  왜 linux로 해야 하는지는 한참 써보면 알게 됩니다. ^^; 음,

핵심은 속도가 더 빠르고, Unix 환경의 강점을 그대로 이용할 수 있고

등등입니다.  linux 공부는 서점에서 책을 하나 구입하거나, 구글 신에게 도움을

청하거나 해보기 바랍니다. ^^;


그럼 하드웨어 이야기...  일단 실험실에 원래 있던 컴퓨터 그대로 사용을 해도

됩니다.  linux 설치를 위해서는 하드 디스크를 하나 더 꽂으면 됩니다.  dual

booting이라고 (예를 들어) 부팅 시에 default는 Windows로 부팅되게 하고,

원하는 경우에만 linux로 부팅이 되게 할 수 있습니다.  물론 연구비가 넉넉한

경우에는 한 대 따로 구입을 하기 바랍니다.  그리고, 가장 중요한 점은 RAM의

양입니다.  요즘 일반적인 보드는 1GB RAM module을 4개, 즉 4GB까지 꽂을 수가

있습니다.  DNA chip 분석에는 그야말로 다다익선인 상황이라, 무조건 꽉 채워서

꽂아야 합니다.  만약 실험실에 원래 있던 컴퓨터 그대로 사용을 하는 경우에는

기존에 있던 (분명히 1GB module이 아닐 것이므로) RAM은 뽑아서 다른 컴퓨터로

옮기고, 1GB module로 채우기 바랍니다.  여기까지는 요즘 RAM 값도 워낙 싸고

하니, 시약 몇 병 사는 값 밖에 안 됩니다.  (아참, 노파심에...  학부생인 경우

등, 부모님 돈으로는 절대 이렇게 하지 않기 바랍니다.  공부하고 연습 문제 풀고

하는 정도의 일에는 집에 있는 아무 컴퓨터, 혹은 노트북도 충분합니다.)  4GB

이상을 가지면 물론 더 좋지만, 여기부터는 갑자기 확 비싸지게 됩니다.  (음,

혹시 이렇게 해보고 싶은 사람이 있는 경우에는 강의 시간에 질문을 하기를

바랍니다.)


그리고는 하드 디스크 대한 점이 있군요.  만약 진짜로 본격적으로 DNA

microarray 분석을 앞으로 주욱 하고자 하는 경우라면 data 보안 또한 매우

중요합니다.  여기에서 보안이란 누가 와서 훔쳐 가는 것 막는 보안이 아니라,

하드 디스크가 맛이 가서 data를 날려버리는 것과 같은 경우를 뜻합니다.  제가

권하는 방식을 요약하면 대략 이러합니다.  아참, linux를 기준으로 설명합니다.

이런 보안을 신경 쓸 수준이라면, 당연히 linux를 쓰겠기에...  일단,

http://www.tldp.org/HOWTO/Software-RAID-HOWTO.html 에 있는 글을 읽어보기

바랍니다.  이 software RAID에서 RAID 5라고 되어 있는 것을 사용하면 하드

디스크가 맛이 가서 생기는 문제의 적어도 98% 쯤은 방지가 됩니다.  그리고,

하드 디스크는 반드시 맛이 갑니다.  원래 그런 것이니 말입니다.  mp3 파일

모아둔 것 날려도 황당한데, DNA chip data 날려버리는 것은 최대한 확실히

방지를 해야겠죠?  그리고, 예를 들어 GenBank처럼 ftp로 다운로드가 항상 가능한

것은, RAID 0로 구성한 software RAID를 따로 만들어서 이곳에서 넣어두면

좋습니다.  RAID 0는 보안은 그야말로 최악입니다.  어느 한 하드 디스크만

깨져도 data가 그대로 끝장납니다.  그렇지만, 속도는 반대로 최상입니다.  하드

디스크 하나 쓸 때보다 (제대로 세팅을 한 경우에는) 하드 디스크 갯수의 곱에

거의 비례해서 빨라집니다.  RAID 5는 쓰기 속도는 형편없고, 읽기 속도는 RAID

0와 비슷합니다.  음, RAID에 대한 더 자세한 이야기는

http://www.tldp.org/HOWTO/Software-RAID-HOWTO.html 및, 기타 구글 신에게

도움을 청해보기 바랍니다.


그리고는 나머지 2%의 98%는 또 이렇게 해서 대비를 합니다.  네트웍에 연결된,

그리고 가급적이면 다른 방에 있는 컴퓨터에다 (어느 방에 불이 날 수도 있겠죠?

^^;) 한 디렉토리를 만들어서, 그곳에다 중요한 것만 종종 복사를 해두는

것입니다.  그리고 DVD로 구워두는 것은 수시로 하기는 영 불편하고 (물론

낭비이고), 그럴 필요가 있는 경우에만 국한해서 드물게 하면 될 것입니다.

마지막 남은 부분은 각자의 종교에 따라서 달라질 것입니다. ^^; 그리고,

전통적인 방법, 즉 테이브 백업 장치에다 정기적으로 백업을 하고 하는 것은 제

생각에는 약간 지나친 것 같습니다.  비용이나 실용성 등등을 고려할 때...

하여간, 위의 적은 방법이 그럭저럭 실용적이고 괜찮은 방법일 것입니다.


DNA chip 분석이든 다른 bioinformatics work이든 다 컴퓨터로 하는 일입니다.

관심을 가지고서 공부도 좀 하고, 시간과 공도 좀 들이고 해야합니다.  물론

컴퓨터 세팅하는 데만 시간을 써서는 안 되겠지만 말입니다.


별로 안 중요한 소리인데, 컴퓨터 세팅 하니까 한 가지 생각이 나는 것이 있군요.

지난 번 강의 들었던 사람들은 제가 dual monitor에서 한 쪽 모니터를 세로로

길게 세우는 것을 하려고 했었는데, 실패를 했다고 이야기 했던 것 기억나죠?

드디어 성공을 했습니다.  축하해 주세요. ^^; 인터넷 다 뒤져봐도 아주 드물게

성공하는 일인 듯 하더군요. ^^; 현재로서는 Matrox사에서 나온 graphic card만

이게 되는 것 같습니다.  xorg 6.8.2용 driver가 며칠 전에 막 나왔는데, 드디어

되더군요.  또 다른 방법은 아예 graphic card를 두 개 꽂는 방법이 있긴 하고요.