Bioinformatics Course Board
   
  [DNA Microarray Bioinformatics] "R demo from the course I"에 대한 설명
  Writer : Seyeon Weon     Date : 10-02     Hit : 7001    
  트랙백 주소 : http://www.bioinformatics.pe.kr/gnuboard/bbs/tb.php/course/51
DNA chip의 실험의 일반적인 step들은 이제 다들 알고 있죠?


이렇게 실험한 chip을 scanner로 읽으면 image 파일이 얻어지는데 (sampling and

digitization, 이 부분은 다음 강의에서 조금 더 설명을 하겠습니다.), 이

이미지를 결국 개개의 spot들에 대한 수치들로 바꾸어주어야 합니다

(quantification, 이 부분 역시 다음 강의에서).


이렇게 얻어진 수치는 긴 vector가 되지만, 실제로는 data.frame으로 기록을

해두는 것이 편하겠죠?  즉, 그 spot이 무슨 gene이다부터 시작해서 여러 정보를

함께 기록해두는 것이죠.  게다가, two-color이므로 일단 vector가 두 개가 되고,

이들 vector를 가지고서 여러 가지 계산을 한 것을 또 다시 vector로 만들어서

나란히 붙여놓으면 편하겠죠?  그리고 각 spot의 quality control을 위한

데이터도 위의 quantification step에서 얻어지게 됩니다.  가장 많이 쓰이는

GenePix라는 소프트웨어의 경우에는 .gpr 파일이 이렇게 해서 생성이 되게

됩니다.  (강의에서 말로 다시 설명을 합니다...)


아참, 이 .gpr file들을 windows에서 (물론 linux에서도 같습니다.) 제대로

들여다보려면 좀 복잡한 점이 있군요.  editor에서 line wrap 기능을 꺼주어야

합니다.  그리고, excel에서 불러들여도 됩니다.  이 파일을 이곳저곳 좀

살펴보고, 한참 관조를 해보기 바랍니다.


그 다음, 이런 형태의 파일을 R에서 어떻게 읽어들이는지는 http://cran.r-project.org/doc/contrib/rdebuts_en.pdf 파일의 page 10부터

잘 설명이 되어 있습니다.


그 다음 demo1A.R 의 내용입니다.  30319.xls

파일은 사실 이미 다 해서 LOG_RAT2N_MEDIAN이란 이름의 column(즉, vector)으로

들어 있는 것이지만, 그냥 우리도 한번 해서 같은 값이 얻어지는지 확인을 해는

식으로 하게 됩니다.  cy3 값은 "CH1I_MEDIAN - CH1B_MEDIAN"이고, cy5 값은

"CH2I_MEDIAN - CH2B_MEDIAN"인데 (대문자로 CH2I_MEDIAN 같이 써놓은 것은

30319.xls 파일의 vector, 즉 column의 이름입니다.), 그러니까 foreground

pixel들의 intensity의 median 값에서 background pixel들의 intensity의 median

값을 뺀 것입니다. (다음 강의에서 말로 설명을 하게 됩니다.)


이 값을 가지고서 normalization을 해주면 드디어 뭔가 분석을 해볼 1차 준비가

된 data가 됩니다.  (물론 역시 강의에서 말로 길게 설명을 합니다.)  그런데,

DNA chip 실험은 항상 여러 장을 해야한다는 것 알고 있죠?  각 chip에 대해서

위의 과정을 반복을 해줍니다.  그리고는 그 결과를 data.frame 형태로 나란히

옆으로 붙이면 complete_dataset.txt와 같은 것이 얻어지는데, 이걸 일반적으로

expression matrix라고 부릅니다.  여기까지가 demo1A.R의 내용입니다.


demo1B.R은 그 다음 과정으로, clustering을 해보는 것입니다.  이를 하기 전에,

missing value가 너무 많은 gene을 아예 빼주거나 빼기에 너무 아까운 경우에는

guessing한 value를 채워주는 일도 해야 합니다.


여기까지 하면 일단 기본적으로 DNA chip data를 가지고 biology 따져보기

직적까지의 data analysis는 한 것입니다.  물론 그 다음부터가 진짜 일이라는

점이 DNA chip의 일면 황당한 점이죠. ^^;


음, 위의 설명을 가지고서 일단 demo1A.R과 demo1B.R을 시도를 해보기 바랍니다.

강의 시간에 좀 더 clear한 picture들을 가질 수 있는 설명들을 더 하겠습니다.