[국내논문] 고차원자료에서의 다중검정의 활용
Multiple testing and its applications in high-dimension 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.24 no.5, 2013년, pp.1063 - 1076  

장원철 (서울대학교 통계학과)

현대 과학기술의 발전으로 빅데이터의 시대가 도래하였다, 이러한 빅데이터는 여러가지 과학적 문제에 대한 해답을 제공하지만 반면에 이로 인해 새로운 도전에 직면하고 있다. 마이크로어레이 자료와 같은 고차원자료는 이러한 빅데이터에서 흔히 볼 수 있는 유형중의 하나이다. 본 논문에서는 고차원 자료분석에 많이 쓰이고 있는 대역검정과 동시검정, 그리고 이의 응용에 대한 소개를 한다.

The power of modern technology is opening a new era of big data. The size of the datasets affords us the opportunity to answer many open scientific questions but also presents some interesting challenges. High-dimensional data such as microarray are common in big data. In this paper, we give an over...



다중비교에서 필수적인 것은 무엇인가? 예를 들면 생물정보학에서 마이크로어레이 자료 분석의 경우 유전자의 갯수가 자료의 갯수보다 많고 각각의 유전자에 대한 발현여부를 통계적 가설검정을 이용하여 알고자 할 때 연구자들은 유전자의 갯수만큼 적게는 수천에서 많게는 수만개의 가설검정을 동시에 행하 게 된다. 이러한 다중비교에서 오류 (error rate)의 조정은 필수적이다. 기존의 가설검정방법을 오발견 (false discovery)에 대한 고려없이 사용할 경우, 즉 각각의 유전자에 대한 유의수준 0.
FDR 방법론은 어떠한 분야에 성공적으로 사용되었는가? FDR 방법은 사실 1980년대 의학통계에서 쓰였던 다중검정 방법에서 그 유래를 찾을 수 있다. 이후 이 방법론은 다양한 분야의 연구, 신호처리에서 웨이블렛 함수의 분계점 선택 (threshold selection), 천 체물리학에서 우주배경복사 (cosmic microwave background)를 이용한 빅뱅이론의 확인, 마이크로어레 이 자료의 분석 등에 성공적으로 사용되었다 (Lindsay 등, 2004). Table 1.
빅데이터 분석에 가장 유용한 분석방법들에는 무엇이 있는가? 21세기는 빅데이터의 도래로 많은 분야의 연구들이 새로운 통계분석방법을 요구한다. 현재 빅데이터 분석에 가장 유용한 분석방법들로는 다중검정방법, 구체적으로 대역검정 (global testing)과 동시검정 (simultaneous testing)을 들 수 있겠다. 예를 들면 생물정보학에서 마이크로어레이 자료 분석의 경우 유전자의 갯수가 자료의 갯수보다 많고 각각의 유전자에 대한 발현여부를 통계적 가설검정을 이용하여 알고자 할 때 연구자들은 유전자의 갯수만큼 적게는 수천에서 많게는 수만개의 가설검정을 동시에 행하 게 된다.
