$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

빅데이터 통계 프로그램 개발

2013-10-17

최근 웹과 인터넷, 모바일 등 컴퓨터를 사용할 수 있는 환경이 다양해지면서 생성되는 데이터 역시 매우 방대해지는 추세다. 이처럼 데이터가 많아지고 다양해지는 현상을 일컬어 ‘빅데이터’ 라고 언급하는데, 저장규모가 방대하고(Volume), 자료 형식이 다양하며(Variety), 처리 속도가 빠르게(Veolocity) 지향된다고 해서 3V라고 언급된다.
빅데이터의 영향력이 높아지면서 각국 간에 인터넷 유저(user)를 포섭하기 위한 보이지 않는 전쟁이 매우 치열하게 전개되고 있다. 제타바이트 수준의 빅데이터 시대에 주도권을 잃지 않기 위해 다양한 준비를 진행하고 있는 것.
우리나라 역시 경쟁력과 주도권을 잃지 않기 위해 다양한 노력을 진행중이다. 폭발적으로 증가하는 방대한 양의 데이터를 분석해 미래예측, 의사결정 등에 반영하기 위한 통계패키지 기술이 국내 연구자를 통해 개발되고 있다. 


빅데이터통계학에 관심 가져야

 
“지난 2009년 ‘뉴욕타임즈(New York Times)’에 통계학에 대한 특집이 실린 적이 있습니다. 그 후 해당 논문이 ‘데이터사이언스’라는 새로운 이름으로 또 다른 특집이 실리고 곧 빅데이터 시대에 대해서 이야기하기 시작했죠.
한국에서는 빅데이터에 관해서 이야기할 때 IT 기술만 강조하는 경향이 있는데요, 이제 한국에서도 빅데이터가 통계학에서 시작됐다는 것을 인식할 필요가 있습니다.”
현재 우리나라는 IT강국이라는 수식어가 난무하고 있지만, 정작 ‘빅데이터 시대’에 분석틀로 사용되는 통계 분석프로그램을 개발하는 능력이 매우 취약한 상태다. 때문에 구글과 페이스북 등 새롭게 등장한 빅데이터의 연관산업들이 뒤쳐지고 있다는 게 이 교수의 지적이다.
“한국에서 IT와 통계기술을 융합해 정보 가치를 창출한다면 우리나라도 해볼 만 할 것 같습니다. 특히 빅데이터 발전을 위해서는 가치 창출을 위해 가치를 찾아내는 분석틀인 통계패키지가 필수적이에요.
현재까지 한국에서는 데이터 기반 연구의 경우 데이터가 소속된 학문분야 내에서 한정적으로 이뤄져왔죠. 때문에 분석 후 획득된 유의미한 지식 또한 그 특정 분야 영역 내에서 고립되는 경우가 대부분이었습니다.”
통계패키지 프로그램은 평균과 분산 등 기초통계부터 의학분야에서 사용되는 생존자료, 사회과학 분야에서 활용되는 다변량 자료 및 다수준 모형 뿐 아니라 금융 분야에서 활용되는 시계열자료 등 다양한 자료를 분석할 수 있도록 돕는다.
“최근 글로벌 IT기업인 IBM이 대형 통계소프트웨어사 SPSS를 인수하는 등 세계적으로 빅데이터 분석용 통계 소프트웨어 개발과 활용에 대한 관심이 높아지고 있어요. 하지만 현재 국내 대학과 연구소, 기업 등에서 주로 사용하는 통계 프로그램은 대부분 외국제품입니다. 때문에 매년 저작권료를 지불해야 해 비용에 대한 부담이 많았습니다.”
이영조 교수팀은 서울의대 핵의학과와 공동으로 대용량 고차원 뇌영상 기술을 개발했다. 더불어 신경과와 함께 연구를 진행, 급성허혈증 뇌졸중 응급환자 2십만 건의 혈압 데이터 분석에 적용해 뇌졸중 내원 후 증상이 악화되는 경우를 예측하는데 활용하기도 했다.
“우리 센터가 보유한 다양한 다단계일반화모형 등에 기반을 둔 독창적인 통계기법과 계산 알고리즘을 구현했어요. 데이터 분석결과에서 직관적으로 데이터의 의미를 알 수 있도록 일목요연하게 시각화하는 등 기존 기술과 차별화한 것이죠.”


데이터 비용 줄이고 유출도 막아


데이터 분석의 기본 틀인 통계 프로그램을 외국에 의존하는 것은 필요하지 않은 외화 유출을 하는 것과 같아요. 뿐만 아니라 각종 소프트웨어 산업과 의료 바이오산업, 제조 산업 및 컨설팅, 서비스 산업 등 지식기반 산업의 중추를 외국 산업에 의존케 하는 암적 요소입니다.
이는 한국의 과학 기술인들이 만든 유수한 기술들이 적시에 소프트웨어에 반영돼 학문적으로 주도적 위치를 선점할 수 있는 기회를 박탈하는 요인이 되기도 합니다. 이를 해결하고자 통계 프로그램 개발을 착수했어요.”
이영조 교수팀의 연구결과가 나왔을 때 많은 사람들은 외국의 도움을 받지 않고 순수하게 국내 경쟁력으로 이를 만들 수 있다는 것을 믿지 않았다. 모두들 통계프로그램 개발 기술은 미국이나 유럽에 몇몇 선진국에서나 할 수 있는 것으로 생각했던 탓이다.
“뿐만이 아니에요. 지금도 우리가 개발한 통계프로그램이 살아남아 세계와 경쟁할 수 있다는 생각을 아무도 안 갖는 것 같아요. 이것이 가장 큰 난점이었습니다. 이제 적어도 대학의 교육과 연구를 우리자체기술로 개발한 통계프로그램이 담당하는 것을 보는 시대가 올 것입니다.”
이영조 교수는 이번 연구와 관련, 국내 필요에 부응한 새로운 분석 방법이나 데이터 플랫폼을 발 빠르게 제공할 수 있게 되면 IT 기술과 함께 융합해 ‘빅데이터 시대’를 선도하게 될 것이라고 말했다.
“새로운 소프트웨어 산업을 형성하는데 촉매제 역할을 할 것으로 예상됩니다. 한국을 IT 강국이라고 일컫는데 앞으로 통계와 융합해 선도적인 빅데이터 기술을 개발할 수 있다고 생각해요. 이를 통해 여러 학문 분야가 융합적 연계를 이룰 수 있는 기반이 될 것으로 기대합니다.”
이영조 교수는 앞으로 국내 많은 과학 분야에서 새로운 지식기술이 창출되면, 이를 새롭게 개발된 통계프로그램에 탑재해 한국이 과학지식창출과 교육에 선도적 역할을 할 수 있는 기반을 만들기 바란다고 이야기 했다.
“일례로 의학 분야에서 의료정보데이터나 임상시험 데이터, 질환 분류나 진행모형 데이터, 유전체 분석 등 다양한 의료 데이터분석에 개발된 통계 프로그램이 새로운 분석기법을 제공하고, 또 의미 있는 연구들이 도출된다면 의료교육과 연구력 향상에 크게 도움이 될 것입니다.
또한 우리가 개발한 의료기술이 우리의 통계프로그램에 탑재돼 수출 할 수 있는 기반도 마련할 수 있습니다. 이는 기존의 통계프로그램 사용으로 인해 발생하는 외화의 유출을 막을 수 있을 뿐만 아니라 추후 경쟁력을 통해 역으로 외화를 벌어들이는 역할까지 할 것으로 생각합니다.”
앞으로 해당 프로그램은 우선적으로 대학통계교육과 의료연구에 적용되고, 이후 점차 공업과 사회과학 분야 등에서도 경쟁력을 갖추는 통계 프로그램으로 확장해 개발될 예정이다.
“개발된 통계 프로그램은 서울대학교 데이터과학과 지식창출 연구센터 홈페이지(http://srcdsc.snu.ac.kr/srcstat/)에서 배포하고 있어요. 앞으로 추가 기능 업데이트와 사용자 매뉴얼 및 교육 등도 지속적으로 이뤄질 예정입니다. 앞으로 더 많은 분야에서 손쉽게 사용 할 수 있도록 끊임없는 노력을 기울일 것입니다.”

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로