$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

자연어처리, 미래 국가 경쟁력 좌우

2012-10-09

자연어처리에 대한 관심이 늘어나고 있다. 자연어란 컴퓨터 프로그램 언어의 대비되는 말로 영어, 한글 등을 뜻한다. 자연어처리 분야가 우리의 일상에 얼마나 가까이 다가왔는지 자연어처리의 전문가인 서강대 서정연 교수를 만나 이야기를 나누었다.


컴퓨터 개발 역사가 곧 자연어처리 역사

“자연어처리 역사는 컴퓨터 개발 역사와 같습니다. 미국에서 숫자계산을 빨리해 재무제표를 빨리 처리하려고 했던 것도 있지만 러시아 문서를 영어로 빨리 번역할 수 있지 않을까 하는 생각에 컴퓨터 연구를 하기 시작했거든요.”
과거 미국은 텍스트프로세싱에 관한 대형 프로젝트를 많이 진행시켰다. 매해 대회도 열어 연구를 독려하기까지 했다. 우리가 알고 있는 검색엔진이 개발된 배경이다. 구글이나 네이버 같은 검색엔진에는 자연어처리가 바탕이 되고 있다. 간단한 키워드만 넣으면 사용자가 원하는 것을 찾아낸다. 이 때 컴퓨터는 글과 언어로 이루어진 다양한 문서를 처리하는데, 자연어처리 기술이 이 순간 이용된다.
누리꾼들도 활발하게 이용하고 있다. 특히 한류 열풍이 불면서 우리나라 드라마나 음악에 다른 누리꾼들이 어떤 생각을 갖고 있는지 궁금해 하는 사람이 많아졌다. 그래서 외국 커뮤니티에 그들의 게시판 글을 구글로 번역해 퍼오는 경우가 종종 있다. 국제 경기가 있을 때도 그렇다. 올림픽이나 월드컵 같은 큰 대회일수록 다른 나라의 반응을 공유하는 모습을 심심치 않게 보게 되는데, 구글 번역을 적극 이용하고 있다.
서 교수는 “자연어처리에 과거보다 더 관심이 많아지고 있는 이유 중 하나가 빅데이터 때문”이라면서 “현재 SNS 등으로 과거와는 비교할 수 없을 만큼 많은 문서들이 생산되고 있는데, 이것을 실시간으로 모니터링할 수 있다면 어마어마한 정보가 될 수 있다”고 말했다.
 


자연어처리 종착지는 인공지능

그럼 지금 자연어처리 연구 수준은 어느 정도일까. 미국에 지오파디(Jeopardy)라는 퀴즈 프로그램이 있다. 이 프로그램에서 IBM에서 만든 왓슨이라는 컴퓨터와 사람들이 대결을 펼친 적이 있다. IBM이 기술력 과시를 위해 이 대회에 참여한 것. 사회자가 ‘1988년 올림픽은 어디에서 열렸는가?’ 라는 질문을 하면 답을 맞히는 방식의 게임이다.
왓슨은 백과사전 분량의 어마어마한 데이터를 갖고 있다. 그리고 수천 대의 컴퓨터를 병렬로 돌려 해답을 찾아낸다. 결과도 정확하고 사람보다 빨리 찾아내 1등을 했다. 왓슨은 현재 자연어를 이용한 문서처리 기술 수준을 엿볼 수 있는 한 예이다.
자연어처리는 음성처리 분야와도 밀접한 관계를 맺고 있다. 우리가 스마트폰에 말을 하면 텍스트로 바꾼 후, 그 텍스트가 의미하는 것이 무엇인지 알아내서 응답을 해주거나 다른 처리를 하게 된다.
“사람이 말로 명령을 내리면 그것을 기호로 바꿉니다. 그런 다음 드라마 검색인지, 볼륨을 올려달라는 것인지를 알아내 처리하게 되는데, 자연어처리 기술이 이때 이용되지요. 구글의 무인자동차가 대표적인 기술적용 예라고 할 수 있어요. 현재 네바다주 라스베이거스에서 주행권이 인정돼 운행이 가능하답니다.”
자연어처리는 언어학을 분석해 컴퓨터에 적용하는 기술이다. 의도를 분석하는 것이 현재 최종목표이다. 사실 이 정도 수준이면 인공지능이라고 볼 수 있다. 쉽게 상상하자면 터미네이터이다. 터미네이터2 영화를 보면 터미네이터가 헤어질 때 “눈물의 의미를 이제야 알 것 같군.”이란 말을 한다. 스스로 학습을 통해 의미와 의도를 파악하고 있음을 보여주는 장면이다.


아직도 갈 길이 먼 분야

당시 초등학교 교과서에 나오는 글자도 안 되는 경우가 생기기도 했다. 문제제기 끝에 1992년 조합형도 표준코드로 인정했다. 하지만 이미 그 사이에 어마어마한 문서들이 만들어져 버렸다. 조합형 코드로의 변환을 주저한 이유이다.
그래서 우리나라 컴퓨터에는 세종대왕의 한글이 없다. 더 끔직한 것은 우리나라는 한자, 영어, 한글 모두 사용하기 때문에 3개국의 코드가 필요하다. 중국보다 더 많은 코드를 쓰고 있는 셈이다. 하지만 난관이 있다고 포기할 수는 없는 일.
서 교수는 “약 60년간 자연어처리 연구과정에서도 수많은 문제들이 있었지만 컴퓨터가 사람처럼 똑똑하게 뭔가 해줄 수 있기를 바라고 있는 이상 이 연구는 계속될 수밖에 없다”면서 “자연어처리는 국가 경쟁력을 좌우하게 될 미래 총아이기 때문에 투자와 인재육성에 국가적으로 더욱 관심을 가질 필요가 있다”고 지적했다.

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로