$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

인접 조건 검사에 의한 초고속 한국어 형태소 분석
High Speed Korean Morphological Analysis based on Adjacency Condition Check 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.31 no.1, 2004년, pp.89 - 99  

심광섭 (성신여자대학교 컴퓨터정보학부) ,  양재형 (강남대학교 컴퓨터미디어공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 코드 변환 과정과 축약, 탈락, 불규칙 활용 둥으로 변형된 형태소의 원형을 복원하고 분석 후보를 생성하는 등의 과정을 거치지 않고 형태소 사전에서 제공되는 인접 조건에 대한 검사만으로 형태소 분석을 하는 방법을 제안한다. 인접 조건 검사는 복잡한 연산을 하지 않고 단순한 비트 연산만으로 할 수 있기 때문에 제안된 방법은 초고속 형태소 분석기 구현에 적합하다. 본 논문에서 제안한 방법에 따라 구현된 한국어 형태소 분석기 MACH는 1.13 GHz Pentium III 개인용 컴퓨터에서 대략 5분/GB의 분석 속도를 보였으며, 분석 정확도는 99.2 %로 기존의 다른 분석기와 큰 차이가 없었다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a morphological analysis method that enables morphological analysis by checking conditions between two adjacent morphemes. These conditions are fed from a dictionary. This method eliminates a code conversion module and the application of transformational rules for candidate gener...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만 한국어에서는 이렇게 단순한 방법으로 형태소 분석을 할 수 없는 경우도 상당히 많다. 아래에서는 음절을 경계로 형태소 분석을 할 수 없는 것처럼 보이는 사례들에 대하여 검토하고, 이러한 경우에도 음절을 경계로 형태소 분석을 하기 위해서 어떻게 해야 하는지에 대하여 논의할 것이다.
  • 위 말뭉치를 분석하는 과정에서 MACH의 주요 함수들이 어느 정도의 시간 비중을 차지하는지 분석해 보았다. 표 1은 리눅스 상에서 gprof를 사용해 분석한 결과이다.
  • 이번에는 '갑니다'를 예로 들어 한 어절에 대하여 여러 개의 형태소 분석 결과가 생성되는 경우에 대해서 살펴보겠다. 갑온 용언 어간 '가-'에 자소 ㅂ이 결합한 것으로 볼 수도 있으며 용언 어간, '갈-'에 자소 ㅂ이 결합한 것으로 볼 수도 있다.
  • 인접 조건 검사에 의한 한국어 형태소 분석에 대하여 설명하기 전에 코드 변환 및 자소 단위의 연산을 전혀 하지 않고 음절을 경계로 형태소를 분리하는 방법에 대해서 알아보겠다. 설명의 편의를 위하여 일단은 복합 명사, 접두사나 접미사에 의한 파생, 본용언과 보조용언의 결합 등과 같이 다소 복잡한 경우는 고려하지 않기로 한다.
  • 지금까지 음절을 경계로 형태소를 분리하는 방법에 대하여 살펴보았다. 이 방법에서는 음절을 경계로 형태소 분리를 하므로 자소 단위의 연산은 불필요하며, 그 결과 코드 변환 단계가 필요 없게 된다.

가설 설정

  • 첫째, 형태소 분석 알고리즘을 개선하여 사전 탐색 회수를 줄이거나 분석 후보의 개수를 줄이는 것이다. 둘째, 사전 구조를 개선하여 사전 탐색 시간을 줄이는 것이다. 셋째, 고빈도 어절에 대한 기분석 사전을 구축하여 고빈도 어절에 대해서는 절차적인 분석 없이 사전 탐색만으로 분석을 완료하는 것이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (12)

  1. 김영관, 박민식, 최진석, 권혁철, '사전 성능 개선을 통한 한국어 형태소 분석기의 분석 속도 향상', 제11회 한글 및 한국어 정보처리 학술대회 논문집, pp.479-483, 1999 

  2. 양승현, 김영섬, '부분 어절의 기분석에 기반한 고속 한국어 형태소 분석방법', 정보과학회 논문지 : 소프트웨어 및 응용, 27권, 3호, pp.290-301, 2000 

  3. Kwangseob Shim and Jaehyung Yang, 'MACH:A Supersonic Korean Morphological Analyzer,' Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002), pp. 939-945, 2002 

  4. 강승식, '음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석', 서울대학교 공학박사 학위 논문, 1993 

  5. 임희석, 윤보현, 임해창, '배제 정보를 이용한 효율적인 한국어 형태소 분석기', 한국정보과학회 논문지, 제22권 제6호, pp.957-964, 1995 

  6. 최재혁, 이상조, '양방향 최장일치법에 의한 한국어 형태소 분석기에서의 사전 횟수 감소 방안', 정보과학회논문지, 20권, 10호, pp.1497-1507, 1993 

  7. 백대호, 이호, 임해창, 'Finite State Transducer를 이용한 한국어 전자 사전의 구조', 제7회 한글 및 한국어정보처리 학술발표 논문집, pp.181-187, 1995 

  8. 김재한, 옥철영, '어절 사전을 이용한 한국어 형태소 분석', 한국정보과학회 봄 학술발표 논문집, 21권 1호, pp.813-816, 1994 

  9. Hyuk-Chul Kwon, Young-Soog Chae, 'A Dictionary-Based Morphological Analysis,' Proc. of Natural language processing, Pacific Rim Symposium '91, Singapore, pp.178-185, 1991 

  10. 은종진, 박선영, '고성능 한국어 형태소 분석을 위한 어미 분류', 제12회 한글 및 한국어 정보처리 학술대회 논문집, pp.41-47, 2000 

  11. 김철수, 배우정, 이용석, 청강순일, '이중 배열 트라이 구조를 이용한 한국어 전자 사전의 구축', 정보과학회 논문지(B) 23권, 1호, pp.85-94, 1996 

  12. 이도길, 류원호, 임해창, '분석 배제 정보와 후절어를 이용한 한국어 명사 추출', 제12회 한글 및 한국어 정보 처리 학술대회 논문집, pp.19-25, 2000 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로