$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

자율 학습에 의한 실질 형태소와 형식 형태소의 분리
A Korean Language Stemmer based on Unsupervised Learning 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.8B no.6, 2001년, pp.675 - 684  

조세형 (명지대학교)

초록
AI-Helper 아이콘AI-Helper

본 논문은 태그가 없는 단순 말뭉치만을 가지고 자율학습을 이용하여 정보 검색을 위한 색인어의 추출 등에 이용될 수 있도록 한국어의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다. 본 기법은 사전 등의 언어 관련 지식을 요구하지 않으며 오직 단순 말뭉치만을 필요로 한다. 또한 자율학습을 이용함으로써 사람의 간섭이 필요하지 않아 학습에 필요한 시간과 노력이 거의 들지 않는다. 본 방식은 잘 확립된 통계적 방법론을 이용하기 때문에 일반적인 휴리스틱과는 달리 이론적인 기반이 확고하여 확장 및 발전이 용이하다. 본 결과는 한국어에 우선 적용되었으나 한국어에 종속적인 방법이 아니어서 다른 교착어에도 쉽게 적용될 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

This paper describes a method for stemming of Korean language by using unsupervised learning from raw corpus. This technique does not require a lexicon or any language-specific knowledge. Since we use unsupervised learning, the time and effort required for learning is negligible. Unlike heuristic ap...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • . 둘째는 기계학습 기 술에 의한 자연 언어 처리의 가능성을 연구하고자 하는 것이다. 이를 위해서는 형태소 학습, 구문 학습, 의미 학습 등이 모두 필요하나 본 논문에서는 그 첫 단계라고 할 수 있는 형태소 학습에 치중한다.
  • 앞 절에서 설명하였듯이 한 가지의 통계치 만을 가지고 어떤 스트링이 형식 형태소인지를 판단하기는 어렵다. 따라서 본 절에서는 통계적 방식을 기초로 한 다단계 형태소 학습/분리 방식을 제안한다. 이 방식에서는 형식 형태소 후 보외 파악을 위해 이항 검정 (T-test)을 사용하였으며 동일 어철의 반복적 출현은 1회로 간수하였다.
  • 마지막으로, 본 연구의 결과를 유사한 특징을 가진 외국 어에 적용함으로써 언어에의 비의존성을 시험해보는 것도 향후의 중요한 연구 방향의 하나이다. 예를 들어 일본어의 경우 띄어쓰기가 없는 것을 제외하면 우리말과 매우 유사한 형태소 결합 구조를 가지고 있다.
  • . 본 논문에서는 사전 없이 한국어 의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다. 본 연구에는 두 가지 목적이 있다.
  • 우선 어말이 형식형태소로 사용될 확률과 어두가 실질형 태소로 사용될 확률을 구해보자. 어느 스트링 s 가 나타날 확률을 力라고 하고 이것이 어미에서 나타날 확률을女 라 고 하자.

가설 설정

  • . 또한 형식 형태소가 아닌 음절들은 무작위로 (random) 선택된다고 가정하면 형식 형태소는 어절 끝에 나타날 확률 0 가 如 보다 클 것이다. 力 를 표본에서 의 어 절 끝 촐현 확률, 枷 를 귀무 가설(null hypothesis)에 의한 음 절의 출현 확률, N을 음절 수(시행 횟수)로 볼 떼, T-test 의 공식은 식 (1)과 같다.
  • 실질 형태소의 분리도 영향을 미칠 것이다. 예를 들어 “예산결산위원히”같은 복합 명사가 있을 경우 “예산” “결산” "위원회”라는 단어에 대한 지식이 있더라도 현재로서는 하나의 실질 형태소라는 명확한 증거가 없어 이러한 복합어 에 빈도가 낮은 어미가 결합되면 분리에 실패하여 하나의 단어(측, E 어미)로 취급될 것이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. 신상현, 이근배, 이종혁, '통계와 규칙에 기반한 2단계 한국어 품사 태깅 시스템', 정보과학회논문지(B) 제24권 제2호, pp.160-169, 1997 

  2. 남윤진, 옥철영, '발뭉치 분석에 기반한 명사파생접미사의 사전정보 구축', 정보과학회논문지(B), 제23권 제4호, pp.389-401, 1996 

  3. 강승식, '음절특성을 이용한 한국어 불규칙 용언의 형태소 분석', 정보과학회논문지(B) 제22권 제10호, pp.1480-1487, 1995 

  4. 최재형, 이상조, '양방향 최장 일치법에 의한 한국어 형태소 분석기에서의 사전 검색 횟수 감소 방안', 한국정보과학회논문지 Vol.20, No.10, pp.1497-1507, 1993 

  5. 김철수, 배우정, 이용식, 靑江純一, '이중배열 트라이 구조를 이용한 한국어 전자 사전의 구축', 정보과학논문지(B) 제23권 제1호, pp.85-94, 1996 

  6. 임희석, 윤보현, 임해창, '배제 정보를 이용한 효율적인 한국어 형태소 분석기', 한국정보과학회논문지, 제22권 제6호, pp.957-964, 1995 

  7. 심광섭, '음절간 상호정보를 이용한 한국어 자동 띄어쓰기', 정보과학회논문지 제23권 제9호, pp.991-1000, 1996 

  8. C. Manning and H. Schltze, Foundations of Statistical Natural Language Processing, MIT Press, 1999 

  9. Lovins, J. B., 'Development of stemming algorithms,' in Machine Translation and Computational Linguistics, 11, 1968 

  10. Patrick Schone and Daniel Jurafsky, 'Knowledge-free Induction of Morphology using Latent Semantic Analysis,' in proceedings of the ACL99 workshop : Unsupervised learning in Natural Language Processing, University of Maryland 

  11. J. Goldsmith, 'Unsupervised learning of the morphology of a natural language,' University of Chicago, http://humanities.uchicago.edu/faculty/goldsmith 

  12. L.Luis Marquez, Lluis Padro, and Horacia Rodriguez, 'A Machine Learning Approach to POS tagging,' Machine Learning, Vol.39, pp.59-91, 2000 

  13. E. Gaussier, 'Unsupervised learning of derivational morphology from inflectional lexicons,' in proceedings of the ACL99 workshop : Unsupervised learning in Natural Language Processing, University of Maryland 

  14. Dejean, H., 'Morphemes as necessary concepts for structures : Discovery from untagged corpora,' University of Caen-Basse Normandie, http://www.info.unicaen.fr/DeJean/travail/article/pg11.htm. 1998 

  15. 김흥규, 강범모, '한국어 형태소 및 어휘 사용 빈도의 분석', 고려대학교 민속문화연구원, 2000 

  16. M. F. Porter, 'An algorithm for suffix stripping,' Program, 14(3), pp.130-137, 1980 

  17. Zipf, G. K. Human Behavior and the Principle of Least Effort, Cambridge, MA : Addison-Wesley, 1949 

  18. W. Mendenhall and R.J.Beaver. Introduction to Probability and Statistics, Boston, MA, PWD-Kent publishing co. 1995 

  19. R. Ando and L. Lee, 'Unsupervised Statistical Segmentation of Japanese Kanji Strings,' Technical Report TR99-1756, Computer Science Department, Cornell University, 1999 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로