$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 어휘자동획득 시스템
An Automatic Korean Lexical Acquisition System 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.8 no.5, 2007년, pp.1087 - 1091  

임희석 (한신대학교 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문은 인간의 언어 획득 원리를 반영한 계산주의적 한국어 어휘 자동 획득 시스템을 제안한다. 제안하는 시스템은 인간의 언어 생활을 모델링한 한국어 코퍼스를 입력 받아 언어 인식을 위하여 사용할 수 있는 어절 사전과 형태소 사전의 어절과 형태소를 자동으로 획득할 수 있다. 1천만 어절 크기의 한국어 코퍼스를 이용하여 실험한 결과, 2,097개의 어절과 3,488개의 형태소를 획득할 수 있었다. 획득된 2,097개의 어절의 출현 빈도의 합은 1천만 어절의 38.63%에 해당하였고 형태소 추출의 정확도는 99.87%를 보였다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a automatic korean lexical acquisition system which reflects the characteristics of human language acquisition. The proposed system automatically builds two kinds of lexicon, full-form lexicon and decomposition using Korean corpus as its input. As the experimental results using K...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 예를 들면, "아버"라는 문자열 다음에는 출현할 수 있는 문자열은 ''지"일 것이나 "아버지"라는 머리형태소가 될 수있는 문자열 뒤에는 여러 가지의 꼬리형태소가 올 수 있다는 것이다. 따라서 본 논문은 고빈도로 출현한 특정 문자열이 머리형태소의 가능성이 있는지를 조사하기 위하여 머리형태소 뒤에 출현하는 음절의 발생 엔트로피를이용하여 계산한다. 특정한 문자열 뒤에 출현할 수 있는음절의 엔트로피는 [식 1]과 같이 정의한다.
  • 본 논문은 머리 형태소일 가능성의 조사를 위하여 어절에서 머리 형태소 후보를 제외한 나머지 부분이 꼬리형태소일 가능성이 있는지를 조사하는 방식을 사용한다. 꼬리 형태소의 가능성은 머리 형태소 후보를 선정하는방식과 같이 엔트로피값을 이용하는데, 어절의 마지막부터 역방향으로 만들어지는 문자열의 빈도 정보를 이용하여 앞에 나올 수 있는 음절에 대한 엔트로피 값을 계산한다.
  • 본 논문은 엔트로피값이 상승하는 위치의 문자열을 찾아 머리 형태소 후보로 결정하고 이 후보가 머리 형태소일 가능성을 조사한다. 엔트로피가 상승하는 문자열을 바로 머리 형태소로 결정하지 못하는 이유는 특정 문자열을 공유하는 다양한 형태소가 존재할 수 있기 때문이다.
  • 본 논문은 인간의 인지신경학적 언어정보처리 원리를반영한 자동 어휘 획득 시스템( conputational automatic lexical acquisition system)을 제안하고 대용량의 한국어코퍼스를 이용한 어휘 획득 결과를 분석한다. 인간의 언어정보처리 원리를 반영한 자동 어휘 획득 시스템의 개발의 필요성은 다음과 같이 정리할 수 있다 첫째, 인간의어휘정보처리 과정의 이해를 위해서 어휘획득 과정에 대한 이해가 중요한데, 계산주의적 시스템은 대뇌속의 어휘획득 과정에 대한 시뮬레이션 환경을 제공할 수 있다.

가설 설정

  • [표 2]는 코퍼스에서 문자열 "아빠"로 시작되는 어절과 각 어절의 출현 빈도를 나타낸 것이라 가정한다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로