$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 정보처리를 위한 명사 및 키워드 추출
Noun and Keyword Extraction for Information Processing of Korean 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.14 no.3, 2009년, pp.51 - 56  

신성윤 (군산대학교 컴퓨터정보공학과) ,  이양원 (군산대학교 컴퓨터정보공학과)

초록
AI-Helper 아이콘AI-Helper

언어에서 명사 및 키워드 추출은 정보처리에서 매우 필수적인 요소이다. 하지만, 한국어 정보처리에서 명사 추출과 키워드 추출은 아직도 많은 문제점을 안고 있다. 본 논문에서는 명사의 등장 특성을 고려한 효율적인 명사 추출 방법에 대해서 제시하였다. 제시한 방법은 대량의 문서를 빠르게 처리해야 하는 정보 검색과 같은 분야에서 유용하게 쓰일 수 있다. 또한 대량의 문제를 자동으로 분류하기 위하여 비감독 학습 기법에 의해 카테고리별 키워드를 구성하기 위한 방법을 제안하였다. 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X2기법과 DF 기법보다 우수한 분류 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

In a language, noun and keyword extraction is a key element in information processing. When it comes to processing Korean language information, however, there are still a lot of problems with noun and keyword extraction. This paper proposes an effective noun extraction method that considers noun eme...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이용한 명사 추출 방법에 대해 알아보앴다. 또한 사전에 분류되지 않은 대량의 문제로부터 데이터 마이닝 기법중의 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습기법에 의한 키워드를 추출하는 것에 대해서도 알아보았다. 실험 결과 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X2 기법과 DF 기법보다 우수한 분류 성능을 보였다.
  • 본 논문에서는 기 구축된 사전〔1〕을 이용하여, 불필요한 연산을 줄여서 수행 시간을 단축시키고, 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있는 명사의 출현 특성을 이용한 명사 추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.
  • 본 논문에서는 대량의 문서를 빠르게 처리해야 하는 정보 검색과 같은 분야에서 유용하게 쓰이는 방법인 명사의 출현 특성을 이용한 명사 추출 방법에 대해 알아보앴다. 또한 사전에 분류되지 않은 대량의 문제로부터 데이터 마이닝 기법중의 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습기법에 의한 키워드를 추출하는 것에 대해서도 알아보았다.
  • 본 논문에서는 데이터 마이닝 기법 중 하나인 연관 규칙탐사 알고리즘을 사용하여 비감독 학습 기법에 의한 키워드추출 기법을 제안하였다. 즉, 사전에 분류되지 않은 대량의 문제로부터 직접 키워드를 추출하기 위한 방법이다.
  • 이와 같이, 본 논문에서는 대량의 문제를 자동으로 분류하기 위하여 비감독 학습 기법에 의해 카테고리별 키워드를 구성하기 위한 방법을 제안하였다. 제안된 방법에서는 사전에 문제를 분류하지 않고 키워드를 추출하기 위하여 데이터마이닝 기법 중의 하나인 연관 규칙 탐사 알고리즘을 이용하였다.

가설 설정

  • (1) 어절의 첫음절에 존재하는 특정 종성의 집합은 제거한다. 이를 음소 단위 제거 정보라 한다.
  • (2) 어절의 처음에 나타나는 특정 부분 어절의 집합은 제거하고. 어절의 어느 위치나 존재하는 특정 부분 어절의 집합도 제거한다.
  • (3) 명사가 존재하지 않는 고빈도 어절의 집합은 제거한다. 이를 어절 단위 제거 정보라 한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (8)

  1. 정민수, "코퍼스로부터 구문분석을 위한 사전 구성," 군산대학교 대학원 석사학위 논문, 1999년 2월 

  2. 이재성, 박재득, 차건희, 박세영, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, 13-22쪽, 1999년 10월 

  3. 김준홍, 김준홍, 김재훈, 박호진, "문서요약을 위한 한국어 기준명사 추출 시스템," 한국해양대학교 산업기술연구소 연구논문집, 제19권, 169-184쪽, 2002년 

  4. Masaaki NAGATA, Teruka SAITO, Kenji SUZUKI. "Using the web as a bilingual dictionary," Proceedings of the workshop on Data-driven methods in machine translation. Vol. 14, pp. 1-8, July 2001. 

  5. QING LI, SUNG HYON MYAENG, YUN JIN, KANG Bo-Yeong, "Translation of Unknown Terms via Web Mining for Information Retrieval," Asia Information Retrieval Symposium No 3, vol. 4182, pp. 258-269, Oct. 2006. 

  6. 박소영, "웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축", 한국컴퓨터정보학회논문지, 제13권, 제3호, 27-33쪽, 2008년 5월. 

  7. Lee D. G., Lee S. Z., Rim H. C., "An Efficient Method for Korean Noun Extraction Using Noun Patterns," Journal of Korean Information Science Society, Vol. 30, No. 2, pp. 173-183, 2003년 2월. 

  8. 김지숙, 김영지, 문현정, 우용태, "효율적인 문서 자동분류를 위한 대표 색인어 추출 기법," 정보기술과 데이터베이스저널, 제8권 제1호, 295-302쪽, 2001년 6월. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로