$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템
Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.19B no.1, 2012년, pp.63 - 76  

이용훈 (울산대학교 컴퓨터정보통신공학과) ,  옥철영 (울산대학교 컴퓨터정보통신공학과) ,  이응봉 (충남대학교 문헌정보학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

Abstract AI-Helper 아이콘AI-Helper

We propose a Korean compound noun semantic tagging system using statistical compound noun decomposition and semantic relation information extracted from a lexical semantic network(U-WIN) and dictionary definitions. The system consists of three phases including compound noun decomposition, semantic c...

주제어

질의응답

핵심어 질문 논문에서 추출한 답변
통계데이터를 이용한 복합명사 분해 연구는 어떤 방법인가? 통계데이터를 이용한 복합명사 분해 연구는 자연언어가 실세계에서 사용되는 용례들과 부속 정보를 포함하는 다량의 말뭉치를 분석하여 얻은 통계정보를 이용하여 중의성 문제를 확률적으로 해결하는 방법이다
복합명사 분해에 관한 초기 연구로 어떤 방법이 있는가? 복합명사 분해에 관한 초기 연구에는 크게 음절 길이에 따른 선호 분해 패턴들을 이용하는 방법과 통계데이터를 이용해 중의적 분해를 해결하는 방법들이 있다. 전자는 복합명사의 음절별 선호 분해 패턴을 이용해 차례로 분해를 시도한다.
음절 길이에 따른 선호 분해 패턴들을 이용하는 방법의 장점은 무엇인가? 전자는 복합명사의 음절별 선호 분해 패턴을 이용해 차례로 분해를 시도한다. 이는 분해 속도 향상과 개념이 단순해 알고리즘의 적용이 쉽다는 장점이 있으나, 음절의 제한이 없는 복합명사의 결합 특성상 모든 복합명사를 대상으로 할 수 없다는 단점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. 최재혁, "음절수에 따른 한국어 복합 명사 분리 방안", 한국정보 과학회 언어공학연구회, 제8회 한글 및 한국어 정보처리 학술대회 pp.262-267, 1996. 

  2. 강승식, "한국어 복합명사 분해 알고리즘", 한국정보과학회, 정보과학회논문지(B), 제25권 제1호, pp.172-182, 1998. 

  3. 윤보현, 임희석, 임해창, "통계 정보를 이용한 한국어 복합 명사의 분석 방법", 한국정보과학회 봄 학술발표논문집 제22권 제1 호, pp.925-928, 1995 

  4. J.T. Yoon, K.S. Choi, and M.S. Song, "Corpus-based approach for nominal compound analysis for Korean based on linguistic and statistical information." In Proceedings of the 1999 Joint SIGDAT Conference on EMNLP/VLC. College Park, MD, pp.292-300, 2001. 

  5. 강유환, 서영훈, "미등록어의 의미 범주 분석을 이용한 복합명사 분해", 한국데이타베이스학회, 정보기술과 데이타베이스 저널 제 11권 제4호, pp.95-102, 2004. 

  6. 임해창, 임희석, 윤보현, "자연어 처리 연구동향: 통계 기반의 자연어 처리", 한국정보과학회지, 제12권, 제9호, pp.20-30, 1994. 

  7. 박재한, 김명선, 노대욱, 나동열, "백오프 통계정보를 이용한 미 등록어 포함 복합명사의 분해", 한국정보과학회 언어공학연구회, 제16회 한글 및 한국어 정보처리 학술대회 발표자료집 제16 권 제1호 pp.65-72, 2004. 

  8. 강민규, 강승식, "한국어 복합명사 분해 오류 교정 기법", 한국정보과학회, 한국 컴퓨터 종합 학술 발표 논문집 제37권 제1호 (C), pp.254-259, 2010. 

  9. 원상연, 김수남, 김광영, 남현숙, 권혁철, "한국어 문법검사기에서 의미정보를 이용한 복합명사의 분석제약", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.288-293, 1999. 

  10. 김도완, 이경순, 김길창, "의미관계와 문형정보를 이용한 복합 명사 해석", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.310-315, 1999. 

  11. 강유환, 정천영, 서영훈, "명사의 의미 정보를 이용한 복합명사 분석의 중의성 해결", 한국정보과학회 언어공학연구회, 제14회 한글 및 한국어 정보처리 학술대회 pp.171-175, 2002. 

  12. 허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템", 한국정보과학회, 정보과학회 논문지, 소프트웨어 및 응용, 제28권 제9호 pp.688-698, 2001. 

  13. 허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해결", 한국정보과학회, 정보과학회논문지, 소프트웨어 및 응용, 제33권 제12호 pp.1073-1089, 2006. 

  14. M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," In Proceedings of the 5th annual international conference on Systems documentation, pp.24-26, 1986. 

  15. Cowie, J., L. Guthrie, J. Guthrie, "Lexical disambiguation using simulated annealing," In Proceedings of COLING, 1992. 

  16. Yarowsky D., "Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora," In Proceedings of Coling-92, 1992. 

  17. 최호섭(2007), "대규모 사용자 어휘지능망 구축과 활용", 울산대학교 대학원 컴퓨터정보통신공학부 박사학위논문. 

  18. 한국어의 한자어, 위키백과 - http://ko.wikipedia.org/wiki/한국어의_한자어 

  19. 이용훈, 옥철영, "Naive Bayes Classifier를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석", 한국정보과학회 언어공학 연구회, 제23회 한글 및 한국어 정보처리 학술대회 pp.102-106, 2011. 

  20. Escudero, G., Marquez, L., and Rigau, G. "Naive Bayes and exemplar-based approaches to word sense disambiguation revisited". In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI, Berlin, Germany), pp.421-425, 2000. 

  21. 이용훈, 옥철영, "의미기반 한국어 복합명사 분석", 한국정보과학회 한국컴퓨터종합학술대회 논문집(C) pp.221-224, 2011. 

  22. UTagger, 2011년 국어정보처리시스템 경진대회 출품, 울산대학교 한국어처리연구실 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로