[논문]자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석

김혜민; 양선; 고영중

문제 정의

76%의 높은 성능을 산출하였다. 본 논문에서 제안하는 시스템의 첫 번째 목표는 이 성능에 근접하는 것으로, 오타 없는 문서에서 97%대의 성능을 유지하는 것을 목표로 한다.
본 연구는 정제된 문서는 물론이고 오타를 포함한 문장에서도 우수한 형태소 분석 성능을 유지하는 것을 목표로 하며 전체 구성도는 그림 1과 같다.
본 연구는 한국어 형태소 분석에 대한 연구로, 정제된 문서에 대해서 최대한 높은 성능을 유지하면서, 동시에 오타가 있는 문서에도 높은 성능을 산출하기 위해 다양한 실험을 수행한다. 기본적으로는 [3, 4]와 같이 음절단위 벡터를 입력으로 하여 Bidirectional LSTM CRFs(Bi-LSTM-CRF) 모델을 사용한다.
본 연구에서는 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석 방법을 제안하고 실험 결과를 보고하였다. 오타 없는 문서에서 97%대의 정확도를 유지하면서, 동시에 오타 있는 문서에서도 최대한 우수한 결과를 내기 위하여 다양한 실험을 수행하였다.
오타는 다양한 경우에서 발생되므로, 이와 같이 임의 오타를 생성하여 수행한 실험은 매우 중요하다고 할 수 있다. 추가로 본 연구에서는, 실생활에서 유독 오타가 많이 발생되는 경우를 집계하여, 그런 오타 유형에 맞춤형으로 대응하는 실험도 수행해보았다.

제안 방법

[3, 7]은 Bi-LSTM-CRF 모델의 입력으로 임베딩 벡터를 추가하여 성능 향상을 보였으며, 본 논문에서도Bi-LSTM-CRF 모델을 사용하였으며, 초중종성 임베딩 및음절 임베딩을 결합하여 오타에도 효과적인 형태소 분석기를 제안한다.
본 실험에서는 [표 2]와 같이 문장 안에 어절 정보, 즉, <SP>를 추가하여 실험하였다. 그리고 오타 있는 문서를 만들기 위해서, 테스트 데이터의 모든 어절에서 어절 당 1개씩의 자모오타를 강제로 생성하여 실험하였다.
다음으로 오타 출현 빈도별 성능을 측정해보았다. 실제로 모든 어절마다 오타가 출현하는 경우보다는 좀 더간헐적으로 출현하는 경우가 많을 것이라는 판단 하에,[표 3]과 같이 5 및 2어절당 1오타인 경우에 대해서도성능을 측정하였다.
다음으로, [표 4]는 어떤 품사의 단어에서 오타가 발생했을 때 전체 성능에 가장 영향을 주는지를 확인하기 위해, 명사, 동사, 조사에 대해서 각각 별도로 오타를 발생시켜서 실험해 보았다.
또한, 문장 안의 어절 단위 정보를 넣기 위하여 띄어쓰기 단위마다 라는 구분자를 입력으로 넣어서 실험을 하였고, 띄어쓰기 공백의 최종 출력은 그림 1에서 볼 수 있듯이 B-S 태그로 설정하였다.
최종 성능은 기존 세종말뭉치를 그대로 사용한 실험에서 어절 단위 정확도가 state-of-the-art에 근접한 97%를 기록하였으며, 강제로 오타를 임의 생성 후 실험한 경우에서도 베이스라인보다 꾸준히 높은 성능을 보임을 확인할 수 있었다. 또한, 오타의 출현 빈도를 다양하게 설정하여 실험을 수행하였으며, 형태소별로 오타가 최종 성능에 어떤 영향을 주는 지 등을 관찰한다.
본 실험에서는 [표 2]와 같이 문장 안에 어절 정보, 즉, 를 추가하여 실험하였다.
본 연구에서는 국립국어원 질문응답 사이트의 다양한 자료를 분석하여, 실제로 혼동이 많다고 집계된 11 가지 경우에 대해서 각각 자모 임베딩을 동일하게 변환하는 방법으로 실험을 수행하였다. 아래는 벡터를 통합하는 몇 가지 경우이며 괄호 안은 자주 혼동되는 단어의 예이다.
다음으로 오타 출현 빈도별 성능을 측정해보았다. 실제로 모든 어절마다 오타가 출현하는 경우보다는 좀 더간헐적으로 출현하는 경우가 많을 것이라는 판단 하에,[표 3]과 같이 5 및 2어절당 1오타인 경우에 대해서도성능을 측정하였다.
오타에 효과적으로 대응하는지 여부를 파악하기 위해 앞의 실험Ⅰ에서는 임의의 자모 오타를 생성시킨 후 실험을 수행하였다. 실험Ⅱ에서는 임의의 오타 대신에 실제로 사용자들이 맞춤법을 혼동하여 자주 발생시키는 오타들을 분석하였다. 앞서 3.
실험에서는 대표자모가 아닌 자모들을 모두 대표자모로 변환 후 (예를 들어, 너한테 -> 너한태) 실험을 수행해보았다.
실험Ⅱ에서는 임의의 오타 대신에 실제로 사용자들이 맞춤법을 혼동하여 자주 발생시키는 오타들을 분석하였다. 앞서 3.2장에서 설명하였듯이, 국립국어원 질문응답 사이트의 데이터를 분석하여, 실제로 맞춤법이 어렵거나 자판을 입력할 때의 실수에 의해 오타가 빈번히 발생하는 11 가지 오타 유형에 대해서 자모임베딩을 통합하였다. 예를 들어, 사용자들이 자주 틀리게 입력하는 단어 중 하나로 ‘베개’를 들 수 있는데,베게/배게/배개 등으로 틀리게 입력될 가능성이 높다.
본 연구에서는 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석 방법을 제안하고 실험 결과를 보고하였다. 오타 없는 문서에서 97%대의 정확도를 유지하면서, 동시에 오타 있는 문서에서도 최대한 우수한 결과를 내기 위하여 다양한 실험을 수행하였다. 그 결과, 초/중/종성 자모 임베딩 및 음절임베딩을 결합한 자모음절concat을 입력으로Bi-LSTM-CRF을 수행하였을 때, 오타 없는 문서에서 97.
오타에 효과적으로 대응하는지 여부를 파악하기 위해 앞의 실험Ⅰ에서는 임의의 자모 오타를 생성시킨 후 실험을 수행하였다. 실험Ⅱ에서는 임의의 오타 대신에 실제로 사용자들이 맞춤법을 혼동하여 자주 발생시키는 오타들을 분석하였다.
위의 예와 같이 실제로 문법을 혼동하거나 혹은 자판입력 시의 오류로 자주 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환함으로써(예를 들어 ㅐ와 ㅔ의 임베딩을 동일한 벡터로 통합 사용) 시스템이 해당 오타에 효과적으로 대응하고 있는지를 관찰하였다. 해당 오타가 들어있는 문장들을 대상으로 성능을 관찰한 결과,임베딩 변환 전에 비해 15%p 이상의 성능 개선을 확인할 수 있었으며, 벡터 변환이 오타 있는 문서의 형태소 태깅 성능을 큰 폭으로 상승시킬 수 있는 가능성을 발견할 수 있었다.
주 실험(실험Ⅰ): 첫 번째 실험에서는 [4]의 제안 방법대로 재구현한 실험 결과를 베이스라인으로 하였으며,오타 있는 문서에서 더 개선된 성능을 산출하기 위해 다양한 실험을 수행한다. 최종 결과, 초/중/종성 임베딩 3개의 결합(여기서 ‘결합’은 concatenate vector를 의미하며, 앞으로 ‘concat’으로 표기함.
추가 실험(실험Ⅱ): 두 번째 실험에서는 오타를 임의로 생성하지 않고, 실생활에서 자주 혼동되어 사용되는 초중종성 오타들을 분석한 후, 그 자모에 해당하는 임베딩을 변환하여 사용한다. 예를 들어 ‘ㅔ’와 ‘ㅐ’는 자주 혼동되거나 혹은 입력 실수로 발생하는 오타로, 이 경우 하나의 임베딩 벡터로 통합하여 실험한다.

대상 데이터

본 논문에서 사용한 말뭉치는 세종말뭉치이며, 임의로 선택된 4만 어절의 학습 데이터(training data)와 1만 어절의 평가 데이터(test data)를 사용하여 실험하였다.[4]와 마찬가지로 세세하게 분리된 어미 정보는 사용하지 않고, 각 어미들은 어간과 결합하여 하나의 용언으로 구성한 의사형태소 태깅을 수행한다.
임베딩 구축은 11.5GB의 네이버 뉴스 대상으로 Word2Vec을 사용하였으며, Bi-LSTM-CRF의 hidden layer개수는 100, learning rate는 0.01, 그리고 epoch 수는 최대 150으로 설정하였다. 그리고 성능 평가는 아래와 같이 어절단위 정확도를 사용한다.
[4]와 마찬가지로 세세하게 분리된 어미 정보는 사용하지 않고, 각 어미들은 어간과 결합하여 하나의 용언으로 구성한 의사형태소 태깅을 수행한다. 품사 개수는 선행연구들과 동일한 43개의 품사태그를 사용하였으며,B/I/E태그가 부착되었으므로 출력 태그의 개수는 공백을 나타내는 B-S까지 총 130개가 된다.

이론/모형

하지만 최근 한국어 형태소 분석은 딥 러닝 모델을 이용하여 작은 수의 자질만으로 형태소 분리 및 품사 태깅을 수행한다. [1,2]은 sequence-to-sequence 모델을 이용하여 형태소 분석 및 품사 태깅을 진행하였다.
그 중 [1]은 음성인식분야에서 주로 사용하는 합성곱자질을 이용하여 sequence-to-sequence 모델의attention-based 인코더-디코더 모델을 사용하였다. 또한 [2]는 Copying mechanism을 이용하여 입력열의 단어들이 출력 열에도 등장하도록 해서 out-of-vocabulary문제와 고유명사의 출현 확률이 작아지는 문제를 극복시켰다.
본 실험에서 사용한 딥 러닝 모델은 Bi-LSTM-CRF이며 각 음절을 입력으로 사용하는데, 입력 음절을 표현하기 위해서 [그림 1]과 같이 자모 단위 초/중/종성 세 임베딩을 사용한다. 그 후 Bi-LSTM-CRF의 forward/ backward단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 한다. 마지막으로 최적의 태그열을 찾기 위해 Viterbi탐색 알고리즘을 사용하였다.
본 연구는 한국어 형태소 분석에 대한 연구로, 정제된 문서에 대해서 최대한 높은 성능을 유지하면서, 동시에 오타가 있는 문서에도 높은 성능을 산출하기 위해 다양한 실험을 수행한다. 기본적으로는 [3, 4]와 같이 음절단위 벡터를 입력으로 하여 Bidirectional LSTM CRFs(Bi-LSTM-CRF) 모델을 사용한다. 단, [3]은 음절 임베딩을 Bi-LSTM-CRF의 입력으로 하여 정제된 데이터를 대상으로 실험을 수행하였으며, [4]는 초/중/종성 임베딩 3개의 합(여기서 ‘합’은 vector sum을 의미하며, 앞으로‘sum’으로 표기함.
그 후 Bi-LSTM-CRF의 forward/ backward단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 한다. 마지막으로 최적의 태그열을 찾기 위해 Viterbi탐색 알고리즘을 사용하였다. 최종 출력은 품사의 시작/중간/끝을 나타내는 B/I/E 기호를 부착한 품사 태그가 된다.
본 실험에서 사용한 딥 러닝 모델은 Bi-LSTM-CRF이며 각 음절을 입력으로 사용하는데, 입력 음절을 표현하기 위해서 [그림 1]과 같이 자모 단위 초/중/종성 세 임베딩을 사용한다. 그 후 Bi-LSTM-CRF의 forward/ backward단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 한다.

성능/효과

1%p 미만으로 매우 미세하였다.결과적으로, 자모 정보를 이용한 형태소 분석에서 sum보다는 concat이 우수한 입력 자질로 사용될 수 있다고 판단할 수 있다.
오타 없는 문서에서 97%대의 정확도를 유지하면서, 동시에 오타 있는 문서에서도 최대한 우수한 결과를 내기 위하여 다양한 실험을 수행하였다. 그 결과, 초/중/종성 자모 임베딩 및 음절임베딩을 결합한 자모음절concat을 입력으로Bi-LSTM-CRF을 수행하였을 때, 오타 없는 문서에서 97.00%, 그리고 1, 2, 5어절당 1오타가 있는 세 가지 경우에서 각각 80.09%, 87.53%, 92.49%의 높은 정확도를 확인할 수 있었다. 추가실험에서는 실제로 자주 발생하는 오타들을 분석하여 그 중 11가지 오타 유형에 대해서 통합된 벡터를 사용함으로써, 해당 오타를 포함한 문장에서 93.
그런데, 벡터의 sum과 concat은 차원 수가 다르므로(자모sum과 자모음절sum은 64차원이며, 자모concat은 초/중/종성 concat이므로 192차원, 자모음절concat은 음절도 추가되었으므로 256차원), 공정한 비교를 위하여 임베딩 단계에서의 차원 수를 256으로 확대하여 자모sum(256차원) 및 자모음절sum(256차원)의 성능을 산출해보았는데, 실험 결과 sum 경우 벡터 차원 수를 네 배까지 늘렸음에도 불구하고 차원 수 늘리기 전인 64차원에 비해 성능 개선 폭은 0.1%p 미만으로 매우 미세하였다.결과적으로, 자모 정보를 이용한 형태소 분석에서 sum보다는 concat이 우수한 입력 자질로 사용될 수 있다고 판단할 수 있다.
[표 2]에서 볼 수 있듯이, 자모sum-SP없음보다 어절정보 넣은 나머지 경우들에서 오타 유무와 상관없이 성능이 개선되었다. 그리고 전체적으로 sum 경우보다 concat경우가 성능이 우수하였는데, 오타 없는 데이터의 성능은 자모concat이 97.34%, 오타 있는 경우에서는 자모음절concat이 80.09%로 베이스라인인 자모sum-SP없음보다 9%p 가까이 높은 성능을 산출하였다.
[표 3]에서 볼 수 있듯이, 오타 빈도수가 n=1, 2, 5모든 경우에서 자모음절concat이 가장 우수한 결과를 보이고 있는데, 오타에 대해서 자모음절concat이 역할을 잘 하고 있는 것으로 판단된다. 따라서 본 연구에서는오타 없는 문서에서도 97%의 성능을 산출하고 오타 있는 문서에서도 꾸준히 우수한 성능을 보이는 자모음절concat을 최종 제안 자질로 결정하였다.
[표 1]에서 음절임베딩은 최근 세종말뭉치 대상으로 가장 높은 형태소 태깅 성능을 산출한다고 보고되고 있는 음절 임베딩을 사용한 경우이다. 본 실험에서는 음절 임베딩을 Bi-LSTM-CRF의 입력 벡터로 사용하는 시스템을 구현하여 오타 없는 문서에서 97.76%의 높은 성능을 산출하였다. 본 논문에서 제안하는 시스템의 첫 번째 목표는 이 성능에 근접하는 것으로, 오타 없는 문서에서 97%대의 성능을 유지하는 것을 목표로 한다.
실험 결과, 예상대로 조사에서 오타 발생 시 인식률이 매우 낮았는데, 조사에 오타가 있는 경우 조사 앞에 있는 체언뿐만 아니라 조사까지 포함하여 전체 어절이 하나의 일반명사로 태깅되는 경향을 확인할 수 있었다. 예를 들어 “학교에” 대신 “학교애”가 입력된 경우,“명사+조사”가 아닌 명사 하나로 출력됨을 관찰 수 있었다.
또한, 문장 안의 어절 단위 정보를 넣기 위하여 띄어쓰기 단위마다 <SP> 라는 구분자를 입력으로 넣어서 실험을 하였고, 띄어쓰기 공백의 최종 출력은 그림 1에서 볼 수 있듯이 B-S 태그로 설정하였다. 이리하여, 어절정보를 넣지 않은 경우보다 전체적으로 1%p 이상 향상된 성능을 확인할 수 있었다.
그 후 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 사용하게 된다. 자모sum, 자모음절sum, 자모concat, 자모음절 concat 등 다양한 구성으로 실험한 결과, 자모음절 concat을 Bi-LSTM-CRF의 입력 자질로 사용한 경우, 오타 없는 문서 및 오타 있는 문서에서 고루 우수한 결과를 산출함을 확인할 수 있었다.
[그림 2]의 (a)에서 볼 수 있듯이. 초/중/종성 자모임베딩 및 음절 임베딩의 결합을 입력으로 하여Bi-LSTM-CRF을 수행함으로써, 오타없는 문장들에 대해서 97%의 성능을 유지하면서, 동시에 오타있는 문장에서도베이스라인보다 8.77%p 높은 성능(n=1 기준)을 보여주었다. 또한 (b)에서 볼 수 있듯이, 추가실험을 통해서 실생활에서 자주 발생하는 11가지 오타 유형을 집계 후 임베딩 통합을 이용해서, 해당 오타가 있는 문장에서도 그림 93.
예를 들어 ‘자모concat’)에 음절 임베딩을 추가로 결합한 벡터로 음절을 표현하고 띄어쓰기 단위도 별도의 특수 음절 벡터로 간주하였을 때 가장 우수한 성능을 산출함을 확인할 수 있다. 최종 성능은 기존 세종말뭉치를 그대로 사용한 실험에서 어절 단위 정확도가 state-of-the-art에 근접한 97%를 기록하였으며, 강제로 오타를 임의 생성 후 실험한 경우에서도 베이스라인보다 꾸준히 높은 성능을 보임을 확인할 수 있었다. 또한, 오타의 출현 빈도를 다양하게 설정하여 실험을 수행하였으며, 형태소별로 오타가 최종 성능에 어떤 영향을 주는 지 등을 관찰한다.
49%의 높은 정확도를 확인할 수 있었다. 추가실험에서는 실제로 자주 발생하는 오타들을 분석하여 그 중 11가지 오타 유형에 대해서 통합된 벡터를 사용함으로써, 해당 오타를 포함한 문장에서 93.05%의 우수한 성능을 산출하였다.
위의 예와 같이 실제로 문법을 혼동하거나 혹은 자판입력 시의 오류로 자주 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환함으로써(예를 들어 ㅐ와 ㅔ의 임베딩을 동일한 벡터로 통합 사용) 시스템이 해당 오타에 효과적으로 대응하고 있는지를 관찰하였다. 해당 오타가 들어있는 문장들을 대상으로 성능을 관찰한 결과,임베딩 변환 전에 비해 15%p 이상의 성능 개선을 확인할 수 있었으며, 벡터 변환이 오타 있는 문서의 형태소 태깅 성능을 큰 폭으로 상승시킬 수 있는 가능성을 발견할 수 있었다. 반면, 오타가 없는 문서들로 실험한 결과 임베딩 변환 전에 비해 2.
예를 들어 ‘ㅔ’와 ‘ㅐ’는 자주 혼동되거나 혹은 입력 실수로 발생하는 오타로, 이 경우 하나의 임베딩 벡터로 통합하여 실험한다. 해당 오타가 들어있는 문장들을 대상으로 실험한 결과 임베딩 통합전에 비해 큰 폭으로 개선된 형태소 분석 결과를 확인할 수 있었다.

후속연구

그럼에도 불구하고, 11유형 오타가 발생된 문장들을 대상으로 93% 넘는 성능을 산출했다는 사실은, 앞으로임베딩 변환에 대해 좀 더 분석 및 개선할 수 있다면,SNS 데이터처럼 오타가 매우 자주 출현하는 문서들을 대상으로도 일정 수준 이상의 성능을 산출할 수 있는 형태소 분석 방법이 가능함을 보여준다고 할 수 있다.
그럼에도 불구하고, 해당 오타가 있는 문장에서 93%가 넘는 높은 정확도를 보인다는 사실은, 앞으로 임베딩 변환에 대해 좀 더 분석하고 개선한다면, 오타가 매우 자주 출현하는 데이터(예를 들어 SNS 데이터)에서도 일정수준 이상의 성능을 산출할 수 있는 형태소 분석 방법이 가능할 것으로 기대된다.
향후 계획으로, 실생활에서 오타가 자주 발생하는 유형에 대해 더욱 상세히 집계하여, 궁극적으로는 오타 유무와 상관없이 더 높은 성능을 유지하는 형태소 분석 방법 개발에 대한 연구를 지속할 예정이다. 또한, 오타뿐만 아니라, 띄어쓰기 오류가 포함되거나 약어 및 신조어가 자주 사용되는 문장에서도 높은 성능을 유지할 수 있도록 연구를 지속할 계획이다.
예상 외로 동사는 오타임에도 상대적으로 높은 정확도를 보여주고 있는데, 문맥 정보에 의해 시스템이 동사를 비교적 잘 인식하고 있다고 판단된다. 앞으로 위네 가지 품사 외에도 다양한 품사에 대해 분석이 필요하며, 특히 조사 같은 경우 오타 발생 시 어떻게 성능을 최대한 유지할 지에 대해 추가적인 연구가 필요하다.
05%의 높은 성능을 산출하였다. 이는 향후 오타유무와 상관없이 일정 수준 이상의 성능을 유지하는 형태소 분석 시스템의 가능성을 보여주고 있다고 판단된다.
향후 계획으로, 실생활에서 오타가 자주 발생하는 유형에 대해 더욱 상세히 집계하여, 궁극적으로는 오타 유무와 상관없이 더 높은 성능을 유지하는 형태소 분석 방법 개발에 대한 연구를 지속할 예정이다. 또한, 오타뿐만 아니라, 띄어쓰기 오류가 포함되거나 약어 및 신조어가 자주 사용되는 문장에서도 높은 성능을 유지할 수 있도록 연구를 지속할 계획이다.

핵심어	질문	논문에서 추출한 답변
	형태소 분석의 특징이란 무엇인가?	형태소 분석은 가장 기본적이고 필수적인 자연어 처리과정으로, 부정확한 품사 태깅 결과는 개체명 인식, 구문 분석 등을 비롯한 많은 언어 처리 과제의 성능에 치명적인 영향을 미칠 수 있다. 이로 인해 전통적으로 정확한 형태소 분석을 위한 많은 연구가 진행되어 왔으며,최근에는 딥 러닝(deep learning) 모델을 이용하여 형태소 분리 및 품사 태깅 등에서 높은 성능들이 보고되고있다[1-3].
	기존 형태소 분석 연구는 무엇을 대상으로 수행되어 왔는가?	그러나 대부분의 기존 형태소 분석 연구는 상당 수준의 정제된 문장들로 구성된 말뭉치(대표적으로 세종 말뭉치)를 대상으로 수행되어 왔다. 하지만 빅 데이터의 중요성이 대두되면서, 웹 문서들과 같이 정제되지 않은 대량의 문서들이 중요한 언어 자원으로 사용되고 있는데, 그 안에는 물론 신문 기사와 정제 과정을 거치는 문서들도 포함되어 있지만, 대부분의 문서들은 별도의 정제 과정 없이 작성된 경우이다.
	빅데이터의 중요성이 대두되며 시행된 형태소 분석 연구의 언어 자원들은 어떠한 특성을 가지고 있는가?	그러나 대부분의 기존 형태소 분석 연구는 상당 수준의 정제된 문장들로 구성된 말뭉치(대표적으로 세종 말뭉치)를 대상으로 수행되어 왔다. 하지만 빅 데이터의 중요성이 대두되면서, 웹 문서들과 같이 정제되지 않은 대량의 문서들이 중요한 언어 자원으로 사용되고 있는데, 그 안에는 물론 신문 기사와 정제 과정을 거치는 문서들도 포함되어 있지만, 대부분의 문서들은 별도의 정제 과정 없이 작성된 경우이다. 이로 인해 최근 들어서는 오타 등 문법적 오류를 포함하는 비격식 문서를 대상으로 언어 분석 실험을 수행하는 연구들이 수행되고 있다[4-6].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석
Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석 Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석
Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper