[논문]종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기

이현영; 강승식

doi:10.3745/ktsde.2019.8.11.441

문제 정의

부분적 띄어쓰기 오류는 복합명사 분해, 철자교정 등의 2-3 어절에 걸친 띄어쓰기 교정으로 이는 공백을 제거하여 전혀 띄어쓰기가 적용되지 않은 형태로 변환한다. 그리고 음절 사이에 공백을 삽입하여 공백이 존재하지 않는 문장의 띄어쓰기 오류 수정과 같은 방법론을 적용하여 띄어쓰기 오류를 수정할 수 있으므로 본 논문에서는 띄어쓰기가 전혀 되어있지 않은 문장을 대상으로 Fig. 1과 같이 심층 신경망을 이용한 한국어 문장의 자동 띄어쓰기 방법을 제안한다.

제안 방법

Equation ⑷는 (예측된 올바른 공백 수)/(예측된 전체공백 수)*100으로 공백 정확도이다. Equation (3)과 Equation ⑷를 이용하여 F1 값을 계산하고 성능 평가를 하였다.
그리하여 심층 신경망의 입력 자질로 음절 unigram을 연속적인 벡터공간에 표현하고, 음절 unigram 벡터들 간의 의존성을 부여한 새로운 자질 벡터를 연속적인 벡터 공간에 표현하였다. 그리고 각 문장의 음절을 BI 태그로 분류하여 자동 띄어쓰기를 수행하는 종단 간 심층신경망 시스템을 제안한다.
그리고 전 방향 신경망의 경우에는 은닉층(hidden layer) 유닛 크기로 200, 활성화 함수(activation function)는 ReLU로 층수를 1에서 6까지 한 층씩 늘리면서 자동 띄어쓰기 성능 평가를 하였고, 단방향 LSTM을 이용한 신경망 언어 모델 경우 단방향 LSTM 셀의 유닛 수를 200으로 하고 단방향 LSTM을 단층으로 하여 성능 평가를 하였다. 전방향 신경망과 단방향 LSTM을 이용한 신경망 언어 모델은 소프트맥스(softmax)와 교차 엔트로피 (cross entropy)를 이용하여 문장의 각 음절의 분류 태그의 확률 분포를 계산하여 띄어쓰기 BI 태그로 분류하였다.
이러한 특성 때문에 음절 단위 임베딩이 사전에 등록되지 않은 단어를 처리하는데 단어 단위 임베딩보다 유연하다. 그리하여 심층 신경망의 입력 자질로 음절 unigram을 연속적인 벡터공간에 표현하고, 음절 unigram 벡터들 간의 의존성을 부여한 새로운 자질 벡터를 연속적인 벡터 공간에 표현하였다. 그리고 각 문장의 음절을 BI 태그로 분류하여 자동 띄어쓰기를 수행하는 종단 간 심층신경망 시스템을 제안한다.
이러한 기계학습 방법론은 띄어쓰기를 태그 열 부착 문제로 보고 띄어쓰기 오류를 교정한다[4, 5]. 그리하여 자동 띄어쓰기 문제를 Fig. 2와 같이 한국어 문장의 각 음절에 띄어쓰기 태그를 부착하는 문제로 정의하고 띄어쓰기 오류를 수정한다. 띄어쓰기 태그로는 두 개의 B(beginning) 태그, Kinside) 태그를 사용한다.
기존의 연구에서 공통적으로 사용한 말뭉치는 세종 말뭉치로 본 연구에서 제안한 다양한 분류 방법에 따른 모델 중우 수한 성능을 보여주는 선형 체인 CRF의 분류 방법 중 정방향 LSTM과 역방향 LSTM의 출력값을 더하는 모델로 세종 말뭉치를 학습하고 실험하였다. 전처리 과정으로 "|(归{}” 등과 같은 특수기호 등은 제거하고 깨끗한 3, 730, 158개의 문장 데이터를 3, 357, 143개의 문장(어절수: 46, 480, 6®개, 음절수: 141, 686, 680개)의 학습 데이터 집합과 373, 015개의 문장(어절 수: 560, 912개, 음절수: 15, 734, 223개)의 테스트 데이터 집합으로 구성하였다.
구성하였다. 또한, 자동 띄어쓰기 문제를 음절 태그 분류 문제로 정의하여 음절 임베딩과 양방향 LSTM을 이용하여 고정된 길이의 새로운 자질 벡터를 연속적인 벡터 공간에 표현하고 심층 신경망 모델에서 분류 망으로 널리 사용되는 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF 로 분류 망이 다른 세 가지 심층 신경망 모델로 한국어 문장에 대한 자동 띄어쓰기 성능 평가를 하였다. 성능 평가 결과 같은 하이퍼 파라미터 (hyper parameter) 에서 분류 망에 따른세 개의 모텔 중에서 선형 체인 CRF가 우수함을 보여주었고, 전방향 신경망의 경우 층수가 깊어짐에 따라 자동 띄어쓰기 성능이 개선되어 단방향 LSTM을 이용한 신경망 언어 모델보다 우수함을 보여주었다.
B 태그는 어절의 첫음절 시작을 의미하고, I 태그는 어절에서 첫음절을 제외한 나머지 부분을 나타낸다. 문장의 띄어쓰기 오류 교정을 위해 공백이 존재하지 않는 문장을 대상으로 음절 태그 분류 후, B 태그 앞에 공백을 삽입하는 형태로 자동 띄어쓰기를 하였다.
본 논문에서는 Equation ⑴과 같이 결합확률(joint probability) 의 연쇄 법칙(chain rule)으로 문장을 구성하는 단어 열의 확률 분포를 계산하는 단방향 LSTM을 이용하는 언어 모델의 방식을 BI 태그를 분류하는 방식으로 변경하여 Fig. 5와 같이 문장의 각 음절을 자동 띄어쓰기 태그로 분류한다[12, 16, 18, 19]. 양방향 LSTM을 이용하여 현재 음절에 과거와 미래의 정보를 고려하여 표현한 문맥 자질 벡터를 신경망 언어 모델의 입력으로 하고 문장의 각 음절에 대한 분류 태그에 대한확률 분포를 계산하고 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
예를 들어, 이미지 분류에서 널리 사용되는 CNN의 아키텍처를 보면 컨볼루션 층과풀링 층(pooling layer)의 결합을 통해 이미지 특징을 고정된 길이의 벡터로 표현하고, 이 벡터는 전방향 신경망을 통해 이미지를 분류한다[15]. 본 연구에서는 양방향 LSTM으로 각 현재 음절마다 과거, 미래의 자질 정보와 의존성을 고려하여 생성한 새로운 문맥 자질 벡터와 분류 망으로 널리 사용되는 전 방향 신경망을 결합하여 Fig. 4와 같이 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
3과 같이 양방향 LSTM의 현재 입력 음절인 "학”이라는 음절은 정방향 LSTM 셀로부터 “나, , , , , 는, , 이라는 과거 음절 문맥 정보와 역방향 LSTM으로부터 “교”, "에”, “갔”, “다”라는 미래 문맥 정보를 얻고 현재 입력 음절 “학”이라는 음절 정보를 과거와 미래의 문맥 정보와 의존성을 고려하여 하나의 새로운 문맥 자질 벡터로 표현한다. 본 연구에서는 양방향 LSTM으로 음절간의 의존성을 표현한 새로운 자질 벡터를 Fig. 3과 같이 생성하고, BI 태그 분류를 위해 전방향 신경망(feedforward neural network), 신경망 언어 모델 (neural network language model), 선형 체인 (linear- chain) CRF의 분류 망에 따른 세 가지 모델을 구성하고 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
이때, 선형체인 CRF는 각 음절의 띄어쓰기 태그가 B인지 I인지 분류하는 지역적 정보와 문장의 띄어쓰기 태그 열이 “BIBUBI”인지 확인하는 글로벌 정보를 이용하여 분류 태그 가능성을 계산한다. 본 연구에서는 양방향 LSTM을 이용하여 각 음절에 과거와 미래의 의존성을 고려하여 새로운 문맥 자질 벡터를 표현한다. 이를 각 음절의 B 또는 I 태그에 대한 지역적 점수와 각 음절의 태그와 이웃하는 태그와 의존성을 계산하여 최적의 태그 열인지 아닌지를 선형체인 CRF를 이용하여 로그 가능도(log likelihood)를 계산하고 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
분류 망에 따른 자동 띄어쓰기 성능 평가를 위하여 문장 데이터는 전처리 과정으로 TO山}” 등과 같은 특수기호 등은 제거하고 깨끗한 문장 형태의 데이터를 기반으로 학습 및 평가를 수행하였다. 종단 간 심층 신경망 모델의 학습을 위해 배치 사이즈는 1로 하고, 확률적인 경사 하강법 (stochastic gradient descent)을 이용한 역전파(backpropagation)로 학습하였다.
5와 같이 문장의 각 음절을 자동 띄어쓰기 태그로 분류한다[12, 16, 18, 19]. 양방향 LSTM을 이용하여 현재 음절에 과거와 미래의 정보를 고려하여 표현한 문맥 자질 벡터를 신경망 언어 모델의 입력으로 하고 문장의 각 음절에 대한 분류 태그에 대한확률 분포를 계산하고 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
어절 단위가 아닌 음절 단위로 한국어 문장 자동 띄어쓰기 문제를 추가적인 형태소 분석 없이 종단 간 심층 신경망 시스템으로 구성하였다. 또한, 자동 띄어쓰기 문제를 음절 태그 분류 문제로 정의하여 음절 임베딩과 양방향 LSTM을 이용하여 고정된 길이의 새로운 자질 벡터를 연속적인 벡터 공간에 표현하고 심층 신경망 모델에서 분류 망으로 널리 사용되는 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF 로 분류 망이 다른 세 가지 심층 신경망 모델로 한국어 문장에 대한 자동 띄어쓰기 성능 평가를 하였다.
[3] 은조사/어미의 음절 특성과 조사/어미 사전을 이용하여 어절 블록 단위로 문장을 분할하고, 분할된 어절블록 내에서 양방향 최장일치법과 형태소 분석을 적용하여 띄어쓰기를 교정한다. 이 연구들은 빈도 기반의 사전을 구축한 후 사전 정보를 이용함과 더불어 추가적인 형태소 분석을 수행하여 어절 경계면에 공백을 삽입하는 형태로 띄어쓰기 오류를 수정한다. 사전과 형태소 분석 활용하는 기존의 연구에서 명사 사전(어절 단위)을 활용하는 경우에는 고유명사, 신조어, 외래어 같은 미등록어 처리에 어려움이 있다[1-3].
본 연구에서는 양방향 LSTM을 이용하여 각 음절에 과거와 미래의 의존성을 고려하여 새로운 문맥 자질 벡터를 표현한다. 이를 각 음절의 B 또는 I 태그에 대한 지역적 점수와 각 음절의 태그와 이웃하는 태그와 의존성을 계산하여 최적의 태그 열인지 아닌지를 선형체인 CRF를 이용하여 로그 가능도(log likelihood)를 계산하고 한국어 문장의 각 음절의 띄어쓰기 유형을 BI 태그로 분류한다.
3 층인 인코더와 디코더로 구성하였다. 인코더는 정방향 LSTM 2층과 역방향 1층으로 구성하고 디코더는 LSTM 3 층으로 구성하여 드롭아웃, 계층 정규화, 주목 기법 (attention mechanism)의 기술을 적용하였다. 그리고 한 라인에 최대 단어 10개로 구성하고, 총 6, 161, 374의 행의 세종 말뭉치를 이용하여 학습 및 성능 평가를 한 결과 94.
전방향 신경망, 신경망 언어 모델 그리고 선형체인 CRF의 분류 망에 따른 세 가지 모델들은 자동 띄어쓰기 태그 분류성능 측정을 위해 음절 임베딩 크기는 300, 새로운 자질 벡터생성을 위한 양방향 LSTM 셀의 유닛(unit) 크기는 200으로 하고 양방향 LSTM의 정방향 LSTM 셀과 역방향 LSTM 셀의 출력을 더하거나(add), 이어 붙이는(concatenation) 형태의 두 가지의 연산으로 양방향 LSTM의 출력을 나누어 새로운 문맥 자질 벡터를 연속적인 벡터 공간에 표현하였다. 그리고 전 방향 신경망의 경우에는 은닉층(hidden layer) 유닛 크기로 200, 활성화 함수(activation function)는 ReLU로 층수를 1에서 6까지 한 층씩 늘리면서 자동 띄어쓰기 성능 평가를 하였고, 단방향 LSTM을 이용한 신경망 언어 모델 경우 단방향 LSTM 셀의 유닛 수를 200으로 하고 단방향 LSTM을 단층으로 하여 성능 평가를 하였다.
그리고 전 방향 신경망의 경우에는 은닉층(hidden layer) 유닛 크기로 200, 활성화 함수(activation function)는 ReLU로 층수를 1에서 6까지 한 층씩 늘리면서 자동 띄어쓰기 성능 평가를 하였고, 단방향 LSTM을 이용한 신경망 언어 모델 경우 단방향 LSTM 셀의 유닛 수를 200으로 하고 단방향 LSTM을 단층으로 하여 성능 평가를 하였다. 전방향 신경망과 단방향 LSTM을 이용한 신경망 언어 모델은 소프트맥스(softmax)와 교차 엔트로피 (cross entropy)를 이용하여 문장의 각 음절의 분류 태그의 확률 분포를 계산하여 띄어쓰기 BI 태그로 분류하였다. 그리고 선형체인 CRF 모델의 경우 지역적 점수 계산을 위해 출력 층 하나만 존재하는 전방향 신경망을 이용하여 지역적 점수를 계산하였다.

대상 데이터

말뭉치를 학습하고 실험하였다. 전처리 과정으로 "|(归{}” 등과 같은 특수기호 등은 제거하고 깨끗한 3, 730, 158개의 문장 데이터를 3, 357, 143개의 문장(어절수: 46, 480, 6®개, 음절수: 141, 686, 680개)의 학습 데이터 집합과 373, 015개의 문장(어절 수: 560, 912개, 음절수: 15, 734, 223개)의 테스트 데이터 집합으로 구성하였다. 하이퍼 파라미터 세팅은 KCC₁₅0 데이터로 학습 및 성능 평가 시와 동일하게 세팅을 하였다.
0을 사용하였다.1)자동 띄어쓰기 학습 및 테스트를 위한 데이터는 Table 1과 같이 한라인에 하나의 문장으로 구성하였고, 총 6, 981, 843개의 문장 (어절수: 90, 016, 390개, 음절수: 286, 123, 621개) 데이터를 구축하였다. 자동 띄어쓰기의 학습 및 성능 평가를 위해 6, 283, 656개의 문장(어절수: 81, 014, 779개, 음절수: 257, 516, 828개)의 학습 데이터 집합과 698, 187개의 문장(어절수: 9, 001, 611개, 음절수: 28, 606, 793개)의 테스트 데이터 집합으로 구성하였다.
1)자동 띄어쓰기 학습 및 테스트를 위한 데이터는 Table 1과 같이 한라인에 하나의 문장으로 구성하였고, 총 6, 981, 843개의 문장 (어절수: 90, 016, 390개, 음절수: 286, 123, 621개) 데이터를 구축하였다. 자동 띄어쓰기의 학습 및 성능 평가를 위해 6, 283, 656개의 문장(어절수: 81, 014, 779개, 음절수: 257, 516, 828개)의 학습 데이터 집합과 698, 187개의 문장(어절수: 9, 001, 611개, 음절수: 28, 606, 793개)의 테스트 데이터 집합으로 구성하였다.
자동 띄어쓰기의 학습 및 평가를 위한 말뭉치로 최근에 공개된 한국어 원시 말뭉치 인 KCC₁₅0을 사용하였다.1)자동 띄어쓰기 학습 및 테스트를 위한 데이터는 Table 1과 같이 한라인에 하나의 문장으로 구성하였고, 총 6, 981, 843개의 문장 (어절수: 90, 016, 390개, 음절수: 286, 123, 621개) 데이터를 구축하였다.

이론/모형

모델의 정량적 성능 평가를 위해 Equation (2)-(4)과 같이 자동 띄어쓰기 태그 분류 정확도(accuracy), 공백 재현율 (spacing recall), 공백 정확도(spacing precision)를 사용하였다. Equation ⑵는 (올바르게 예측된 BI 태그 수)/(실제 전체의 BI 태그 수)*100으로 자동 띄어쓰기 태그 분류 정확도이고, Equation (3)은 공백 삽입 관점에서 (올바르게 예측된 공백 위치 수)/(실제 전체의 공백 위치 수)*100으로 공백 재현율을 나타낸다.
06%의 음절 정확도와 9415%의 어절 재현율을 얻었다. 심층 신경망을 이용한 자동 띄어쓰기 방법으로, [5]는 GRU- CRF 모델은 입력 자질로 음절 unigram, bigram, trigram의 조합과 명사 사전을 이용하여 과적 합(overfitting) 문제를 해결하기 위하여 입력층과 은닉층에 드롭아웃(dropout) 기술을 적용하였다. 그리고 어절 26, 013, 702개의 세종 말뭉치의 학습데이터와 288, 291개 어절 ETRI 말뭉치를 평가 데이터로 이용하여 학습 및 성능을 평가한 결과 92.
수행하였다. 종단 간 심층 신경망 모델의 학습을 위해 배치 사이즈는 1로 하고, 확률적인 경사 하강법 (stochastic gradient descent)을 이용한 역전파(backpropagation)로 학습하였다. 그리고 학습률(learning rate)은 0.

성능/효과

하이퍼 파라미터 세팅은 KCC₁₅0 데이터로 학습 및 성능 평가 시와 동일하게 세팅을 하였다. 그 결과, 음절 정확도 97.167%, 공백 정확도 95.56%, 공백 재현율 95.11%, 어절 정확도 88.573%, 어절 재현율 88.164%을 보여주었다. 어절 정확도와 어절 재현율이 낮게 평가된 이유는 복합명사와 복합용언의 경우에 띄어쓰기와 붙여쓰기가 모두 허용되는데 원문과 다르면 틀린 것으로 평가했기 때문이다.
심층 신경망을 이용한 자동 띄어쓰기 방법으로, [5]는 GRU- CRF 모델은 입력 자질로 음절 unigram, bigram, trigram의 조합과 명사 사전을 이용하여 과적 합(overfitting) 문제를 해결하기 위하여 입력층과 은닉층에 드롭아웃(dropout) 기술을 적용하였다. 그리고 어절 26, 013, 702개의 세종 말뭉치의 학습데이터와 288, 291개 어절 ETRI 말뭉치를 평가 데이터로 이용하여 학습 및 성능을 평가한 결과 92.32%의 F1 점수를 보여주었다.
271%만큼 향상되 었다. 그리고 음절 정확도에서는 기존의 연구에서 우수한 [5]보다 음절 정확도에서 0.213%만큼의 향상된 성능을 보여주었다.
인코더는 정방향 LSTM 2층과 역방향 1층으로 구성하고 디코더는 LSTM 3 층으로 구성하여 드롭아웃, 계층 정규화, 주목 기법 (attention mechanism)의 기술을 적용하였다. 그리고 한 라인에 최대 단어 10개로 구성하고, 총 6, 161, 374의 행의 세종 말뭉치를 이용하여 학습 및 성능 평가를 한 결과 94.0%의 F1 점수를 얻었다. 또한, [기은 n-gram의 인코딩을 위한 1.
[1]은 585만 어절, [5]는 288, 291개 어절의 평가 데이터, [7] 의 1M 크기의 데이터보다 많은 대용량 사이즈의 총 90, 016, 390개 어절에서 9, 001, 611개 어절의 평가 데이터를 사용하여 성능을 평가한 결과 기존의 모델과 필적하거나 우수한 성능을 보여주었다. 또한, [기에서 ngian의 인코딩을 위한 1차원 컨볼루션과 GRU으로 구성된 모델은 세종 말뭉치에서는 97.1%, 문학 스타일의 말뭉치에서는 94.3%의 음절 정확도를 보여주었고, 본 논문에서는 음절 unigram만 이용하여 양방향 LSTM으로 인코딩하고 분류 망을 전방향 신경망과 선형 체인 CRIW_ 한 경우에 각각 97.14風 97.91%의 음절 정확도를 보여주어 0]보다 우수한 성능을 보여주었다. 신경망 언어 모델을 분류 망으로 하는 경우에는 96.
어절 정확도와 어절 재현율이 낮게 평가된 이유는 복합명사와 복합용언의 경우에 띄어쓰기와 붙여쓰기가 모두 허용되는데 원문과 다르면 틀린 것으로 평가했기 때문이다. 복합명사와 복합용언의 띄어쓰기와 관련된 평가 오류를 바로 잡아 재평가를 수행하기 위해 l, 0B개의 문장을 샘플링한 후, 성능평가를 한 결과 음절 정확도 98.533%, 공백 정확도 98.49%, 공백 재현율 96.73%, 어절 정확도 95.068%, 어절 재현율 93.468%이고 어절 F1 94261%의 성능을 보여주었다. 이는 어절 성능 측면에서 기존의 연구에서 가장 우수한 성능을 보였던 [6]보다 F1 0.
또한, 자동 띄어쓰기 문제를 음절 태그 분류 문제로 정의하여 음절 임베딩과 양방향 LSTM을 이용하여 고정된 길이의 새로운 자질 벡터를 연속적인 벡터 공간에 표현하고 심층 신경망 모델에서 분류 망으로 널리 사용되는 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF 로 분류 망이 다른 세 가지 심층 신경망 모델로 한국어 문장에 대한 자동 띄어쓰기 성능 평가를 하였다. 성능 평가 결과 같은 하이퍼 파라미터 (hyper parameter) 에서 분류 망에 따른세 개의 모텔 중에서 선형 체인 CRF가 우수함을 보여주었고, 전방향 신경망의 경우 층수가 깊어짐에 따라 자동 띄어쓰기 성능이 개선되어 단방향 LSTM을 이용한 신경망 언어 모델보다 우수함을 보여주었다.
전 방향 신경망의 경우에는 층수에 따른 자동 띄어쓰기 태그 분류 정확도, 공백 재현율 그리고 공백 정확도에 대한 성능 평가 결과를 보면 층수가 깊어짐에 따라 자동 띄어쓰기 태그 정확도와 공백 재현율의 성능이 개선되는 효과를 보여주었고, 자동띄어쓰기 태그 정확도 97.14%, 공백 재현율 95.96%, 공백 정확도 95.01%, F1 값은 95.10%를 보여주었다.
평가한 결과이다. 한국어 문장의 자동 띄어쓰기 성능평가 결과는 각 분류 방법론에 따른 태그 분류 정확도, 공백재현율, 공백 정확도, F1 값에서는 선형 체인 CRF 분류 방법을 사용했을 때, 자동 띄어쓰기 태그 정확도 97.91%, 공백재현율 96.49%, 공백 정확도 96.31%, F1 값은 96.40%를 보여주었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기
Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

이현영 (3) 강승식 (27)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기
Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper