본 논문은 한국어 표절 검사를 위해서 표절의 유형을 분석하여, 유형별 분석 결과를 기반으로하여 유사 문장 판별 모델을 제안한다. 제안하는 방법은 한국어 문장에 대한 표절 유형 분석 결과를 토대로 LSA와 N-gram을 이용한 유사 문장 검색을 통하여 여러 유형의 표절로부터 견고한 유사 문장 판별 모델을 구현하였다. 제안한 모델의 성능 분석을 위해서 학생들이 인위적으로 작성한 표절 리포트와 표절한 첨부 문서로 실험 데이터를 구축하였다. 성능 비교를 위해서는 기존의 N-gram 모델, 벡터모델, LSA 모델이 사용되었으며, 실험 결과 제안한 모델이 정확률, 재현율, 그리고 F값 척도에서 우수한 성능을 보임을 알 수 있었다.
본 논문은 한국어 표절 검사를 위해서 표절의 유형을 분석하여, 유형별 분석 결과를 기반으로하여 유사 문장 판별 모델을 제안한다. 제안하는 방법은 한국어 문장에 대한 표절 유형 분석 결과를 토대로 LSA와 N-gram을 이용한 유사 문장 검색을 통하여 여러 유형의 표절로부터 견고한 유사 문장 판별 모델을 구현하였다. 제안한 모델의 성능 분석을 위해서 학생들이 인위적으로 작성한 표절 리포트와 표절한 첨부 문서로 실험 데이터를 구축하였다. 성능 비교를 위해서는 기존의 N-gram 모델, 벡터모델, LSA 모델이 사용되었으며, 실험 결과 제안한 모델이 정확률, 재현율, 그리고 F값 척도에서 우수한 성능을 보임을 알 수 있었다.
In this paper, we proposed a method to find out similar sentences from documents to detect plagiarized documents. The proposed model adapts LSA and N-gram techniques to detect every type of Korean plagiarized sentence type. To evaluate the performance of the model, we constructed experimental data u...
In this paper, we proposed a method to find out similar sentences from documents to detect plagiarized documents. The proposed model adapts LSA and N-gram techniques to detect every type of Korean plagiarized sentence type. To evaluate the performance of the model, we constructed experimental data using students' essays on the same theme. Students made their essay by intentionally plagiarizing some reference documents. The experimental results showed that our proposed model outperforms the conventional N-gram model, Vector model, LSA model in precision, recall, and F measures.
In this paper, we proposed a method to find out similar sentences from documents to detect plagiarized documents. The proposed model adapts LSA and N-gram techniques to detect every type of Korean plagiarized sentence type. To evaluate the performance of the model, we constructed experimental data using students' essays on the same theme. Students made their essay by intentionally plagiarizing some reference documents. The experimental results showed that our proposed model outperforms the conventional N-gram model, Vector model, LSA model in precision, recall, and F measures.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
LSA 분석 기법을 이용한 방식은 의미적 유사성을 이용한 변형에도 견고한 면을 보였으나, 그 반대로 의미적으로 유사할 뿐, 실질적인 표절이 아님에도 불구하고 유사 문장으로 인식하는 단점이 나타났다. 본 논문에서는 기존 방식의 단점을 극복하고 여러 가지 표절의 유형에도 견고한 유사 문장 판별 모델을 제안하고자 한다. 제안하는 모델은 단어 치환과 같이 의미적 유사성을 이용한 표절 유형을 극복하기 위해서 LSA 분석 기법을 이용함과 동시에 어순 변경과 같은 형태적 변형에 우수한 성능을 보이는 N-gram 비교 방식을 이용하여 여러 표절 유형으로부터 견고한 문장 판별 모델을 구축하였다.
본 논문에서는 보다 정확한 표절 문서 검사를 위해서 표절 문서 내에서 보이는 문장들의 표절 유형에 대하여 연구 하였다. <표 2>는 한국어 표절 문서에서 발견되는 문장 유형을 나타낸 것으로 원문복사, 단어치환, 어순변경, 문장요약 유형으로 분류하였으며, 유형별 특징은 다음과 같다.
본 논문에서는 한국어 표절 검사를 위한 문장 유사도 검색에 있어서 효과적인 검사를 위해서 문장의 표절 유형을 분류하였고, 그 유형별로 유사도를 검사하여 표절 문장을 판별하는 유사 문장 판별 모델을 제안하였다. 본 논문에서 제안하는 모델은 표절 문서를 효과적으로 비교하기 위해서 문장별로 비교하는 방법을 선택하였으며, 문장의 형태소 및 어절 변형 및 단어 치환에 견고하게 작동하고 문장 유사도 검색을 효율적으로 수행하기 위해 LSA와 N-gram을 이용한 문장 유사도 검색을 하였다.
본 논문은 문장 간의 의미적 유사도를 검색하여 유사한 문장을 추출하고, 동시에 형태적 유사도를 검색하여 문장을 추출함으로서 문장의 의미적 유사여부와 형태적 유사여부를 동시에 분석하여 보다 표절에 견고한 시스템 구현을 목적으로 한다. <표 2>에서 제시한 것처럼 표절 유형에는 원문 복사, 단어 치환, 어순 변경, 문장 요약과 같은 유형이 존재한다.
본 논문은 한국어 문장 표절 유형을 분석하고 분석된 모든 문장 표절 유형을 찾을 수 있는 견고한 한국어 유사 문장 판별 모델을 제안한다.
본 연구에서는 LSA 유사도 계산과는 별도로 문장에 대한 N-gram 중복 검사를 실시하여 보다 정확한 표절검사를 하고자 하였다. 검사는 음절 tri-gram 과 bi-gram을 가지고 하였으며, 각 문장별 N-gram 유사도 계산 값에 대한 계산식 SIMNgram (odim, pdjn)은 식(2)와 같다.
5로 설정하여 본 연구에서 제안한 문장 판별 모델로 표절 문서를 검사하였다. 본 연구에서는 N-gram 비교 방식, 벡터 모델 방식, LSA 방식을 이용한 시스템과 본 연구에서 제안하는 모델을 표절 유형별로 시스템의 정확률과 재현율을 비교하여 제안하는 모델의 장점을 나타내고자 하였으며 결과는 다음과 같다.
본 연구에서는 기존 비교 방식을 사용했을 때보다 얼마나 성능이 향상되는가에 대해 알아보기 위하여 문자열 비교 방식을 제외한 N-gram, 벡터 모델, LSA, 그리고 제안하는 시스템에 대한 정확률 및 재현율 그리고 조화평균을 분석하여 성능 평가를 실시하였다. 문자열 비교 방식은 한국어의 표절 검색에는 성능이 낮기 때문에 실험에서 제외하였다[5].
제안 방법
LSA에 의하여 구해진 문서-문서 행렬을 유사도 계산식을 통하여 원본 문서의 문장과 일정 수준 이상의 유사도를 가지는 표절 의심 문서의 문장을 추출한다. 유사도 계산은 코사인 유사도 계산식을 사용하였으며, 유사도 계산을 마친 가상 문서들은 유사 가상 문서 추출 함수를 통하여 표절 여부를 판별하도록 한다.
자질 추출을 통하여 추출한 명사를 색인어로 하여 유사도 계산을 위한 가중치를 계산하였으며, 가중치 계산식은 TF*IDF 값을 사용하였다. 가중치 계산 후에 벡터로 표현된 가상 문서들을 단어-문서 행렬로 나타낸 후, LSA를 이용하여 기존에서는 나타나지 않는 의미적 유사성을 찾도록 하였다. 단어-문서 행렬은 SVD에 의하여 <그림 2>와 같이 3개의 행렬로 분해된다.
가중치 값은 많은 방법이 있으나 주로 가장 잘 알려진 TF-IDF 가중치 방법이 주로 많이 사용된다. 가중치로 인하여 표현된 문서를 N차원의 벡터 값으로 나타낸 후, 문장과 문장 간의 유사도를 계산한다. 유사도 계산은 다이스 유사계수, 쟈카드 유사계수, 내적 계수, 코사인 유사계수 등이 이용되는데 주로 코사인 유사 계수가 가장 많이 사용된다.
이 방식은 정보검색 모델의 한 종류인 벡터 공간 모델을 응용하여 문장의 유사도 값을 계산하여 유사 여부를 판단하는 방법이다[14]. 각 문장을 이루는 색인어를 추출하여 벡터 공간 상의 벡터로 표현하여 문장과 문장 사이의 유사도를 계산한다. 만약 문장 내에 색인어가 포함되어 있으면, 벡터 내의 해당차원은 0이 아닌 가중치의 값을 가지게 된다.
문자열 비교 방식은 한국어의 표절 검색에는 성능이 낮기 때문에 실험에서 제외하였다[5]. 또한 문장 유형별로도 정확률 및 재현율, 조화평균을 분석하여 유형별로 시스템에 대한 성능을 분석하였다.
표절 문서는 ‘폰 노이만’이라는 주제를 가지고 50명의 학생들이 미리 지정된 참조 문헌 10개를 이용하여 인위적인 표절을 통하여 작성되었다. 문서 작성 전에 표절 유형에 대한 사전 교육을 통하여 4가지 표절 유형에 맞추어 지능적인 표절이 되도록 유도하였다. 표절된 문서의 수는 총 50개의 문서이며 평균 184개의 문장으로 구성되어 있다.
다음은 N-gram 추출 방법에 대하여 설명한다. 문서에 있는 문장을 먼저 빈칸, 마침표, 쉼표 등을 구분자로 하여 모든 어절을 추출하고, 추출한 어절들에 대해 N-gram을 추출한다. 예를 들면 “표절검색”이라는 단어의 bi-gram은 “표절”,“절검”,“검색”이며, tri-gram은 “표절검”,“절검색”이다.
본 논문에서는 한국어 표절 검사를 위한 문장 유사도 검색에 있어서 효과적인 검사를 위해서 문장의 표절 유형을 분류하였고, 그 유형별로 유사도를 검사하여 표절 문장을 판별하는 유사 문장 판별 모델을 제안하였다. 본 논문에서 제안하는 모델은 표절 문서를 효과적으로 비교하기 위해서 문장별로 비교하는 방법을 선택하였으며, 문장의 형태소 및 어절 변형 및 단어 치환에 견고하게 작동하고 문장 유사도 검색을 효율적으로 수행하기 위해 LSA와 N-gram을 이용한 문장 유사도 검색을 하였다. 거기서 발생할 수 있는 정확률 및 재현율의 문제점은 본 연구에서 제안하는 모델을 통해서 해결 할 수 있음을 보였고, 실험을 통해 재현율과 정확률이 향상되는 것을 알 수 있었다.
본 논문에서는 k 값의 변화에 따른 정확률과 재현율을 통하여 k 값을 결정하였으며 결과는 과 같다.
위의 결과를 통해 단어와 단어, 문서와 문서, 단어와 문서의 관계를 비교할 수 있다[6]. 본 논문에서는 문장의 유사도를 비교하기 위해서 추출한 문장들을 각각 문서로 가상하고, S와D 행렬의 곱으로 생성되는 문서-문서 행렬을 이용하여 문장과 문장 사이의 유사도를 계산하였다. 또한, k 값에 따라 행렬을 구성하는 값이 변하므로 실험을 통하여 k값을 결정하였다.
이 방식은 문장별로 나누어져 검사하기 때문에 여러 개의 문서에서 표절이 이루어진 경우에도 어느 부분에서 표절을 했는지에 대한 여부를 쉽게 판단할 수 있다는 장점이 있다[7]. 본 논문은 문장 구분을 위하여 원본 문서와 표절이 의심되는 문서를 마침표(.) 등의 문장부호를 통하여 문장으로 나눈다. 그러나 문장의 길이가 너무 짧은 경우에는 문장 내에서 의미를 내포하고 있다고 보기 어렵기 때문에 원문과 6개 단어 이상 연속 동일할 경우를 기준으로 하여 6어절 이상의 문장을 추출한다.
문장의 유사도 계산을 위해서는 자질 추출을 필요로 한다. 본 연구에서는 LSA를 이용한 유사도 계산과 N-gram을 이용한 유사도 계산 두 가지 방법의 계산이 이루어지기 때문에 각각 방식에 필요한 자질을 추출하여야 한다. LSA를 이용한 유사도 계산에서는 문장을 나타낼 수 있는 자질들 중에서 주로 의미를 나타내는 명사와 고유명사를 자질로 추출 하였으며, N-gram 유사도 계산에서는 문장을 어절로 분리하고, 불용어 리스트를 이용하여 자질로서 무의미한 어절들을 삭제한 후, 나머지 음절로부터 음절 bi-gram과 tri-gram을 추출한다.
연구는 문장의 의미적 유사 여부를 판단하기 위하여 문서에서 문장별로 분리 후, LSA를 이용하여 만들어진 의미공간에서 개념들 간의 유사도를 측정하였다. 자질 추출을 통하여 추출한 명사를 색인어로 하여 유사도 계산을 위한 가중치를 계산하였으며, 가중치 계산식은 TF*IDF 값을 사용하였다.
위의 실험 결과를 반영하여 LSA의 임계 값을 0.7, N-gram의 임계 값을 0.5로 설정하여 본 연구에서 제안한 문장 판별 모델로 표절 문서를 검사하였다. 본 연구에서는 N-gram 비교 방식, 벡터 모델 방식, LSA 방식을 이용한 시스템과 본 연구에서 제안하는 모델을 표절 유형별로 시스템의 정확률과 재현율을 비교하여 제안하는 모델의 장점을 나타내고자 하였으며 결과는 다음과 같다.
본 논문에서는 기존 방식의 단점을 극복하고 여러 가지 표절의 유형에도 견고한 유사 문장 판별 모델을 제안하고자 한다. 제안하는 모델은 단어 치환과 같이 의미적 유사성을 이용한 표절 유형을 극복하기 위해서 LSA 분석 기법을 이용함과 동시에 어순 변경과 같은 형태적 변형에 우수한 성능을 보이는 N-gram 비교 방식을 이용하여 여러 표절 유형으로부터 견고한 문장 판별 모델을 구축하였다.<그림 1>는 본 논문에서 제안하는 유사 문장 판별 모델의 구성을 나타낸 것이다.
대상 데이터
실험은 수업에서 학생들로부터 임의적으로 작성된 표절 문서 집합과 표절에 사용된 원본 문서를 대상으로 하였으며, 그 구성은 과 같다.
표절 문서는 ‘폰 노이만’이라는 주제를 가지고 50명의 학생들이 미리 지정된 참조 문헌 10개를 이용하여 인위적인 표절을 통하여 작성되었다.
문서 작성 전에 표절 유형에 대한 사전 교육을 통하여 4가지 표절 유형에 맞추어 지능적인 표절이 되도록 유도하였다. 표절된 문서의 수는 총 50개의 문서이며 평균 184개의 문장으로 구성되어 있다.
데이터처리
연구에서 평가 방법은 문장 유사도 검색이 수행된 문장에 대한 정확도(P)와 재현율(R) 그리고 조화 평균(F-measure) 값을 사용하였으며, 각각의 계산식들은 다음과 같다.
연구는 문장의 의미적 유사 여부를 판단하기 위하여 문서에서 문장별로 분리 후, LSA를 이용하여 만들어진 의미공간에서 개념들 간의 유사도를 측정하였다. 자질 추출을 통하여 추출한 명사를 색인어로 하여 유사도 계산을 위한 가중치를 계산하였으며, 가중치 계산식은 TF*IDF 값을 사용하였다. 가중치 계산 후에 벡터로 표현된 가상 문서들을 단어-문서 행렬로 나타낸 후, LSA를 이용하여 기존에서는 나타나지 않는 의미적 유사성을 찾도록 하였다.
이론/모형
LSA에 의하여 구해진 문서-문서 행렬을 유사도 계산식을 통하여 원본 문서의 문장과 일정 수준 이상의 유사도를 가지는 표절 의심 문서의 문장을 추출한다. 유사도 계산은 코사인 유사도 계산식을 사용하였으며, 유사도 계산을 마친 가상 문서들은 유사 가상 문서 추출 함수를 통하여 표절 여부를 판별하도록 한다. 유사 가상 문서 추출 함수는 ΦLSA(Oi, Pj)로 다음과 같이 정의하였다.
성능/효과
N-gram과 문자열 비교 방식의 경우에는 형태적으로 문장에 변형을 많이 가하는 단어 치환과 문장 요약의 경우에 취약한 면을 보였으며, 벡터 공간 모델 방식은 자질 선정 방식에 따라 다르나 주로 단어 치환 유형과 같이 의미적으로 유사하게 문장에 변형을 가한 경우에 성능이 떨어지는 단점이 있다. LSA 분석 기법을 이용한 방식은 의미적 유사성을 이용한 변형에도 견고한 면을 보였으나, 그 반대로 의미적으로 유사할 뿐, 실질적인 표절이 아님에도 불구하고 유사 문장으로 인식하는 단점이 나타났다. 본 논문에서는 기존 방식의 단점을 극복하고 여러 가지 표절의 유형에도 견고한 유사 문장 판별 모델을 제안하고자 한다.
<그림 7>은 각 모델의 정확률과 재현율, F-measure 값을 비교한 것이다. N-gram 모델의 경우에는 전체적으로 재현율이 떨어지는 단점으로 인하여 F-measure 값이 평균 0.75 값을 얻었으며, 벡터모델의 경우에는 정확률과 재현율 두 값이 비슷하게 나타났으나 평균 0.73의 값으로 비교 모델 중 가장 낮은 값을 보였다. 그리고 LSA 모델의 경우 정확률이 떨어지는 단점으로 인하여 평균 0.
본 논문에서 제안하는 모델은 표절 문서를 효과적으로 비교하기 위해서 문장별로 비교하는 방법을 선택하였으며, 문장의 형태소 및 어절 변형 및 단어 치환에 견고하게 작동하고 문장 유사도 검색을 효율적으로 수행하기 위해 LSA와 N-gram을 이용한 문장 유사도 검색을 하였다. 거기서 발생할 수 있는 정확률 및 재현율의 문제점은 본 연구에서 제안하는 모델을 통해서 해결 할 수 있음을 보였고, 실험을 통해 재현율과 정확률이 향상되는 것을 알 수 있었다. 또한 N-gram만을 이용하여 검사하였을 때 판별할 수 없었던 단어 치환이나 문장 요약 등의 형태에 대하여서도 LSA를 이용한 문장 유사도를 통하여 해결할 수 있는 것을 보였으며, LSA에서 발생하는 정확률 문제는 N-gram을 통하여 보안할 수 있음을 보였다.
단어치환 유형의 경우 N-gram 모델과 벡터모델은 형태적으로 치환된 단어에 의하여 유사 문장을 찾아내지 못하였기 때문에 재현율이 매우 낮게 나타는 것을 볼 수 있다. 그러나 LSA와 본 연구에서 제안한 모델의 경우는 LSA를 이용한 공기정보에 따른 의미적 검사방법을 통하여 단어치환의 유형에도 좋은 성능을 보여주었다.
92의 F-measure 값을 얻을 수 있었다. 기존의 모델도 대부분 완벽하게 찾아낸 원문 복사 유형을 제외할 경우, 기존 모델의 F-measure 값은 더 떨어지는데 반해, 제안하는 모델의 경우에는 차이가 없는 것으로 나타났다. 이 이유는 원문 복사 유형의 경우는 원문과 표절 문장의 변형이 없으므로 대부분의 모델에서 유사도 검사가 용이하여 높은 재현율과 정확률을 나타내기 때문이다.
거기서 발생할 수 있는 정확률 및 재현율의 문제점은 본 연구에서 제안하는 모델을 통해서 해결 할 수 있음을 보였고, 실험을 통해 재현율과 정확률이 향상되는 것을 알 수 있었다. 또한 N-gram만을 이용하여 검사하였을 때 판별할 수 없었던 단어 치환이나 문장 요약 등의 형태에 대하여서도 LSA를 이용한 문장 유사도를 통하여 해결할 수 있는 것을 보였으며, LSA에서 발생하는 정확률 문제는 N-gram을 통하여 보안할 수 있음을 보였다.
80 값을 얻었다. 본 논문에서 제안하는 모델은 여러 유형으로부터 견고하게 작동하는 것을 볼 수 있었으며, 평균 0.92의 F-measure 값을 얻을 수 있었다. 기존의 모델도 대부분 완벽하게 찾아낸 원문 복사 유형을 제외할 경우, 기존 모델의 F-measure 값은 더 떨어지는데 반해, 제안하는 모델의 경우에는 차이가 없는 것으로 나타났다.
본 연구에서 제안하는 문장 판별 모델은 기존의 N-gram 모델, 벡터모델, LSA 모델에 비하여 표절 유형별로 모두 높은 정확률과 재현율을 보여주고 있으며, 이는 기존의 하나의 방식만을 사용하였을 때보다 성능이 개선됨을 알 수 있었다.
또한 단어치환 유형의 경우에는 형태적 검사를 주로 하는 N-gram 모델과 벡터 모델이 LSA 모델보다 현저히 떨어지는 결과를 보여주고 있다. 본 연구에서 제안한 모델은 판별식을 통해 유사도를 계산함으로서 기존의 방식보다 유형별로 높은 정확률을 나타내는 것을 볼 수 있다.
본 연구에서는 α와 β 값의 최적 값을 구하기 위해 실험하였으며 그 결과 α 값은 0.6, β 값은 0.4 일 때 가장 좋은 성능을 보임을 확인할 수 있었다.
실험 결과 k값이 작아질수록 재현율이 떨어지며 커질수록 정확률이 떨어지는 것을 볼 수 있다. 그 이유는 사용된 k값이 작을수록, 즉 LSA에서 고려하는 개념 공간의 차원이 작을수록 의미적으로 유사한 단어들의 차원이 많이 합쳐져서 정답에 비하여 시스템이 찾아낸 정답의 수가 많기 때문에 정확률은 높더라도 재현율이 낮아지는 것으로 보이며, 반대로 k 값이 커질수록 차원이 적게 합쳐지기 때문에 재현율은 높아지지만 상대적으로 정확률이 낮아지는 것으로 보인다.
<그림 5>는 표절 유형에 따른 각 모델별 정확률을 비교한 것이다. 원문복사 유형과 문장요약 유형의 경우 N-gram 모델과 벡터 모델에서는 모두 찾아낼 수 있었지만, LSA 모델에서는 그 절반 정도의 정확률을 보여주었다. 그 이유는 LSA 모델은 원문 복사를 한 문장 외에도 의미적으로 유사한 다른 문장들까지 모두 검색하기 때문에 상대적으로 재현율은 높지만 정확률 면에서 떨어지기 때문이다.
후속연구
향후 앞에서 말한 4가지 유형의 표절 유형뿐만 아니라 다른 유형의 표절 유형에도 견고히 작동하는 문장 검색 시스템이 개발되어야 할 것이며,[4]와 같이 다른 표절 검색 방법과의 비교 연구를 통해 개선해나가야 할 것이다. 또한, 문장 표절 검색뿐만 아니라 예제 기반 MT, 영작문 도우미 시스템 개발 활용 등 문장 검색이 필요한 다른 분야에서도 응용이 가능할 것이다.
정보 공유를 통한 장점을 승화시키고 표절과 같은 문제점을 미리 차단하기 위해서는 표절 검사 시스템 구축과 같은 대책을 마련하는 것이 양질의 정보를 공유하고 독창적인 연구가 이루어지는데 도움이 될 것이다. <표 1>은 표절 판정에 대한 기준을 나타낸 것이다[1].
향후 앞에서 말한 4가지 유형의 표절 유형뿐만 아니라 다른 유형의 표절 유형에도 견고히 작동하는 문장 검색 시스템이 개발되어야 할 것이며,[4]와 같이 다른 표절 검색 방법과의 비교 연구를 통해 개선해나가야 할 것이다. 또한, 문장 표절 검색뿐만 아니라 예제 기반 MT, 영작문 도우미 시스템 개발 활용 등 문장 검색이 필요한 다른 분야에서도 응용이 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
N-gram이란 무엇인가?
N-gram이란, 인접한 N개의 음절을 말하며, N-gram 방식은 두 문장 내에 존재하는 N-gram을 추출하고 그것들 중에서 얼마나 많은 N-gram이 일치하느냐에 따라서 문장의 유사 여부를 판단하는 방법이다[13]. 다음은 N-gram 추출 방법에 대하여 설명한다.
N-gram 방식이란 무엇인가?
N-gram이란, 인접한 N개의 음절을 말하며, N-gram 방식은 두 문장 내에 존재하는 N-gram을 추출하고 그것들 중에서 얼마나 많은 N-gram이 일치하느냐에 따라서 문장의 유사 여부를 판단하는 방법이다[13]. 다음은 N-gram 추출 방법에 대하여 설명한다.
N-gram 추출 방법은 무엇인가?
다음은 N-gram 추출 방법에 대하여 설명한다. 문서에 있는 문장을 먼저 빈칸, 마침표, 쉼표 등을 구분자로 하여 모든 어절을 추출하고, 추출한 어절들에 대해 N-gram을 추출한다. 예를 들면 “표절검색”이라는 단어의 bi-gram은 “표절”,“절검”,“검색”이며, tri-gram은 “표절검”,“절검색”이다. 어절의 음절 수가 N보다 큰 경우에는 여러 개의 N-gram으로 분리되고, 작은 경우에는 하나의 N-gram으로 취한다. 따라서 문서에서 철자 오류가 있더라도 문장은 유사한 것으로 검색될 가능성이 높다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.