[논문]연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구

김나리; 김형중

doi:10.9728/dcs.2017.18.7.1419

연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구
A Study on the Law2Vec Model for Searching Related Law 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.18 no.7, 2017년, pp.1419 - 1425

김나리 (고려대학교 빅데이터응용및보안학과) , 김형중 (고려대학교 빅데이터응용및보안학과)

초록
AI-Helper

법률 지식 검색의 궁극적 목적은 법령과 판례를 근거로 최적의 법례정보 획득이라고 할 수 있다. 최근, 대규모 자료에서 효율적으로 검색하여야 하는목적을 달성하기 위하여텍스트 마이닝 연구가 활발히 이루어지고 있다. 대표적인 방법으로 Neural Net 기반 학습방법인 워드 임베딩 알고리즘을 들 수 있다. 본 논문에서는 한국 법령정보를 워드임베딩에 적용하여 연관정보 검색방법을 연구하였다. 우선 판례의 참조법령을 순서대로 추출하여 모형의 입력정보로 활용하였다. 추출한 참조법령들은 중심법령을 기준으로 주변 법령을 학습하고 임베딩하는 Law2Vec 모형을 작성하였다. 이 모형으로 법령에 대하여 학습을 수행하고 법령 간의 관계를 추론하였다. 본 연구의 모형을 평가하기 위하여 연관법령으로 도출된 결과가 키워드와 밀접한 관련이 있는지 정밀도와 재현율을 계산하여 검증하였다. 실험결과, 본 연구의 제안방식이기존의 키워드 검색방법보다 연관된 법령을추론하는데유용함을 알 수 있었다.

Abstract ▼ AI-Helper

The ultimate goal of legal knowledge search is to obtain optimal legal information based on laws and precedent. Text mining research is actively being undertaken to meet the needs of efficient retrieval from large scale data. A typical method is to use a word embedding algorithm based on Neural Net. This paper demonstrates how to search relevant information, applying Korean law information to word embedding. First, we extracts reference laws from precedents in order and takes reference laws as input of Law2Vec. The model learns a law by predicting its surrounding context law. The algorithm then moves over each law in the corpus and repeats the training step. After the training finished, we could infer the relationship between the laws via the embedding method. The search performance was evaluated based on precision and the recall rate which are computed from how closely the results are associated to the search terms. The test result proved that what this paper proposes is much more useful compared to existing systems utilizing only keyword search when it comes to extracting related laws.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Corpus는 모든 텍스트 데이터를 대상으로 분석을 수행하는것이 이상적이나, 시간과 자원의 한계를 고려하여 특정 주제를선정하고 이에 대한 사례 연구를 진행하였다. 특정주제로써 ‘소멸시효’,‘손해배상’으로 검색한 판례를 수집하였다.
Word2Vec이 문장에 등장하는 중심단어와 주변단어의 분포정보를 분석하여 중 심단어의 의미를 유추하는 것처럼, Law2Vec은 판례에 참조된 법령의 분포를 분석하여 특정 법령과 연관된 법령정보를 추론한다. 기존의 Word2Vec을 적용할 때 발생하는 한글 형태소 분석 및 자연어 처리(NLP)의 어려움을 개선하기 위하여 본 연구에서는 구분자 콤마(,)를 기준으로 법령을 파싱(parsing)하고 연관관계를 분석하였다. 따라서 Law2Vec 모형은 법령 본문을input하는 것이 아니라 법령 조항을 input하고 학습함으로써, 복잡한 한글 전처리의 어려움을 해결하고 결과적으로 연관법령 검색 성능을 높이고자 하였다.
따라서 Law2Vec 모형은 법령 본문을input하는 것이 아니라 법령 조항을 input하고 학습함으로써, 복잡한 한글 전처리의 어려움을 해결하고 결과적으로 연관법령 검색 성능을 높이고자 하였다.
본 논문에서 법률정보 검색의 효율성을 제고하기 위하여 법령, 판례를 분석해 연관법령정보를 제공하는 방법을 연구하였다. 이 연구의 효과는 정확한 내용을 모르더라도 검색어와 연관된 법령정보를 ‘쉽고, 정확하게‘ 검색하는 것이다.
본 논문에서는 Word2Vec을 참고로 법령 및 판례를 대상으로 학습을 통하여 법령들을 벡터화하고 법령 간 관련성을 추론하는 법령 기반 Law2Vec 모형을 제안한다.
기존에는 법령을 검색하는 경우, 연관법령을 찾으려면 검색어를 여러 번 수정하거나 판례 내용의 법령정보를 참고하기 위하여 많은 판례를 열람해야하는 번거로움이 있었다. 본 연구에서 법령 간 유사도 검색으로 연관법령을 쉽게 검색할 수 있는 새로운 방법을 제시하고 이론적 근거를 마련함으로써 법령 활용의 효과를 높일 수 있을 것으로 여겨진다.
본 연구에서는 이러한 문제점을 극복하기 위하여 국내 법령 정보의 특성을 고려하여 법령정보를 분석할 수 있는 방안에 대한 연구를 진행하였다. 국내 법령을 유의미한 벡터로 계산하고 이를 학습하여 법령 간 연관관계를 추론하였다.
따라서 연관법령을 검색할 수 있는 정보 검색 기법에 대한 연구가 요구된다(표 1 참조). 본 연구에서는 판례를 학습하여 법령의 관계를 도출하고 연관법령을 추론할 수 있는 방법을 연구하였다.

제안 방법

법령을 검색하기 위하여 기존의 키워드로 법령을 검색한 결과와 본 논문에서 제안하는 Law2Vec으로 법령을 검색한 결과를 각각 비교하여 살펴보면, Law2Vec 모형이 단순 키워드로 검색하는 결과에 비해 의미상 관련이 높은 연관법령까지 도출하는 것을 확인할 수 있다. Law2Vec을 통한 법령의 검색 결과는1건에서 n건으로 output의 크기를 설정할 수 있는데, 본 논문에서는 Law2Vec 검색결과를 3건으로 설정하여 그 법령의 내용을표 4, 5와 같이 비교하였다.
특정주제로써 ‘소멸시효’,‘손해배상’으로 검색한 판례를 수집하였다. 검색결과는 Python으로 자동화하여 수집하였다. 수집한 대상은 표 2,3과 같다.
본 연구에서는 이러한 문제점을 극복하기 위하여 국내 법령 정보의 특성을 고려하여 법령정보를 분석할 수 있는 방안에 대한 연구를 진행하였다. 국내 법령을 유의미한 벡터로 계산하고 이를 학습하여 법령 간 연관관계를 추론하였다.
다음으로 법령의 단위가 다양해서 의미단위가 분산되는 것을 최소화하기 위하여 해당 참조법령이 법의 조, 항, 호, 목 등의 하위단위로 명시되어있더라도 조 단위로 통일되도록 추가적인 전처리 절차를 진행하여 텍스트 분석이 용이한 데이터구조로 변환하였다.
모형의 결과로 도출된 연관단어와 전문가가 추출한 관련 핵심어와 유사도를 비교하여 연관 법령의 정확도 및 성능을 평가하였다.
본 모형의 성능을 검증하기 위하여, Law2Vec 모형에서 도출된 연관법령 정보들이 전문가가 도출한 핵심어와 얼마나 관련이 있는지 비교하였다. 법무부 보고서[19]를 참고하여 핵심어를 gold standard로 마련하였고(표 7 참조), 연관법령 상위 30개의 결과가 gold standard keyword를 얼마나 포함하는지 정밀도와 재현율을 평가하였다. 정밀도와 재현율은 표 6을 참고한 계산식으로 분석하였다.
본 모형의 성능을 검증하기 위하여, Law2Vec 모형에서 도출된 연관법령 정보들이 전문가가 도출한 핵심어와 얼마나 관련이 있는지 비교하였다. 법무부 보고서[19]를 참고하여 핵심어를 gold standard로 마련하였고(표 7 참조), 연관법령 상위 30개의 결과가 gold standard keyword를 얼마나 포함하는지 정밀도와 재현율을 평가하였다.
본 장은 국내 법령정보 검색 연구와 텍스트마이닝 기법을 분석하고, 시사점을 도출하였다.
연관법령 결과를 상위10개, 20개, 30개 구간별로 나누어 정밀도와 재현율을 비교하였다. Rank는 연관법령 결과의 순위를의미하고, 결과는 표 8과 같다.
생성된 Law2Vec 모델에 참조법령 리스트를 넣어 학습시키고, 학습이 완료되면 각 법령의 단어벡터의 코사인 유사도가 가장 높은 법령 정보를 제시할 수 있다. 이러한 모형의 학습결과를 검증하기 위하여 제시어에 따른 관련 법조문을 출력하고 이결과를 휴리스틱에 의하여 추출된 핵심어의 포함여부를 기준으로 성능을 평가한다.
둘째, 학습모듈은 context의 각 법령들을 hidden layer와output layer에서 벡터화한다. 추출된 참조법령은 주변 법령의 분포정보와 분석하여 hidden layer에서 고유한 벡터로 산출하고 법령 간 관계를 도출하는 학습을 진행한다. 수집된 corpus를 학습 시키기 위한 네트워크 모델은 skip-gram 모델을 사용하여중심법령 υ_o를 기준으로 주변법령 v_c를 예측하는 모형을 구축한다.

대상 데이터

본 연구에 제안된 모형을 실험하기 위하여 ‘대법원 종합법률정보’에서 공개하는 대법원 민사소송 판결을 수집하였다.
약 7,000개의 판례가 수집됐고 판례의 참조법령 부분을 추출하여 학습에 사용하였다. 먼저 참조법령을 구분자(,)를 기준으로 파싱(parsing)하였다.
특정주제로써 ‘소멸시효’,‘손해배상’으로 검색한 판례를 수집하였다.

이론/모형

수집된 corpus를 학습 시키기 위한 네트워크 모델은 skip-gram 모델을 사용하여중심법령 υo를 기준으로 주변법령 vc를 예측하는 모형을 구축한다.
훈련 데이터를 학습하기 위하여 Google에서 제공하는Word2Vec 패키지[18]를 활용하여 중심법령과 주변 법령을skip-gram 방식으로 학습하였다. 등장 횟수가 20 이하인 단어는학습 샘플링에서 제외하였고, 300차원짜리 벡터 스페이스에 임베딩하였다.

성능/효과

Law2Vec을 통해 분석된 결과로써 첫째, ‘민법 제168조(소멸시효 중단사유)’의 연관법령은 ‘민법 제169조(시효중단의 효력)’, ‘어음법 제77조(환어음의 규정의 준용)’, ‘민법 제430조(목적, 형태상의 부종성)’이 도출되었고, 둘째 ‘민법 제755조(감독자의 책임)’의 연관법령은 ‘민법 제753조(미성년자의 책임능력)’, ‘민법제709조(업무집행자의 대리권추정)’, ‘근로기준법제82조(유족보상)’이 도출되었다.
이러한 결과는 Law2Vec의 성능이Precision뿐만 아니라 Recall 측면에서도 결과가 균형을 이루는것을 의미한다. 따라서 Law2Vec모형을 통해 도출된 연관법령이검색하는 법령과 의미상 관련 있는 결과를 제공하는 것을 평가할 수 있었다.
이 방법은 법률 실무가에게 검색 문제의 어려움을 해결하는 대안이 될 수 있다. 방대한 단어로 구성된 법률 문서를 분석하고 의미를 파악할 수 있는 알고리즘을 통하여, 시간과 비용의 효율성을 높이고 기존의 검색보다 정확한 결과를 제공할 수 있다.
법령을 검색하기 위하여 기존의 키워드로 법령을 검색한 결과와 본 논문에서 제안하는 Law2Vec으로 법령을 검색한 결과를 각각 비교하여 살펴보면, Law2Vec 모형이 단순 키워드로 검색하는 결과에 비해 의미상 관련이 높은 연관법령까지 도출하는 것을 확인할 수 있다. Law2Vec을 통한 법령의 검색 결과는1건에서 n건으로 output의 크기를 설정할 수 있는데, 본 논문에서는 Law2Vec 검색결과를 3건으로 설정하여 그 법령의 내용을표 4, 5와 같이 비교하였다.
본 연구에서는 판례의 법령을 벡터로 하여 법령벡터를 학습하고 임베딩한 결과가 법령 간의 관계 및 연관된 법령을 추론하는데 유용함을 알 수 있었다. 기존에는 법령을 검색하는 경우, 연관법령을 찾으려면 검색어를 여러 번 수정하거나 판례 내용의 법령정보를 참고하기 위하여 많은 판례를 열람해야하는 번거로움이 있었다.
Rank는 연관법령 결과의 순위를의미하고, 결과는 표 8과 같다. 상위 10개의 법령들은 정밀도가재현율보다 높은 것으로 측정되고, 평균적으로 정밀도는 57%이고, 재현율은 62%로 재현율이 더 높게 측정되었다. 상위에rank된 연관법령이 핵심어를 포함하고 있는 유사한 법령일 확률이 높았다.
상위에rank된 연관법령이 핵심어를 포함하고 있는 유사한 법령일 확률이 높았다. 연관법령을 많이 추출할수록 positive관계로 도출된 법령은 negative관계로 도출된 법령보다 핵심어가 포함된 법령이 많이 제시되었다. 이러한 결과는 Law2Vec의 성능이Precision뿐만 아니라 Recall 측면에서도 결과가 균형을 이루는것을 의미한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	법률정보 검색은 무엇인가?	법률정보 검색은 개인이나 기업, 그리고 국가기관의 판사, 검사, 수사관에 이르기까지 법률적 판단과 해석에 필요한 근거규정을 찾는데 활용하는 수단으로, 경우에 따라서는 많은 시간과 노력이 투입되는 일이다. 국가법령정보센터에 수록된 현재 유효한 법령[1]이 약 5천 개에 이르고, 법리를 해석한 판례의 수가 증가하고 복잡해짐에 따라 효율적인 정보 검색에 대한 요구는 크게 늘고 있다.
	법률 실무가에게 검색 문제의 어려움을 해결하는 대안이 될 수 있는 방법과 그 이유는 무엇인가?	그런데 빅데이터 분석 방법인 텍스트 마이닝을 활용하여 법률을 검색하면 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하여 숨겨진 의미와 관계를 알아낼 수 있다. 이 방법은 법률 실무가에게 검색 문제의 어려움을 해결하는 대안이 될 수 있다.
	Law2Vec은 어떻게 법령정보를 추론하는가?	본 논문에서는 Word2Vec을 참고로 법령 및 판례를 대상으로 학습을 통하여 법령들을 벡터화하고 법령 간 관련성을 추론하는 법령 기반 Law2Vec 모형을 제안한다. Word2Vec이 문장에 등장하는 중심단어와 주변단어의 분포정보를 분석하여 중 심단어의 의미를 유추하는 것처럼, Law2Vec은 판례에 참조된 법령의 분포를 분석하여 특정 법령과 연관된 법령정보를 추론한다. 기존의 Word2Vec을 적용할 때 발생하는 한글 형태소 분석 및 자연어 처리(NLP)의 어려움을 개선하기 위하여 본 연구에서는 구분자 콤마(,)를 기준으로 법령을 파싱(parsing)하고 연관관계를 분석하였다.

참고문헌 (19)

Statute Status Report , [Internet] available at http://www.moleg.go.kr/lawinfo/status/statusReport
H. J. Jeon, "Legal Tech Industry Status and Implications," Hyundai Research Institute, vol. 16-31. no. 669. pp. 1-11. Dec 2016.
M. H, Koh, "A Study on Advancement Provision of Legal Information," Korea Ministry of Government Legislation, no. 11-1170000-000460-01, pp. 1-121. Sep 2012.
I. H. Chang, "Developing and Evaluating an Ontology-based Legal Retrieval System," Journal of the Korean Society for Library and Information Science, vol. 45, no. 2, pp. 345-366, Mar 2011.
M. J. Won, "A Development of Ontology-Based Law Retrieval System: Focused on Railroad R&D Projects," Journal of Society for e-Business Studies, vol. 20, no. 4, pp. 209-225, Nov 2015.

원문보기 상세보기
J. H. Kim, "A Study on Legal Ontology Construction," Journal of the Korea Society of Computer and Information, vol. 19, no. 11, pp. 105-113, Nov 2014.

원문보기 상세보기
J.H. Kim, "Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System," Journal of Intelligence and Information Systems, vol. 18, no. 3, pp. 137-152, Sep 2012.
J. S. Shim, "A Searching Method for Legal Case Using LDA Topic Modeling," Journal of the Institute of Electronics and Information Engineers, vol. 54, no. 9, pp. 67-75, Sep 2017.
J. H. Kim, "Exploring the Lawyers' Legal Information Seeking Behaviors for the Law Practice," Journal of the Korean Society for Information Management, vol. 32, no. 4, pp. 55-76, Dec 2015.

원문보기 상세보기
T. Young, D. Hazarika, S. Poria, and E. Cambria, "Recent Trends in Deep Learning Based Natural Language Processing," arXiv preprint arXiv:1708.02709, 2017.
Y. Bengio, R. Ducharme, P. Vincent et al., "A neural probabilistic language model," Journal of Machine Learning Research, vol. 3, pp. 1137-1155, 2003.
H. Y. Lee, and J. S. Lee, "Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing," Journal of Digital Contents Society, vol. 17, no. 3, pp. 203-210, Jun. 2016.

원문보기 상세보기
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv:1301.3781v3, 2013.
R. Andrii, "Semiotic Analysis of Korean Legal Terms," Journal of Korean Culture, vol. 10, pp. 26-30, Feb 2008.
C. Park, K. Kim, and D. Seong, "Automatic IPC Classification of Patent Documents Using the Term Clustering," Journal of Korean Institute of Information Technology, vol. 12, no. 9, pp.127-139, Sep 2014.
Z. S. Harris, "Distributional Structure," Word, vol. 10, no. 2-3, pp. 146-162. 1954.
Word2Vec Research, [Internet] available at https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/11/embedding/
Word2Vec Tutorial, [Internet] available at https://rare-technologies.com/deep-learning-with-Word2vec-and-gensim/
K. Y. Lee, "Jurisprudence for the Advancement of the Statute of Limitations in Korean Civil Law," Ministry of Justice, Republic of Korea, Research Report, Dec 2007.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증