[논문]유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현

김학수; 고영중; 박수용; 서정연

문제 정의

또한, 정보 검색 분야에서 많은 연구들이 있어 왔지만, 이러한 방법론들이 소프트웨어 공학 분야에 실제 적용되어진 예를 아직은 쉽게 찾아 볼 수 없다. 그러므로, 본 논문에서는 공기 정보 (ca occurrence information)를 이용하여 문서간 유사도를 측정하고, 문서 내에서의 일관성이 결여된 문장과 불명확성을 가잔 문장을 찾아주는 통합 시스템을 제안한다.
문장의 끝에서 윈도우의 크기를 줄이는 이유는 다른 문장에 속해 있는 내용어가 같은 문장내의 내용어 보다 약한 문맥 정보를 가지기 때문이다. 그리고, 윈도우의 슬라이딩(sliding)을 한 문장으로 제한하여 추출되는 색인의 수를 적절한 수준으로 유지하기 위해서이다. [그림4]는 본 논문에서 사용한 슬라이딩 윈도 우기 법을 이용하여 색인어를 추출한 예이다.
모호한 문장을 추출하는 실험은 본 논문에서 제안한 단순한 방법이 얼마나 효과적으로 사용될 수 있는지를 보이는 것에 중점을 두었다. [표3] 은 모호한 문장 추출에 대한 실험 결과이다.
그러나, 추출되는 색인의 수가 상대적으로 적기 때문에 동일한 유사도 측정 방법을 적용하는 것은 적절하지 못하다. 본 논문에서는 문서 간 유사도 측정과 문장간 유사도 측정을 위해 독립된 두 종류의 방법을 제안한다.
것이다. 본 논문에서는 문서간의 의존성 (dependency)과 문장간의 연계성(traceability) 분석을 통해 요구 분석 시 나타나는 요구 사항의 중복성 (redundancy), 불일치성, 불명확성 그리고 불완전성 등의 문제점들을 효율적으로 관리할 수 있는 요구 분석시스템을 제안한다. 제안된 요구 분석 시스템은 정보 검색 기술의 유사도(similarity) 검사 기법을 기반으로 한다.
작업에 사용될 수 있다. 본 논문에서는 이러한 상황을 가정하고, 제안된 문서간 유사도 측정 기법의 효율성을 평가하기 위하여 다음과 같은 방법으로 실험 데이터를 구성하였다. 먼저, 33개의 요구 분석 문서를 각각 A 와 B 두 부분으로 나누어 66개의 데이터 파일을 만들었다.
본 논문은 요구 분석시 나타나는 오류를 효과적으로 줄이고, 수정하는데 사용될 수 있는 요구 분석 시스템을 제안하였다. 문서간의 유사도 측정을 위해서는 기존의 색인 추출 방법인 슬라이딩 윈도우 모델과 의존 구조모델을 결합하여 각 모델이 가지는 단점을 효과적으로 보완할 수 있었다.
즉, 모든 很값에 1을 더하고, 。보다 작은 것들은 계산 대상에서 제외한다. 이것은 같은 어휘를 갖는 단어 쌍의 빈도가 매우 적기 때문에 발생하는 희소 데이터 문제를 보정하기 위한 것이다
이러한 문제점을 극복하기 위해서 본 논문에서는 [그림 5] 와 같은 휴리스틱을 제안한다.

제안 방법

먼저, 하나의 요구 분석 문서를 상, 하위 문서로 나누고, 상위문서의 문장과 하위 문서의 문장들 사이의 유사도를 측정하였다. 그리고, 상위 문서에 속한 문장을 보다 세분화하여 기술한 하위 문서의 문장을 정답으로 간주하였다. 문장간 유사도 실험을 한 상위 문서의 길이는 22문장(198어절)이고, 하위 문서의 길이는 20문장(138어절) 이다.
먼저 문장을 각 형태소별로 나누어 품사를 결정한다. 그리고, 이를 통해각 형태소 별로 그 문장의 내용이나 특징을 잘 내포 할 수 있는 단어와 그렇지 못한 단어를 구분한다. 문장의 내용이나 특성을 잘 반영하는 단어를 내용어(content word; open-class word)라고 하며, 명사, 동사, 형용사 등에 해당되는 단어들을 말한다.
문장의 내용이나 특성을 잘 반영하는 단어를 내용어(content word; open-class word)라고 하며, 명사, 동사, 형용사 등에 해당되는 단어들을 말한다. 다음으로 추출된 내용어의 순서열에 일정 크기의 윈도우(window)를 설정하고, 윈도우의 맨 앞의 내용어와 다음 내용어들간의 쌍을 추출한다. 본 논문에서는 윈도우의 크기를 5로 한다[12].
본 논문에서는 이러한 상황을 가정하고, 제안된 문서간 유사도 측정 기법의 효율성을 평가하기 위하여 다음과 같은 방법으로 실험 데이터를 구성하였다. 먼저, 33개의 요구 분석 문서를 각각 A 와 B 두 부분으로 나누어 66개의 데이터 파일을 만들었다. 그리고, A에 있는 33개 각 문서와 B의 33개 문서에 대해 유사도를 측정하였다.
본 논문에서는 제안된 문장간 유사도 측정 기법의 효율성을 평가하기 위하여 다음과 같이 실험 데이터를 구성하였다. 먼저, 하나의 요구 분석 문서를 상, 하위 문서로 나누고, 상위문서의 문장과 하위 문서의 문장들 사이의 유사도를 측정하였다. 그리고, 상위 문서에 속한 문장을 보다 세분화하여 기술한 하위 문서의 문장을 정답으로 간주하였다.
모호한 문장을 추출하기 위한 방법으로 본 논문에서는 요구 분석 문서에 적합하지 않은 모호한 단어들의 사전을 구축하고 형태소 단위로 비교하는 방법을 4용한다. 먼저, 입력된 문서를 형태소 태깅(tagging)한 후, 모호성을 가질 수 있는 부사나 동사, 형용사에 해당하는 단어들을 추출한다.
제안하였다. 문장간 유사도 측정을 위해서는 슬라이딩 윈도우 기법과 Salton의 코사인 계수를 이용하여 요구 사항의 충돌과 일관성이 결여된 문장을 찾을 수 있는 효율적인 방법을 제공하였다. 모호한 문장을 찾기 위해서는 미리 구축된 사전과 형태소 분석기를 이용하여 요구 분석서에 포함된 모호한 문장을 쉽게 찾을 수 있도록 하였다.
본 논문에서 제안하는 시스템은 크게 문서간 유사도 측정부와 문장간 유사도 측정부, 그리고 모호한 문장 추출부로 나뉜다.
기준으로 사용될 수 있다[1]. 본 논문에서는 슬라이딩 윈도우에 의한 단어쌍과 의존 구조에 의한 단어 쌍을 모두 합하여 z-score 계산하고, 이것을 이용하여 색인 파일을 구성한다.
다음으로 추출된 내용어의 순서열에 일정 크기의 윈도우(window)를 설정하고, 윈도우의 맨 앞의 내용어와 다음 내용어들간의 쌍을 추출한다. 본 논문에서는 윈도우의 크기를 5로 한다[12]. 윈도우는 문장의 처음에서부터 마지막 내용어까지 움직이며, 크기는 문장의 끝에서 문장의 경계를 넘지 않도록 줄어든다.
그러므로, 단어 사이의 의존 관계를 색인어 추출에 이용한다면 보다 문서의 특징을 잘 반영하는 단어쌍을 얻을 수 있다. 본 논문에서는 이러한 특징을 이용하여 의존 문법 (dependancy grammar)[11]을 기반으로 의존 구조를 추출하고, 그 결과를 색인어 추출에 반영한다. 그러나, 일반적인 의존 구조를 색인어 추출에 그대로 이용하는 것은 다음과 같은 문제점을 가지고 있다.
23어절/문장)이다. 유사도 측정은 슬라이딩윈도우만을 이용하여 색인 파일을 만들었을 경우, 의존구조만을 이용하여 색인 파일을 만들었을 경우 그리고 이 둘은 결합하여 만들었을 경우로 나누어서 실험하였다.
않기 때문인 것으로 보인다. 의존소와 지배소 내에 존재하는 인접한 내용어들의 공기 정보를 반영하기 위해서, 구문 관계를 맺고 있는 의존소와 지배소의 내용어들에 슬라이딩 윈도우 기법을 적용해 색인을 추출하는 방법도 실험하였다. 이 경우에 상위 1위의 정확도는 57.
본 논문에서는 문서간의 의존성 (dependency)과 문장간의 연계성(traceability) 분석을 통해 요구 분석 시 나타나는 요구 사항의 중복성 (redundancy), 불일치성, 불명확성 그리고 불완전성 등의 문제점들을 효율적으로 관리할 수 있는 요구 분석시스템을 제안한다. 제안된 요구 분석 시스템은 정보 검색 기술의 유사도(similarity) 검사 기법을 기반으로 한다.

대상 데이터

먼저, 33개의 요구 분석 문서를 각각 A 와 B 두 부분으로 나누어 66개의 데이터 파일을 만들었다. 그리고, A에 있는 33개 각 문서와 B의 33개 문서에 대해 유사도를 측정하였다. A에 있는 한 문서에 대해가장 유사도가 높게 나온 B의 문서가 원래 같은 문서- 하나였는데 둘로 나누어진 경우-였다면, 정답으로 간주하였다.
효과적이다. 모든 문장의 모호성 제거를 위해 분석가는 1, 090문장 중에 단지 34문장만을 살펴보면 된다.
그리고, 상위 문서에 속한 문장을 보다 세분화하여 기술한 하위 문서의 문장을 정답으로 간주하였다. 문장간 유사도 실험을 한 상위 문서의 길이는 22문장(198어절)이고, 하위 문서의 길이는 20문장(138어절) 이다.
A에 있는 한 문서에 대해가장 유사도가 높게 나온 B의 문서가 원래 같은 문서- 하나였는데 둘로 나누어진 경우-였다면, 정답으로 간주하였다. 수집된 요구 사항 문서의 길이는 1, 090문장 (7, 883어절, 7.23어절/문장)이다. 유사도 측정은 슬라이딩윈도우만을 이용하여 색인 파일을 만들었을 경우, 의존구조만을 이용하여 색인 파일을 만들었을 경우 그리고 이 둘은 결합하여 만들었을 경우로 나누어서 실험하였다.
[표3] 은 모호한 문장 추출에 대한 실험 결과이다. 제안된 방법은 1, 090개의 전체문장 중에서 34개의 문장을 추출했으며, 실제로 모호한 의미를 갖고 있는 16개의 문장을 모두 포함했다. 문맥을 고려해야만 모호성을 판단할 수 있는 문장은 실험에서 제외했다.

이론/모형

그러므로, 단어쌍 중요도。의 평균과 표준 편차의 변화가 거의 없어 모든 단어 쌍이 항상 비슷한 중요도를 가지게 된다. 본 논문에서는 문장간의 유사도를 측정하기 위해서 [식6] 과 같은 Salton의 코사인 계수(cosine coefficient)[13]을 이용한다.
이에 반해 term-phrase 색인은 공기 정보 등을 이용해서 단어의 쌍 등을 색인으로 보는 것으로 문맥 정보를 어느 정도 반영할 수 있다는 장점이 있다[1][7]. 본 논문에서는 슬라이딩 윈도우 (sliding window) 기법[1]을 이용한 공기 정보와 의존 관계를 이용한 공기 정보를 색인 추출에 이용한다.
본 논문에서는 인접한 단어 사이의 공기 정보를 추출하기 위해서 슬라이딩 윈도우 기법을 사용하는데, 다음과 같은 단계를 거쳐 수행된다. 먼저 문장을 각 형태소별로 나누어 품사를 결정한다.

성능/효과

[표3] 에서 알 수 있듯이 제안된 방법은 매우 단순하지만 효과적이다. 모든 문장의 모호성 제거를 위해 분석가는 1, 090문장 중에 단지 34문장만을 살펴보면 된다.
이것은 term- phrase 를 이용하여 추출된 색인이 문장의 내용을 single-term보다 잘 표현해 준다는 것을 보여준다. 그리고, 72.7%의 신뢰도를 가지고 요구 분석 내용의 연계성을 검사할 수 있다는 것을 의미한다. 그러므로, 상, 하위의 요구 분석 내용들 간의 충돌이나 불일치 문제 등을 해결하는데 효과적으로 이용될 수 있을 것이다.
그러므로, [식3] 이 큰 의미를 갖지 못한다. 둘째, 문장간의 유사도 측정을 위한 색인의 수가 문서간의 유사도 측정을 위한 색인의 수보다 상대적으로 적다. 그러므로, 단어쌍 중요도。의 평균과 표준 편차의 변화가 거의 없어 모든 단어 쌍이 항상 비슷한 중요도를 가지게 된다.
문서간의 유사도 측정을 위해서는 기존의 색인 추출 방법인 슬라이딩 윈도우 모델과 의존 구조모델을 결합하여 각 모델이 가지는 단점을 효과적으로 보완할 수 있었다. 슬라이딩 윈도우 모델이 가지고 있는 제한된 윈도우의 크기에 의해서 먼 거리 공기 정보를 찾을 수 없다는 단점은 의존 구조 모델에 의해 보완될 수 있었다.
모호한 문장을 찾기 위해서는 미리 구축된 사전과 형태소 분석기를 이용하여 요구 분석서에 포함된 모호한 문장을 쉽게 찾을 수 있도록 하였다. 본 논문에서 제안된 시스템은 언어분석의 비교적 하위 단계인 형태소 분석과 구문 분석만을 이용하여 유사도를 측정하기 때문에 비교적 단순하고 쉽게 구현될 수 있다는 장점이 있다. 제안된 유사도 측정 시스템을 이용한다면 연관된 문서를 쉽고 빠르게 찾을 수 있기 때문에, 사용자 요구 분석 시 발생하는 오류의 분석과 수정에 효과적으로 대처할 수 있다.
초기 사용자 인터페이스는 유사도 측정을 하기 위해서 색인을 생성하는 부분과 기능을 수행하는 부분으로 나누어진다. 본 시스템의 기능은 문서간의 유사도 측정을 통해 문서간의 의존성을 분석하는 기능, 두문서에서 문장간의 유사도 측정을 통해 문장간의 연계성을 설정하고 불완전성을 발견하는 기능, 한 문서에서 문장 간의 유사도 측정을 통해 문장간의 중복성과 불일치성을 발견하는 것을 지원하는 기능 그리고 요구 분석문서에 적합하지 않은 모호한 단어들을 가진 문장을 추출하여 문서의 불명확성을 발견하는 것을 지원하는 기능으로 이루어진다.
둘째, 소프트웨어 개발은 요구사항으로부터 시작되므로 요구사항들의 잘못된 분석과 사용자나 개발자들 사이의 잘못된 이해가 시스템 선체에 대한 개발 실패의원인 이 될 수 있다. 셋째, 요구분석단계에서나 혹은 개발의 초기 단계의 오류 수정 비용이 개발 말기의 비용보다 훨씬 적게 든다. 넷째, 소프트웨어 자체가 매우 복잡해지고 대형화됨에 따라 요구사항에 대한 개발자들의 이해와 관리가 매우 어려워서 많은 오류가 발생할 가능성이 매우 높아지고 있다[2].
이것은 본 논문에서 제안한 방법이 슬라이딩 윈도우를사용한 인접 어절의 공기 정보와 의존 구조를 이용한 구문적 공기 정보를 효과적으로 이용한다는 것을 보여준다.
본 논문에서 제안된 시스템은 언어분석의 비교적 하위 단계인 형태소 분석과 구문 분석만을 이용하여 유사도를 측정하기 때문에 비교적 단순하고 쉽게 구현될 수 있다는 장점이 있다. 제안된 유사도 측정 시스템을 이용한다면 연관된 문서를 쉽고 빠르게 찾을 수 있기 때문에, 사용자 요구 분석 시 발생하는 오류의 분석과 수정에 효과적으로 대처할 수 있다. 그러므로, 요구 분석 오류의 발생 빈도도 상당히 줄어들 것이다.
제안된 통합 모델을 이용하면 각 문서 당 대략 3개의 문서를 살펴서 90% 정도의 확률로 유사한 문서를 찾을 수 있다. 이는 32개의 대상 문서를 모두 살펴야 하는 것과 비교해 보면 9.

후속연구

9% 정도의 만족을 얻을 수 있다는 것을 의미한다. 그러므로, 분산 환경에서 대량으로 존재하는 문서들을 관리하고 분류하는데 제안된 통합 모델이 효과적으로 이용될 수 있을 것이다.
7%의 신뢰도를 가지고 요구 분석 내용의 연계성을 검사할 수 있다는 것을 의미한다. 그러므로, 상, 하위의 요구 분석 내용들 간의 충돌이나 불일치 문제 등을 해결하는데 효과적으로 이용될 수 있을 것이다.
그러나, 요구분석을 하는 과정에서 새롭게 발견된 모호한 단어들이계속적으로 추가된다면 재현율의 급격한 하락은 없을 것으로 기대된다. 그러므로, 제안된 모듈이 모호한 문장을 찾는 도구로 사용된다면 문서의 질(quality)을 유지하는데 효과적으로 이용될 수 있을 것이다.
효과적인 불용어 처리 부분이 있다면 보다 좋은 결과를 얻을 수 있을 것으로 보인다. 그리고, 색인 파일 구성에 단어 쌍을 그대로 이용하였기 때문에 발생하는 희소 데이터 (sparse data) 문제를 효과적으로 해결할 수 있는 보간법(interpolation)의 개발도 필요할 것으로 보인다. 마지막으로, 구문 분석 정보뿐만 아니라 명사나 동사의 의미계층 구조를 이용하여 같은 의미를 가지는 것은 동일 한 단어 쌍으로 본다면 더 좋은 결과를 얻을 수 있을 것이다.
그리고, 색인 파일 구성에 단어 쌍을 그대로 이용하였기 때문에 발생하는 희소 데이터 (sparse data) 문제를 효과적으로 해결할 수 있는 보간법(interpolation)의 개발도 필요할 것으로 보인다. 마지막으로, 구문 분석 정보뿐만 아니라 명사나 동사의 의미계층 구조를 이용하여 같은 의미를 가지는 것은 동일 한 단어 쌍으로 본다면 더 좋은 결과를 얻을 수 있을 것이다.
효과적인 불용어 처리 부분이 있다면 보다 좋은 결과를 얻을 수 있을 것으로 보인다. 그리고, 색인 파일 구성에 단어 쌍을 그대로 이용하였기 때문에 발생하는 희소 데이터 (sparse data) 문제를 효과적으로 해결할 수 있는 보간법(interpolation)의 개발도 필요할 것으로 보인다.
효율적인 요구 사항 분석 작업과 요구분석서의 유지 보수를 위해 요구 분석을 지원하는 자동화된 도구의 개발이 필요하며, 이러한 도구는 요구사항 분석과 전체 프로젝트(project) 수행을 위해 좋은 기초를 제공해 줄 수 있을 것이다. 본 논문에서는 문서간의 의존성 (dependency)과 문장간의 연계성(traceability) 분석을 통해 요구 분석 시 나타나는 요구 사항의 중복성 (redundancy), 불일치성, 불명확성 그리고 불완전성 등의 문제점들을 효율적으로 관리할 수 있는 요구 분석시스템을 제안한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현
Implementation of an Efficient Requirements Analysis supporting System using Similarity Measure Techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현 Implementation of an Efficient Requirements Analysis supporting System using Similarity Measure Techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

김학수 (35) 박수용 (59) 서정연 (43)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

유사도 측정 기법을 이용한 효율적인 요구 분석 지원 시스템의 구현
Implementation of an Efficient Requirements Analysis supporting System using Similarity Measure Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper