[논문]데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로-

이홍걸; 비가방언; 부사천효지

doi:10.5394/kinpr.2005.29.5.457

문제 정의

이 논문은 이러한 현 상황에 주목하여, 합리적인 DB통합법 과 관련하여 개체 및 속성간의 유사도 측정에 기반을 둔 계 량 화된 충돌식별법을 제안하는 것을 연구의 목적으로 한다. 구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
본 연구는 현재 물류분야에 있어, 물류정보시스템의 통합화 의 중요한 과제로서 빈번히 지적되고 있는 DB 통합의 문제를 연구의 대상으로 하였다. 그리고, 이러한 DB 통합과 관련하여 합리적이고 효율적인 통합을 저해하는 대표적인 요인으로 알려져 있는 Name Conflict 문제에 주목하여 그것을 효율적으로 식별할 수 있는 하나의 계량적인 방안을 제시하였다. 특히, 이는 비단 물류분야뿐만이 아니라, 정보화의 진전과 유비쿼터스 개념의 등장으로 인해, 정보량과 정보의 경계가 비약적으로 확 대되어감에 따라, 이러한 정보들을 통합적으로 관리하고 정보 간의 일관성을 도모하기 위해, 우리사회전반에 걸쳐 인식을 같이 하고 있는 하나의 절실한 과제이기도 하다.
즉, 계량적 식별방 안의 실질적인 효율성을 도모하기 위해서는 식별법을 적용함에 있어 수작업이 아닌 기계적으로 소위 "충돌우려 개체”를 간단히 추출해 낼 수 있는 방안의 도입이 필요하다. 여기에는 여러 가지 방안이 있을 수 있으나, 본 연구에서는 하나의 방편으로써 Fig. 4와 같은 절차의 클러스터링 기법을 제안하고자 한다. 즉, 이는 제안된 유사도 측정과정을 토대로 최종적인 Siment 가 구해지면, 이러한 개체간 유사도를 토대로 군집화하는 것을 의미한다.
결과적으로, DB통합을 위한 사전 준비단계로써 대대적 인 데이터 표준화에 대한 연구와 현행 DB의 구조를 유지시키 면서 단계별로 합리적으로 통합해 나가는 방안의 수립이 효과 적이고 융통성 있는 접근방법이라 할 수 있다(山室 등, 1995). 이 논문은 이러한 현 상황에 주목하여, 합리적인 DB통합법 과 관련하여 개체 및 속성간의 유사도 측정에 기반을 둔 계 량 화된 충돌식별법을 제안하는 것을 연구의 목적으로 한다. 구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다.
전형적 인 Name Conflict 문제를 일으키는 간단한 예제를 통 해, 제안한 방법론을 이용한 식별방안과 그 유효성을 가늠해 보고자 한다. 단, 본 예제에 해당하는 시소러스사전은 기존연 구(關根 등, 1993)를 참조한 것이며, 다음과 같이 사전에 마련되어 있는 것으로 가정한다.

가설 설정

전형적 인 Name Conflict 문제를 일으키는 간단한 예제를 통 해, 제안한 방법론을 이용한 식별방안과 그 유효성을 가늠해 보고자 한다. 단, 본 예제에 해당하는 시소러스사전은 기존연 구(關根 등, 1993)를 참조한 것이며, 다음과 같이 사전에 마련되어 있는 것으로 가정한다.

제안 방법

1 절에서는 본 연구에서 제안한 계량적 식별방안을 전형적 인 .간단한 예제를 토대로 제시하였다. 따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다.
또한, 수립된 기존연구에서의 의미적 유사도 측정방안과 의 비교를 통해, 본 연구에서 제안한 식별법의 차별성 및 유효 성을 제시하지 못하여, 이러한 과정을 통해 제안한 방법의 재 검토와 보완의 절차가 필요할 것으로 사료된다. 다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다. 따라서, 실질적인 시소러스 사전의 구축을 통해 제안한 방안의 실질적인 유효성을 제시할 필요가 있다.
한편, 본 연구는 몇 가지 한계점을 가지고 있다. 우선, 본 연구에서 제안한 유사도 측정법은 Song et al. (1996)의 계 량적 유사도 측정방안의 일부와 접근법을 개선한 형태를 취하고 있으며, 여기에 덧붙여, 여러 번의 반복 실험을 통해 충돌개체의 명확한 분류가 가능하게끔 수식을 수립하였다. 그러나, 이러한 접근은 대수학적 측면의 타당성을 확보하는데 문제점이 될 수 있다.

대상 데이터

본 연구는 현재 물류분야에 있어, 물류정보시스템의 통합화 의 중요한 과제로서 빈번히 지적되고 있는 DB 통합의 문제를 연구의 대상으로 하였다. 그리고, 이러한 DB 통합과 관련하여 합리적이고 효율적인 통합을 저해하는 대표적인 요인으로 알려져 있는 Name Conflict 문제에 주목하여 그것을 효율적으로 식별할 수 있는 하나의 계량적인 방안을 제시하였다.

이론/모형

따라서, 본 연구에서는 유사성 측정을 위해 상기의 기존연 구(黑川 등, 1993)에서 제안한 형태소 분석에 의거한 시소러스 사전을 참고 한다.

성능/효과

, (1996)의 연구도 이와 유사한데, 특히 정 량적인 수치로 개 체간의 의미적 충돌정도를 파악할 수 있다는 점에서 기존연구 에 비해 진전된 방법론이라 말할 수 있다. 이 연구에 의하면, 계층적 분류법을 기반으로 데이터 의미사전 (Semantic Dictionary)을 만들어, 설계자가 마련된 사전을 통해 데이터의 유사도를 쉽게 파악할 수 있게 하였다. 이와 같은 접근방법은 앞서 언급한 Batini를 필두로 한 방안에 비해 용어사전을 통해 정 량적인 유사성을 참고할 수 있어 통합 시 효율적이나, 범용 적인 용어사전을 얼마나 완벽하게 구축하느냐가 중요한 관건 이 된다.

후속연구

4와 같이, 전체 개체 수에 대한 Siment 의 평균을 구해, 그것을 임계값으로 하여 군집분석을 행하면, 각 스키마 사이에서 충돌우려 개체가 하나의 군집으로 묶이게 된다. 결과적으로 통합 설계 시 설계자는 개체 하나하나를 대 조할 필요없이 군집화된 개체들만 참고하여 충돌여부를 식별 하면 되므로 통합의 효율성을 높일 수 있을 것으로 기대된다.
특히, 각 스키마의 주키(혹은 대체 키)사이에서 충돌이 발생하는 Key Conflict 문제와 같은 경우 합리적인 통 합을 저해하는 주요한 원인으로 작용하게 되므로, 여기에 대한 식별방안의 수립이 필요하다. 둘째, 전반적인 충돌식별방안 이 수립되면, 이를 실제 문제에 적용하여 실질적인 스키마통 합을 수행해 봄으로써, 그 효과와 문제점을 파악하고 보완할 필요가 있다. 마지막으로, DB통합을 보다 효과적으로 지원하기 위해서는 제안한 계량화된 식별법을 실제 DB에 실장하는 방안이나 통합설계자를 지원하는 응용S/W의 구축이 필요하다.
특히, 이는 비단 물류분야뿐만이 아니라, 정보화의 진전과 유비쿼터스 개념의 등장으로 인해, 정보량과 정보의 경계가 비약적으로 확 대되어감에 따라, 이러한 정보들을 통합적으로 관리하고 정보 간의 일관성을 도모하기 위해, 우리사회전반에 걸쳐 인식을 같이 하고 있는 하나의 절실한 과제이기도 하다. 따라서, 본 연구의 결과는 효율적인 DB통합과 관련한 문제에 있어, 부분적이 나마 하나의 참고자료로서 역할을 할 수 있으리라 기대된다. 한편, 본 연구는 몇 가지 한계점을 가지고 있다.
다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다. 따라서, 실질적인 시소러스 사전의 구축을 통해 제안한 방안의 실질적인 유효성을 제시할 필요가 있다. 덧붙여, 본 연구는 어디까지나 DB통합의 여러 가지 과 제들 중 일부분에 해당하는 것으로써, 실제 DB통합문제를 실 무적인 차원에서 효율적으로 처리하기 위해서는 또한 다음과 같은 다양한 과제가 아직까지 남아있다.
즉, 각각의 조직에 있어 필요에 따라 구축된 기존 DB의 구조를 유지시키면서 합리적으로 통합할 수 있는 방안에 대한 접근은 모색되지 않았다. 따라서, 업계 전체적인 관점에서 설계된 통합 DB가 모두가 만족할 만한 수준의 유용 한 정보를 포괄할 수 있을 지도 미지수이며, 또한 이를 위해서는 업계전체를 대상으로 한, 장기간에 걸친 발생 정보의 실태 파악이 무엇보다 중요하며, 결과적으로 막대한 시간과 재원이 필요하게 될 것이다.
간단한 예제를 토대로 제시하였다. 따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다. 특히, 본 예제에서와 같은 충돌개체를 포함한 수십개 이상의 개체로 구성된 실질적 인 복잡한 스키마간 통합문제일수록 제안된 계량적 식별법은 그 효과를 발휘할 수 있을 것으로 사료된다.
그러나, 이러한 접근은 대수학적 측면의 타당성을 확보하는데 문제점이 될 수 있다. 또한, 수립된 기존연구에서의 의미적 유사도 측정방안과 의 비교를 통해, 본 연구에서 제안한 식별법의 차별성 및 유효 성을 제시하지 못하여, 이러한 과정을 통해 제안한 방법의 재 검토와 보완의 절차가 필요할 것으로 사료된다. 다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다.
둘째, 전반적인 충돌식별방안 이 수립되면, 이를 실제 문제에 적용하여 실질적인 스키마통 합을 수행해 봄으로써, 그 효과와 문제점을 파악하고 보완할 필요가 있다. 마지막으로, DB통합을 보다 효과적으로 지원하기 위해서는 제안한 계량화된 식별법을 실제 DB에 실장하는 방안이나 통합설계자를 지원하는 응용S/W의 구축이 필요하다. 특히, 제안한 방법론에 있어 임계값 및 유사도의 높고 낮 음의 문제는 다소 통합설계자의 주관적 판단과 식견을 필요로 한다.
덧붙여, 본 연구는 어디까지나 DB통합의 여러 가지 과 제들 중 일부분에 해당하는 것으로써, 실제 DB통합문제를 실 무적인 차원에서 효율적으로 처리하기 위해서는 또한 다음과 같은 다양한 과제가 아직까지 남아있다. 첫째, 본 연구에서는 Name Conflict 문제를 중심으로 DB통합의 충돌식 별방안을 수 립하였으나, 합리적인 스키마통합을 하기 위해서는 각 스키마 사이의 구조적인 측면의 충돌문제(Structural Conflict)도 고려 되어야 한다. 특히, 각 스키마의 주키(혹은 대체 키)사이에서 충돌이 발생하는 Key Conflict 문제와 같은 경우 합리적인 통 합을 저해하는 주요한 원인으로 작용하게 되므로, 여기에 대한 식별방안의 수립이 필요하다.
따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다. 특히, 본 예제에서와 같은 충돌개체를 포함한 수십개 이상의 개체로 구성된 실질적 인 복잡한 스키마간 통합문제일수록 제안된 계량적 식별법은 그 효과를 발휘할 수 있을 것으로 사료된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로-
A Study on the Effective Database Integration Methodology - The Identification of Name Conflict - 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로- A Study on the Effective Database Integration Methodology - The Identification of Name Conflict - 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로-
A Study on the Effective Database Integration Methodology - The Identification of Name Conflict - 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper