데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로- A Study on the Effective Database Integration Methodology - The Identification of Name Conflict -원문보기
물류환경에 있어서, 데이터베이스의 연계와 데이터베이스 통합의 문제는 매우 중요한 과제로 인식되어 왔다. 그러나, 여기에 대한 빈번한 문제제기에 비해 합리적인 데이터베이스 통합방안에 관한 학술적 측면의 연구는 아직까지 매우 미흡한 실정이다. 본 연구는 효과적인 DB통합법과 관련하여 개체 및 속성 간의 유사도 측정에 기반을 둔 계량화된 충돌 식별법을 제안하는 것을 연구의 목적으로 한다. 구체적으로, DB 통합 시 빈번히 발생하는 의미적 충돌(Semantic Conflict)현상인 이른바 "Name Conflict"의 식별을 위한 하나의 해결법으로서 개체 및 속성 간 종합적인 유사도를 측정하는 계량화된 식별법을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
물류환경에 있어서, 데이터베이스의 연계와 데이터베이스 통합의 문제는 매우 중요한 과제로 인식되어 왔다. 그러나, 여기에 대한 빈번한 문제제기에 비해 합리적인 데이터베이스 통합방안에 관한 학술적 측면의 연구는 아직까지 매우 미흡한 실정이다. 본 연구는 효과적인 DB통합법과 관련하여 개체 및 속성 간의 유사도 측정에 기반을 둔 계량화된 충돌 식별법을 제안하는 것을 연구의 목적으로 한다. 구체적으로, DB 통합 시 빈번히 발생하는 의미적 충돌(Semantic Conflict)현상인 이른바 "Name Conflict"의 식별을 위한 하나의 해결법으로서 개체 및 속성 간 종합적인 유사도를 측정하는 계량화된 식별법을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
Database integration has been recognized as a critical issue for effective logistics service in logistics environment. However, research related to effective methodology for this have been little studied, and also, prominent achievements have yet to be suggested. The aim of this paper is to present ...
Database integration has been recognized as a critical issue for effective logistics service in logistics environment. However, research related to effective methodology for this have been little studied, and also, prominent achievements have yet to be suggested. The aim of this paper is to present a quantitative methodology for the identification of conflict that is a representative problem on database integration. To achieve this aim, we suggested a quantitative methodology that can efficiently fine troubles such as name conflicts when schema integration, based on the level of semantic similarity between attributes and entities. And, in order to measure these semantic similarities, we used a thesaurus dictionary that proposed previous research. Finally, we presented effectiveness of the proposed methodology through some typical examples.
Database integration has been recognized as a critical issue for effective logistics service in logistics environment. However, research related to effective methodology for this have been little studied, and also, prominent achievements have yet to be suggested. The aim of this paper is to present a quantitative methodology for the identification of conflict that is a representative problem on database integration. To achieve this aim, we suggested a quantitative methodology that can efficiently fine troubles such as name conflicts when schema integration, based on the level of semantic similarity between attributes and entities. And, in order to measure these semantic similarities, we used a thesaurus dictionary that proposed previous research. Finally, we presented effectiveness of the proposed methodology through some typical examples.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 논문은 이러한 현 상황에 주목하여, 합리적인 DB통합법 과 관련하여 개체 및 속성간의 유사도 측정에 기반을 둔 계 량 화된 충돌식별법을 제안하는 것을 연구의 목적으로 한다. 구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.
본 연구는 현재 물류분야에 있어, 물류정보시스템의 통합화 의 중요한 과제로서 빈번히 지적되고 있는 DB 통합의 문제를 연구의 대상으로 하였다. 그리고, 이러한 DB 통합과 관련하여 합리적이고 효율적인 통합을 저해하는 대표적인 요인으로 알려져 있는 Name Conflict 문제에 주목하여 그것을 효율적으로 식별할 수 있는 하나의 계량적인 방안을 제시하였다. 특히, 이는 비단 물류분야뿐만이 아니라, 정보화의 진전과 유비쿼터스 개념의 등장으로 인해, 정보량과 정보의 경계가 비약적으로 확 대되어감에 따라, 이러한 정보들을 통합적으로 관리하고 정보 간의 일관성을 도모하기 위해, 우리사회전반에 걸쳐 인식을 같이 하고 있는 하나의 절실한 과제이기도 하다.
즉, 계량적 식별방 안의 실질적인 효율성을 도모하기 위해서는 식별법을 적용함에 있어 수작업이 아닌 기계적으로 소위 "충돌우려 개체”를 간단히 추출해 낼 수 있는 방안의 도입이 필요하다. 여기에는 여러 가지 방안이 있을 수 있으나, 본 연구에서는 하나의 방편으로써 Fig. 4와 같은 절차의 클러스터링 기법을 제안하고자 한다. 즉, 이는 제안된 유사도 측정과정을 토대로 최종적인 Siment 가 구해지면, 이러한 개체간 유사도를 토대로 군집화하는 것을 의미한다.
결과적으로, DB통합을 위한 사전 준비단계로써 대대적 인 데이터 표준화에 대한 연구와 현행 DB의 구조를 유지시키 면서 단계별로 합리적으로 통합해 나가는 방안의 수립이 효과 적이고 융통성 있는 접근방법이라 할 수 있다(山室 등, 1995). 이 논문은 이러한 현 상황에 주목하여, 합리적인 DB통합법 과 관련하여 개체 및 속성간의 유사도 측정에 기반을 둔 계 량 화된 충돌식별법을 제안하는 것을 연구의 목적으로 한다. 구 체적으로, DB통합 시 빈번히 발생하는 의미적 충돌(Semantic Gonflict)현상인 이른바 "Name Conflict"의 식 별을 위한 하나의 해결법으로서 개체 및 속성간 종합적인 유사도를 측정하는 계 량화된 식별방안을 제안하고자 한다.
전형적 인 Name Conflict 문제를 일으키는 간단한 예제를 통 해, 제안한 방법론을 이용한 식별방안과 그 유효성을 가늠해 보고자 한다. 단, 본 예제에 해당하는 시소러스사전은 기존연 구(關根 등, 1993)를 참조한 것이며, 다음과 같이 사전에 마련되어 있는 것으로 가정한다.
가설 설정
전형적 인 Name Conflict 문제를 일으키는 간단한 예제를 통 해, 제안한 방법론을 이용한 식별방안과 그 유효성을 가늠해 보고자 한다. 단, 본 예제에 해당하는 시소러스사전은 기존연 구(關根 등, 1993)를 참조한 것이며, 다음과 같이 사전에 마련되어 있는 것으로 가정한다.
제안 방법
1 절에서는 본 연구에서 제안한 계량적 식별방안을 전형적 인 .간단한 예제를 토대로 제시하였다. 따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다.
또한, 수립된 기존연구에서의 의미적 유사도 측정방안과 의 비교를 통해, 본 연구에서 제안한 식별법의 차별성 및 유효 성을 제시하지 못하여, 이러한 과정을 통해 제안한 방법의 재 검토와 보완의 절차가 필요할 것으로 사료된다. 다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다. 따라서, 실질적인 시소러스 사전의 구축을 통해 제안한 방안의 실질적인 유효성을 제시할 필요가 있다.
한편, 본 연구는 몇 가지 한계점을 가지고 있다. 우선, 본 연구에서 제안한 유사도 측정법은 Song et al. (1996)의 계 량적 유사도 측정방안의 일부와 접근법을 개선한 형태를 취하고 있으며, 여기에 덧붙여, 여러 번의 반복 실험을 통해 충돌개체의 명확한 분류가 가능하게끔 수식을 수립하였다. 그러나, 이러한 접근은 대수학적 측면의 타당성을 확보하는데 문제점이 될 수 있다.
대상 데이터
본 연구는 현재 물류분야에 있어, 물류정보시스템의 통합화 의 중요한 과제로서 빈번히 지적되고 있는 DB 통합의 문제를 연구의 대상으로 하였다. 그리고, 이러한 DB 통합과 관련하여 합리적이고 효율적인 통합을 저해하는 대표적인 요인으로 알려져 있는 Name Conflict 문제에 주목하여 그것을 효율적으로 식별할 수 있는 하나의 계량적인 방안을 제시하였다.
이론/모형
따라서, 본 연구에서는 유사성 측정을 위해 상기의 기존연 구(黑川 등, 1993)에서 제안한 형태소 분석에 의거한 시소러스 사전을 참고 한다.
성능/효과
, (1996)의 연구도 이와 유사한데, 특히 정 량적인 수치로 개 체간의 의미적 충돌정도를 파악할 수 있다는 점에서 기존연구 에 비해 진전된 방법론이라 말할 수 있다. 이 연구에 의하면, 계층적 분류법을 기반으로 데이터 의미사전 (Semantic Dictionary)을 만들어, 설계자가 마련된 사전을 통해 데이터의 유사도를 쉽게 파악할 수 있게 하였다. 이와 같은 접근방법은 앞서 언급한 Batini를 필두로 한 방안에 비해 용어사전을 통해 정 량적인 유사성을 참고할 수 있어 통합 시 효율적이나, 범용 적인 용어사전을 얼마나 완벽하게 구축하느냐가 중요한 관건 이 된다.
후속연구
4와 같이, 전체 개체 수에 대한 Siment 의 평균을 구해, 그것을 임계값으로 하여 군집분석을 행하면, 각 스키마 사이에서 충돌우려 개체가 하나의 군집으로 묶이게 된다. 결과적으로 통합 설계 시 설계자는 개체 하나하나를 대 조할 필요없이 군집화된 개체들만 참고하여 충돌여부를 식별 하면 되므로 통합의 효율성을 높일 수 있을 것으로 기대된다.
특히, 각 스키마의 주키(혹은 대체 키)사이에서 충돌이 발생하는 Key Conflict 문제와 같은 경우 합리적인 통 합을 저해하는 주요한 원인으로 작용하게 되므로, 여기에 대한 식별방안의 수립이 필요하다. 둘째, 전반적인 충돌식별방안 이 수립되면, 이를 실제 문제에 적용하여 실질적인 스키마통 합을 수행해 봄으로써, 그 효과와 문제점을 파악하고 보완할 필요가 있다. 마지막으로, DB통합을 보다 효과적으로 지원하기 위해서는 제안한 계량화된 식별법을 실제 DB에 실장하는 방안이나 통합설계자를 지원하는 응용S/W의 구축이 필요하다.
특히, 이는 비단 물류분야뿐만이 아니라, 정보화의 진전과 유비쿼터스 개념의 등장으로 인해, 정보량과 정보의 경계가 비약적으로 확 대되어감에 따라, 이러한 정보들을 통합적으로 관리하고 정보 간의 일관성을 도모하기 위해, 우리사회전반에 걸쳐 인식을 같이 하고 있는 하나의 절실한 과제이기도 하다. 따라서, 본 연구의 결과는 효율적인 DB통합과 관련한 문제에 있어, 부분적이 나마 하나의 참고자료로서 역할을 할 수 있으리라 기대된다. 한편, 본 연구는 몇 가지 한계점을 가지고 있다.
다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다. 따라서, 실질적인 시소러스 사전의 구축을 통해 제안한 방안의 실질적인 유효성을 제시할 필요가 있다. 덧붙여, 본 연구는 어디까지나 DB통합의 여러 가지 과 제들 중 일부분에 해당하는 것으로써, 실제 DB통합문제를 실 무적인 차원에서 효율적으로 처리하기 위해서는 또한 다음과 같은 다양한 과제가 아직까지 남아있다.
즉, 각각의 조직에 있어 필요에 따라 구축된 기존 DB의 구조를 유지시키면서 합리적으로 통합할 수 있는 방안에 대한 접근은 모색되지 않았다. 따라서, 업계 전체적인 관점에서 설계된 통합 DB가 모두가 만족할 만한 수준의 유용 한 정보를 포괄할 수 있을 지도 미지수이며, 또한 이를 위해서는 업계전체를 대상으로 한, 장기간에 걸친 발생 정보의 실태 파악이 무엇보다 중요하며, 결과적으로 막대한 시간과 재원이 필요하게 될 것이다.
간단한 예제를 토대로 제시하였다. 따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다. 특히, 본 예제에서와 같은 충돌개체를 포함한 수십개 이상의 개체로 구성된 실질적 인 복잡한 스키마간 통합문제일수록 제안된 계량적 식별법은 그 효과를 발휘할 수 있을 것으로 사료된다.
그러나, 이러한 접근은 대수학적 측면의 타당성을 확보하는데 문제점이 될 수 있다. 또한, 수립된 기존연구에서의 의미적 유사도 측정방안과 의 비교를 통해, 본 연구에서 제안한 식별법의 차별성 및 유효 성을 제시하지 못하여, 이러한 과정을 통해 제안한 방법의 재 검토와 보완의 절차가 필요할 것으로 사료된다. 다음으로, 본 연구에서는 유사도 식별을 위한 계량적 방안을 제안하는데 주 안점을 둔 나머지, 유사도 측정을 위해 필요한 실질적인 시소 러스사전의 구축은 이루어지지 않았으며, 기존 연구를 참조하는 것을 전제로 하고 있다.
둘째, 전반적인 충돌식별방안 이 수립되면, 이를 실제 문제에 적용하여 실질적인 스키마통 합을 수행해 봄으로써, 그 효과와 문제점을 파악하고 보완할 필요가 있다. 마지막으로, DB통합을 보다 효과적으로 지원하기 위해서는 제안한 계량화된 식별법을 실제 DB에 실장하는 방안이나 통합설계자를 지원하는 응용S/W의 구축이 필요하다. 특히, 제안한 방법론에 있어 임계값 및 유사도의 높고 낮 음의 문제는 다소 통합설계자의 주관적 판단과 식견을 필요로 한다.
덧붙여, 본 연구는 어디까지나 DB통합의 여러 가지 과 제들 중 일부분에 해당하는 것으로써, 실제 DB통합문제를 실 무적인 차원에서 효율적으로 처리하기 위해서는 또한 다음과 같은 다양한 과제가 아직까지 남아있다. 첫째, 본 연구에서는 Name Conflict 문제를 중심으로 DB통합의 충돌식 별방안을 수 립하였으나, 합리적인 스키마통합을 하기 위해서는 각 스키마 사이의 구조적인 측면의 충돌문제(Structural Conflict)도 고려 되어야 한다. 특히, 각 스키마의 주키(혹은 대체 키)사이에서 충돌이 발생하는 Key Conflict 문제와 같은 경우 합리적인 통 합을 저해하는 주요한 원인으로 작용하게 되므로, 여기에 대한 식별방안의 수립이 필요하다.
따라서, 제안한 계량적 인 방법은 실제 통합 DB설계 시 Name Conflict 식별에 있어 효율을 도모할 수 있을 것으로 기대된다. 특히, 본 예제에서와 같은 충돌개체를 포함한 수십개 이상의 개체로 구성된 실질적 인 복잡한 스키마간 통합문제일수록 제안된 계량적 식별법은 그 효과를 발휘할 수 있을 것으로 사료된다.
참고문헌 (13)
한국컨테이너 부두공단 (2004), 상해(대소양산) 및 북중국 항만의 발전이 미치는 영향과 대응방안 연구.
Batlni, C., Ceri, S., End Navathe, S.B.(1997), "Conceptual Database Design:An Entity-Relationship Approach", Benjamin/Cumings Publishing Company lnc.
Batini, C., Lenzerini, M., and Navathe, S.B.(1986), "A Comparative Analysis of Methodologies for Database Schema Integration", ACM Computing Surveys, Vol. 18, No.4, pp.650-663.
Fong, J., Karlapalem, K , Li, A., and Kwan, I. (1999), "Methodology of Schema Integration for New Database Application: A Practitioner's Approach", Journal of Database Management, Vol. 10. No.1, pp.3-18
IBC포럼 (2004), 동북아 물류중심지 개발전략: 순차적 실천방안 및 실행체계 구축.
Larson, J.A, Navathe, S.B., and Elrnasri, R.(1989), "A Theory of Attribute Equivalence in Databases with Application to Schema Integration", IEEE transaction on Software Engineering, Vol. 15, No.4, pp.449-463.
Song, W.W., Johannesson, P., and Bubenko, J. A. (1996 ), "Semantic Similarity Relations and Computa tion in Schema Integration", Data & Knowledge Engineering, 19, pp.65-97.
Tseng, F.S.C., Chiang, J. J., and Yang, W.P. (1998), "Integration of Relations with Conflicting Schema Structures in Heterogeneous Database Systems", Data & Knowledge Engineering, 27, pp.231-248
※ AI-Helper는 부적절한 답변을 할 수 있습니다.