[논문]연구지원 데이터베이스에서 최적화된 데이터모델링을 통한 데이터 비만도 개선에 관한 연구

김희완

doi:10.7236/jiibc.2018.18.1.119

문제 정의

데이터베이스 시스템에서 데이터 품질제고를 위해서는 데이터의 정확성, 완전성 및 일관성을 보장하여야 한다. 따라서 본 연구에서는 실제 대학 연구지원 데이터베이스를 대상으로 평균 데이터 중복률을 조사하였다. 또한 최적화된 데이터모델링을 통한 데이터베이스 설계를 통하여 데이터 비만도가 어떻게 개선되었는지를 도출하였다.
데이터모델의 균형이 파괴되면 데이터 질의에 대한 응답 속도에 영향을 미치며, 데이터 비만도가 높아지게 된다. 본 논문에서는 개체 및 업무 중심으로 설계된 연구지원 데이터베이스를 설계의 균형을 유지하고 효율적인 성능을 지원하는 정방형 구조로 설계하고자 한다.
본 논문에서는 정방형 구조를 가진 최적화된 데이터 모델링을 통하여 품질 좋은 데이터베이스를 설계하였다. 또한, 현행 데이터베이스와 새롭게 설계된 데이터베이스의 평균 데이터 비만도를 비교하고 분석하였다.
업무기술서 조차 먼저 작성하지 않고 연구지원관련 업무에 필요할 만한 데이터만 테이블 형태를 갖춰 모아놓고 사용하고 있었기 때문에 데이터모델링의 결과물인 ERD가 부재했다. 본 논문에서는 현재의 테이블을 구성하고 있는 데이터를 가지고 연구지원팀의 업무를 파악하여 업무기술서를 작성했다.
본 연구에서는 7개 기준 중 표현하고자 하는 실세계의 중요한 객체들과 속성들이 모두 담겨있어야 하는 점이 관건인 데이터 완전성에 대해 살펴보고자 한다. DB데이터의 완전성은 데이터 구조(structure)의 완전성, 데이터 값(value)의 완전성, 데이터 표현(representation)의 완전성 세 가지로 나누어진다^[13] .

가설 설정

가정 1(업무의 종류): 대상 업무는 현재 대학 연구지원 시스템에서 운영하고 있는 업무라고 가정한다.
가정 2(설계방법론): 3단계 데이터모델링 단계 중 논리적 모델링 단계로 개체관계도를 작성하는 것으로 한다.
가정 3(개체관계도의 표현): 정보공학방법론^[14] 이나 바커 표기법^[15] 에 의하지 않고 Chen 방식^[16] 을사용하여 표현한다.
가정 4(업계관행 수용): 응답시간을 줄이고 성능향상을 위하여 물리적 설계는 테이블 통합으로 된다고 가정한다. 업무기술서 작성에서 데이터모델링 과정을 거쳐 완성된 데이터베이스 설계도에 따라 데이터 비만도를 측정하며, 업계의 관행적 설계방식에 따른다.
가정 5(데이터베이스 관리 시스템의 종류): 설계된 정보시스템은 가장 보편적으로 사용하고 있는 관계형 데이터베이스관리시스템(RDBMS)으로 구축된다.

제안 방법

이는 데이터 중복이나 널 값의 입력허용으로 기인하게 되었다. 데이터 비만도가 과다하게 나타나는 방사형 및 업무 중심의 고립형 설계에서 객체(데이터)와 객체간의 관계 중심의 데이터모델링을 통한 정방형 설계를 함으로 데이터 질의 경로가 선명하게 가시화되고, 데이터베이스의 확장성과 정확성을 보장하도록 데이터베이스를 설계하고자 한다.
데이터 표현의 완전성이란 가공된 데이터가 원시 데이터의 내용(정보)을 완전하게 표현하고 있는지를 의미 한다. 데이터의 분류나 데이터의 재구성, 혹은 데이터의 재배열된 후 데이터의 내용이 원시 데이터를 일부 누락 하고 있는지, 혹은 추출된 키워드는 주제 영역의 개념을 설명할 수 있는지, 또는 가공된 데이터가 원시 데이터의 내용을 전부 포함하고 있는지의 여부를 분석하여 데이터 표현의 완전성을 평가한다[12].
따라서 본 연구에서는 실제 대학 연구지원 데이터베이스를 대상으로 평균 데이터 중복률을 조사하였다. 또한 최적화된 데이터모델링을 통한 데이터베이스 설계를 통하여 데이터 비만도가 어떻게 개선되었는지를 도출하였다.
새로운 연구지원 데이터베이스에서는 여러 테이블에서 동시에 속성 값을 관리하지 않고, 객체 중심으로 테이블을 정의하였기 때문에 한 정보(예를 들어, 연구원 정보, 과제 정보, 연구소 정보 등)은 하나의 테이블에서 관리함으로 데이터의 중복은 허용되지 않는다. 또한, 제3정규형을 만족하도록 설계되었기 때문에 속성 값의 변경으로 데이터 이상 현상이 유발되지 않도록 설계하였다. 그러므로, 기존의 연구지원 데이터베이스에서 야기된 널 값 문제와 데이터의 중복 문제는 해결되었다.
본 논문에서는 정방형 구조를 가진 최적화된 데이터 모델링을 통하여 품질 좋은 데이터베이스를 설계하였다. 또한, 현행 데이터베이스와 새롭게 설계된 데이터베이스의 평균 데이터 비만도를 비교하고 분석하였다. 현행 연구지원 데이터베이스에서 업무위주로 설계된 데이터베이스가 얼마나 많은 데이터의 중복이 존재할 수밖에 없었는지를 알 수 있었다.
본 논문에서는 기존의 데이터베이스 설계에 대해 문제점을 도출하여 새로운 데이터베이스 설계도를 비교하고 시스템 구축 설계를 위해 반드시 필요한 몇 가지 가정을 도입하기로 한다.
새로운 업무기술서는 업무 매뉴얼, 업무 담당자와의 인터뷰를 통해 업무를 분석한 후 작성하였다. 연구지원 업무는 9가지 유형의 행위로 구성되어 있다.
연구업적 등록 시 연구원정보는 별도의 연구원 테이블에 입력하고, 연구업적 등록 시에 평가년도, 연구책임 구분코드, 총참여자수, 논문발표정보, 등재지정보를 입력 하도록 설계하였다. 연구원 테이블과 연구업적 테이블의 관계를 1:다 관계로 설정하여 필요데이터는 누락되거나 널 값을 최소화하도록 데이터베이스를 설계하여 필요데이터 누락문제를 해결하였다.
3장에서 살펴본 바와 같이 현재 사용 중인 연구관리 테이블은 문제점들을 가지고 있기 때문에 새로운 데이터베이스를 설계하고자 한다. 우선 현업 담당자의 인터뷰 및 업무기술서를 통하여 업무를 파악하고 분석한 후 업무기술서를 재작성하였다.

대상 데이터

(1. 연구지원 대상) 본 연구지원 시스템에서 관리하는 대상은 연구원 정보, 과제 정보, 연구소 정보, 기자재 정보, 예산 정보에 국한하며, 그 외에 필요한 정보나 코드성 객체는 학사행정시스템에서 공통적으로 사용하는 정보를 사용한다.
즉 각각의 응용 프로그램에 해당하는 테이블이 존재하고, 테이블들 간의 관계는 관계로만 연결되어 있는 구조로 되어 있다. 연구업적, 업적내역, 연구소실적, 과제내역, 연구소 등의 10개의 테이블들로 구성되어 있다.
그림 2의 Student_Name 테이블에서는 Studnet_ID가 기본키이고, 그림 3에서의 Student_TelephoneNumber 테이블에서는 Student_ID와 Serial_Number가 복합키이면서 기본키이다. 하나의 Student 테이블을 두 개의 테이블로 분해한 후에야 널 값의 삽입으로 인한 문제점을 해결하였으며, 테이블내의 모든 컬럼의 값이 원자값을 가지는 제1정규형을 만족하는 데이터베이스가 된다.

이론/모형

정보들을 수집하고 분석하기 위해서는 체계적으로 데이터베이스를 구성^[10]하여야 하며, 데이터베이스의 구성은 논리데이터모델에서 개체(entity)와 개체 간의 관계를 형성해주는 관계(relationship)로 구성되어 있으며, ERD를 구성하는 ERD 편집도구^[11]들을 사용하여 설계한다. 데이터모델의 균형이 파괴되면 데이터 질의에 대한 응답 속도에 영향을 미치며, 데이터 비만도가 높아지게 된다.

성능/효과

데이터 비만도가 과다하게 나타나는 방사형 설계나 업무중심의 고립형 설계에서 객체(데이터)와 객체간의 관계 중심의 정방형 구조로 설계함으로써 데이터 검색 경로가 선명하게 되었다. 그 결과 기존의 데이터베이스에서의 비만도는 57.2 %였으나, 제안한 새로운 데이터베이스에서는 16.7 %로 나타나 데이터 비만도에서 40.5%나 개선되었다.
연구원 정보외의 과제정보 및 연구비 관련 정보에 해당하는 속성들에는 일단 널 값을 입력하여야 하였다. 그러나, 새로운 연구지원 테이블에서는 연구원 테이블과 과제 테이블, 연구비 테이블을 별도로 정의하여 구성함으로 각 객체별 데이터를 별도로 관리하게 함으로 널 값 문제는 해결되었다.
데이터 중심으로 데이터모델링을 설계함으로 객체는 별도의 테이블로 구분하였고, 객체와 객체간의 관계는 1:다 관계로 맺어서 관계 테이블을 구성함으로 필요데이터의 누락문제는 완전하게 해결되었다고 할 수 있다.
둘째로 연구소별 연구실적 등록 시에 과제정보만을 등록하고자 할 경우에도 연구실적에 해당하는 속성들(과제시작일자, 과제종료일자, 공동연구원수, 보조연구원수, 이하 속성들)은 널 값을 가질 수밖에 없다.
둘째로 연구소별 연구실적 등록 시에도 연구소 테이블과 연구소연구실적 테이블을 별도의 테이블로 설계함으로 연구실적에 해당하는 속성들(과제시작일자, 과제종료일자, 공동연구원수, 보조연구원수, 이하 속성들)은 필요할 때 데이터를 입력할 수 있으므로 널 값 문제를 해결 하였다.
또한, 연구소별 과제실적을 관리하고자 할 때에도 연구소 정보는 연구소 테이블에 입력하고, 과제에 대한 내용은 연구업적 테이블이나 연구소실적 테이블에 별도로 입력하게 함으로 필요데이터의 누락 문제는 해결되었다.
DB품질은 DB의 바람직한 정도 또는 우수성이라고 정의되며, DB 품질기준은 데이터 품질과 서비스 품질로 양분하여 접근하고 있다. 모두 7개 기준 중 DB데이터 품질을 구성하고 있는 요소는 정확성, 완전성, 현행성, 일관성 이다. DB서비스 품질은 검색성, 사용 용이성, 그리고 사용자 지원성으로 구성되어 있다^[13] .
즉, 새로운 연구지원 데이터베이스의 중복률이 현저히 감소되었다. 운영 중인 제1 정규형인 데이터베이스를 제3정규형을 만족하는 데이터베이스로 변환함으로써 데이터의 중복율을 최소화하고 데이터의 저장공간을 최적화할 수 있었다. 또한 외래키를 사용함으로써 갱신 이상현상(update anomalies)을 최소화할 수 있었다.
현행 연구지원 데이터베이스에서 업무위주로 설계된 데이터베이스가 얼마나 많은 데이터의 중복이 존재할 수밖에 없었는지를 알 수 있었다. 이러한 설계의 폐단으로 데이터의 과다한 중복과 더불어 많은 컬럼에서 널 값이 존재할 수 있음을 알았다. 데이터 비만도가 과다하게 나타나는 방사형 설계나 업무중심의 고립형 설계에서 객체(데이터)와 객체간의 관계 중심의 정방형 구조로 설계함으로써 데이터 검색 경로가 선명하게 되었다.
중복율이 최적 중복율 15%를 기준일 때, 현행 연구지원 데이터베이스가 새로운 연구지원 데이터베이스보다 42% 과다하고 있었다는 것은 현행 연구지원 데이터베이스가 보유하고 있는 데이터 중 42%를 줄이더라도 연구지원 데이터베이스는 문제없이 더 효율적으로 운영될 수 있다고 할 수 있다. 또한, 불필요 중복 데이터의 제거함으로써 질의에 대한 응답속도의 향상을 기대할 수 있고, 최적의 데이터베이스 상태를 유지할 수 있게 된다.
5 % 차이가 남을 알 수 있었다. 즉, 새로운 연구지원 데이터베이스의 중복률이 현저히 감소되었다. 운영 중인 제1 정규형인 데이터베이스를 제3정규형을 만족하는 데이터베이스로 변환함으로써 데이터의 중복율을 최소화하고 데이터의 저장공간을 최적화할 수 있었다.
첫째로 연구원이 단순히 연구원 정보만을 등록하고자할 경우에는 연구원 정보(속성)들만 등록할 수가 없다. 연구원 정보외의 과제정보 및 연구비 관련 정보에 해당 하는 속성들에는 일단 널 값을 입력하고 등록할 수 있다.

후속연구

본 연구를 통하여 데이터모델링은 담당자의 업무 중심이 아니라 데이터 중심으로 설계되고 개발되어야 할 것이다. 데이터베이스 품질은 최적화된 데이터모델링을 통한 정방형 구조로 데이터 비만도를 최소화하고, 데이터베이스의 확장성과 정확성을 동시에 보장하도록 설계되어야 할 것이다.
본 연구에서의 하나의 연구지원 데이터베이스를 선택하여 제안한 연구지원 데이터베이스의 비만도를 비교 분석하여 데이터 비만도로 일반화하기에는 한계점이 있다. 본 연구를 통하여 데이터모델링은 담당자의 업무 중심이 아니라 데이터 중심으로 설계되고 개발되어야 할 것이다. 데이터베이스 품질은 최적화된 데이터모델링을 통한 정방형 구조로 데이터 비만도를 최소화하고, 데이터베이스의 확장성과 정확성을 동시에 보장하도록 설계되어야 할 것이다.
본 연구에서의 하나의 연구지원 데이터베이스를 선택하여 제안한 연구지원 데이터베이스의 비만도를 비교 분석하여 데이터 비만도로 일반화하기에는 한계점이 있다. 본 연구를 통하여 데이터모델링은 담당자의 업무 중심이 아니라 데이터 중심으로 설계되고 개발되어야 할 것이다.

핵심어	질문	논문에서 추출한 답변
	데이터 구조의 완전성이란 무엇인가?	데이터 구조의 완전성이란 데이터베이스의 데이터가 실세계의 중요한 객체그룹을 모두 포함하고 있는지, 또한 객체에 관한 중요한 속성들을 모두 담고 있는지를 분석함으로써 데이터베이스 품질을 평가하는 도구이다. 데이터 구조가 완전하지 못하다 함은 사용자의 정보요구 분석단계, 데이터모델링 단계, 혹은 데이터베이스의 논리 설계 단계에서 치명적 결함이 발생했음을 의미하며, 이러한 결함은 데이터베이스 품질뿐 아니라 데이터베이스 존재가치에 까지 영향을 줄 수 있다.
	데이터 모델링을 기업의 전사적 데이터 지도를 만드는 일련의 방법론이라 말하는 이유는 무엇인가?	데이터 모델링이란 기업의 ‘전사적 데이터 지도[8][9]’를 만드는 일련의 방법론을 말한다. 많은 양의 데이터를 효과적으로 운용하기 위해 불가피한 중복은 예외인 상태에서 데이터 중복을 최대한 제거하고 속도와 질을 모두 만족시키는 데이터 지도만이 현업의 데이터 무결성을 보장 하는 동시에 정보시스템의 응답 속도 및 서비스 품질을 향상시킬 수 있기 때문이다.
	데이터모델의 균형이 파괴되면 어떠한 영향을 끼치는가?	정보들을 수집하고 분석하기 위해서는 체계적으로 데이터베이스를 구성[10]하여야 하며, 데이터베이스의 구성은 논리데이터모델에서 개체(entity)와 개체 간의 관계를 형성해주는 관계(relationship)로 구성되어 있으며, ERD 를 구성하는 ERD 편집도구[11]들을 사용하여 설계한다. 데이터모델의 균형이 파괴되면 데이터 질의에 대한 응답 속도에 영향을 미치며, 데이터 비만도가 높아지게 된다. 본 논문에서는 개체 및 업무 중심으로 설계된 연구지원 데이터베이스를 설계의 균형을 유지하고 효율적인 성능을 지원하는 정방형 구조로 설계하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

연구지원 데이터베이스에서 최적화된 데이터모델링을 통한 데이터 비만도 개선에 관한 연구
A Study on Reducing Data Obesity through Optimized Data Modeling in Research Support Database 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

연구지원 데이터베이스에서 최적화된 데이터모델링을 통한 데이터 비만도 개선에 관한 연구 A Study on Reducing Data Obesity through Optimized Data Modeling in Research Support Database 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김희완 (55)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연구지원 데이터베이스에서 최적화된 데이터모델링을 통한 데이터 비만도 개선에 관한 연구
A Study on Reducing Data Obesity through Optimized Data Modeling in Research Support Database 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper