[국내논문]데이터베이스 정규화 이론을 이용한 국민건강영양조사 중 다년도 식이조사 자료 정제 및 통합 Data Cleaning and Integration of Multi-year Dietary Survey in the Korea National Health and Nutrition Examination Survey (KNHANES) using Database Normalization Theory원문보기
Objectives: Since 1998, the Korea National Health and Nutrition Examination Survey (KNHANES) has been conducted in order to investigate the health and nutritional status of Koreans. The food intake data of individuals in the KNHANES has also been utilized as source dataset for risk assessment of che...
Objectives: Since 1998, the Korea National Health and Nutrition Examination Survey (KNHANES) has been conducted in order to investigate the health and nutritional status of Koreans. The food intake data of individuals in the KNHANES has also been utilized as source dataset for risk assessment of chemicals via food. To improve the reliability of intake estimation and prevent missing data for less-responded foods, the structure of integrated long-standing datasets is significant. However, it is difficult to merge multi-year survey datasets due to ineffective cleaning processes for handling extensive numbers of codes for each food item along with changes in dietary habits over time. Therefore, this study aims at 1) cleaning the process of abnormal data 2) generation of integrated long-standing raw data, and 3) contributing to the production of consistent dietary exposure factors. Methods: Codebooks, the guideline book, and raw intake data from KNHANES V and VI were used for analysis. The violation of the primary key constraint and the $1^{st}-3rd$ normal form in relational database theory were tested for the codebook and the structure of the raw data, respectively. Afterwards, the cleaning process was executed for the raw data by using these integrated codes. Results: Duplication of key records and abnormality in table structures were observed. However, after adjusting according to the suggested method above, the codes were corrected and integrated codes were newly created. Finally, we were able to clean the raw data provided by respondents to the KNHANES survey. Conclusion: The results of this study will contribute to the integration of the multi-year datasets and help improve the data production system by clarifying, testing, and verifying the primary key, integrity of the code, and primitive data structure according to the database normalization theory in the national health data.
Objectives: Since 1998, the Korea National Health and Nutrition Examination Survey (KNHANES) has been conducted in order to investigate the health and nutritional status of Koreans. The food intake data of individuals in the KNHANES has also been utilized as source dataset for risk assessment of chemicals via food. To improve the reliability of intake estimation and prevent missing data for less-responded foods, the structure of integrated long-standing datasets is significant. However, it is difficult to merge multi-year survey datasets due to ineffective cleaning processes for handling extensive numbers of codes for each food item along with changes in dietary habits over time. Therefore, this study aims at 1) cleaning the process of abnormal data 2) generation of integrated long-standing raw data, and 3) contributing to the production of consistent dietary exposure factors. Methods: Codebooks, the guideline book, and raw intake data from KNHANES V and VI were used for analysis. The violation of the primary key constraint and the $1^{st}-3rd$ normal form in relational database theory were tested for the codebook and the structure of the raw data, respectively. Afterwards, the cleaning process was executed for the raw data by using these integrated codes. Results: Duplication of key records and abnormality in table structures were observed. However, after adjusting according to the suggested method above, the codes were corrected and integrated codes were newly created. Finally, we were able to clean the raw data provided by respondents to the KNHANES survey. Conclusion: The results of this study will contribute to the integration of the multi-year datasets and help improve the data production system by clarifying, testing, and verifying the primary key, integrity of the code, and primitive data structure according to the database normalization theory in the national health data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구의 목적은 최근 6년(2010~2015년) 간의 기수 및 연차 별로 생산된 국건영 식이조사 자료에 대하여 데이터베이스 분야에서 기초적인 기본 키(Primary Key)의 고유 제약조건 준수여부 및 정규화 이론을 수단으로 자료 및 자료구조의 무결성에 대하여 진단하고자 한다. 또한 실제 기수 간 자료 정제를 실시함으로써 일관성 있는 국가 통합 식이노출계수 생산체계 확립에 기여하고자 한다.
본 연구는 국건영 자료에서 기본키를 명확화하고 데이터베이스 정규화 이론에 따른 코드 및 원시자료 구조의 무결성에 대하여 검정하고 고찰하였다. 따라서 본 연구결과는 향후 다년간의 국건영 데이터 셋을 병합한 식이노출계수 등 통합적인 통계분석 결과에 있어 정확하고 일관성 있는 산출 및 데이터베이스 기반 생산 체계 개선에 기여할 것으로 사료된다.
기본키는 주민등록번호와 같이 일반적으로 코드(code)로 부르는 값을 말한다. 본 연구에서는 국건영원시자료에서 가장 많이 참조되는 코드북의 식품코드 체계에 대하여 상기 기본키 제약조건 원칙의 충족여부를 검토하였다. Table 2에서와 같이 현재 국건영의 코드북 내 식품코드 체계는 세 개의 계층 구조(소분류-1차, 중분류-2차, 대분류-3차)로 구성되어있는데 기본키로써 적용될 수 있는 컬럼은 Table 2에서 1차 식품코드(N_FCODE) 및 1차 식품명(N_FNAME)이고, 2차와 3차 식품코드(N_FCODE2,3) 및 식품명칭(N_FNAME2,3)의 경우 각각 제1차 및 제2차의 중복을 제거한 후 상기 2가지 원칙에 대한 검토를 실시하였다.
본 연구의 목적은 최근 6년(2010~2015년) 간의 기수 및 연차 별로 생산된 국건영 식이조사 자료에 대하여 데이터베이스 분야에서 기초적인 기본 키(Primary Key)의 고유 제약조건 준수여부 및 정규화 이론을 수단으로 자료 및 자료구조의 무결성에 대하여 진단하고자 한다. 또한 실제 기수 간 자료 정제를 실시함으로써 일관성 있는 국가 통합 식이노출계수 생산체계 확립에 기여하고자 한다.
가설 설정
둘째, 기본키는 널(null)값을 포함시킬 수 없다.
제안 방법
1. 기본키의 제약조건 충족 및 위반 검정 결과기본키의 제약조건 충족여부를 확인하기 위해, 1~3차 식품코드 및 식품명에 해당하는 N_FCODE, N_FNAME, N_FCODE2, N_FNAME2, N_FCODE3 및 N_FNAME3 컬럼을 대상으로 검정을 실시하였다. 일단 모든 기본키에 NULL값은 전혀 없으므로 제약조건의 2번째 원칙은 충족하였다.
1단계, 5기 및 6기 단일 기수내 차수별 식품코드를 검정한 후 정제한다.
2단계, 1단계 정제된 식품코드를 최근 기수를 기준으로 병합하여 코드간의 상이점을 비교하고 정제하여 통합코드를 생성한다.
3단계, 정제 과정에서 문제가 되는 코드를 대상으로 정제 전 코드가 적용된 원시자료내의 레코드들에 대하여 최종 정제 작업을 진행한다.
본 연구에서는 국건영원시자료에서 가장 많이 참조되는 코드북의 식품코드 체계에 대하여 상기 기본키 제약조건 원칙의 충족여부를 검토하였다. Table 2에서와 같이 현재 국건영의 코드북 내 식품코드 체계는 세 개의 계층 구조(소분류-1차, 중분류-2차, 대분류-3차)로 구성되어있는데 기본키로써 적용될 수 있는 컬럼은 Table 2에서 1차 식품코드(N_FCODE) 및 1차 식품명(N_FNAME)이고, 2차와 3차 식품코드(N_FCODE2,3) 및 식품명칭(N_FNAME2,3)의 경우 각각 제1차 및 제2차의 중복을 제거한 후 상기 2가지 원칙에 대한 검토를 실시하였다. Table 3의 구조상 기본키는 N_FCODE로 보이며 N_FNAME은 그것을 설명하기 위한 변수로 보인다.
이를 위해서는 정규형 검정 결과를 토대로 정규형을 충족하는 코드북 및 원시자료의 새로운 관계형 데이터베이스 모델 개발이 요구된다. 구체적으로 식품기술의 경우 식품의 부위, 제조사, 가공방식 등 다양한 관점(facet)를 고려한 컬럼 설계함으로써 도메인의 원자성을 해결하고 및 테이블들간의 컬럼 재구성을 통한 정규형을 충족시키는 방향으로의 모델 재편을 제안한다.
식품은 그 특성상 식습관이 변화함에 따라 기존 식품을 섭취하지 않을 가능성과 신규 식품의 생성 가능성을 동시에 가지고 있다. 따라서 이와 같은 식습관의 변화는 조사 대상 식품의 목록 및 코드의 변화의 요인이 되므로 5기 및 6기 각 3차년의 총 6년간 자료에 대하여 앞 절에서 기술한 방법에 따라 검정하고 다음과 같은 절차로 정제를 실시하였다(Fig. 2).
통상적인 관계형 데이터 모델 설계에서는 제3정규형까지 실시하고 있다. 따라서, 본 연구에서는 제3정규형까지의 관점에서 HNYR_24RC(YR: 10~15년) 코드북 및 원시자료의 정규형 충족 및 위반 여부를 분석하였고 세부적으로 테이블 및 변수들을 검토하였다(Table 2, 3).
5기와 6기간 코드북의 차이는 국건영이 연차적으로 진행됨에 따라 코드 및 식품명이 정립되어 가는 과정으로 간주할 수 있다. 또한 이 같은 식품 목록의 차이는 한국인의 식습관 변화 및 식품 섭취 트렌드의 반영으로 볼 수 있어 통합코드 생성은 가장 최근 기수인 6기의 코드북 체계를 기준으로 진행하였다.
그리고 N_FNAME2를 기준으로 검정한 결과, 총 46건 중 23건을 제외한 총 23건이 제약조건 위반임을 확인하였고 N_FNAME의 정제 방법과 마찬가지로 중복되는 항목에 대해 각각 대표 1개만 그 값을 유지하도록 보정하였다. 또한, N_FCODE2를 기준으로 검정한 결과, 총 74건 중 27건을 제외한 총 47건이 제약조건 위반임을 확인하였고 중복되는 항목에 대해 각각 대표 N_FNAME 1개만 그 값을 유지하고 국건영 코드체계에 존재하지 않는 코드체계로 N_FCODE 2를 부여하여 보정하였다(Fig. 3).
이러한 문제 해결을 위해 기본키의 제약조건 및 데이터베이스의 정규화 이론을 기반으로 정제 프로세스를 확립하였고 기존 코드에 대한정제 작업을 진행하여 최종적으로 기수 통합 코드를 생성했다. 또한, 기존 원시 자료내에 참조된 코드들과 본 연구에서 생성한 통합 코드를 활용하여 원시자료에 대한 정제를 진행하였고 기수 통합 식품코드 체계 및 데이터 셋을 생산하였다.
본 연구에서는 수집한 개인별 24시 회상조사 자료를 정제 대상 범위로 하여 연차 별 이용 지침서를 이용해 관련 변수들을 분석했다. 또한, 엑셀 파일 형태의 코드북 개별파일들을 하나의 파일로 통합하고 원시 자료는 Oracle 11g 관계형 데이터베이스 관리 시스템에 연차 별로 데이터베이스를 구축하여 정제 준비를 진행하였다.
본 연구는 국건영의 원시자료 중 제5기와 제6기의 식품섭취조사의 코드북, 이용 지침서 및 원시자료에 대한 분석 및 정제를 진행하였다. 수집한 데이터를 대상으로 기본키의 제약조건 충족 여부와 데이터베이스 정규화 이론에 따른 정규형 충족 여부에 대한 검정을 진행한 결과, 고유키의 고유성 제한조건을 충족하지 못한 중복 항목이 확인되었다.
국건영을 비롯한 설문조사 기반의 자료는 원시자료에서 참조하는 코딩체계를 기술한 코드북과 그 내부에 정의된 코드값에 따라 원시 데이터가 생성된다. 본 연구에서는 수집한 개인별 24시 회상조사 자료를 정제 대상 범위로 하여 연차 별 이용 지침서를 이용해 관련 변수들을 분석했다. 또한, 엑셀 파일 형태의 코드북 개별파일들을 하나의 파일로 통합하고 원시 자료는 Oracle 11g 관계형 데이터베이스 관리 시스템에 연차 별로 데이터베이스를 구축하여 정제 준비를 진행하였다.
특히, 데이터베이스 내 정규형 충족 여부에서는 N_FCODE와 N_FNAME 모두 도메인의 혼용으로 제1정규형의 위반이 확인되었다. 이러한 문제 해결을 위해 기본키의 제약조건 및 데이터베이스의 정규화 이론을 기반으로 정제 프로세스를 확립하였고 기존 코드에 대한정제 작업을 진행하여 최종적으로 기수 통합 코드를 생성했다. 또한, 기존 원시 자료내에 참조된 코드들과 본 연구에서 생성한 통합 코드를 활용하여 원시자료에 대한 정제를 진행하였고 기수 통합 식품코드 체계 및 데이터 셋을 생산하였다.
원시자료의 데이터 분석을 통해 국건영의 식품 코드에서 중복 코드 부여 등 정규화 이론을 위반한 경우가 있었다. 이로 인해 정확한 섭취량 산출이 어려울 수 있다고 판단되어 이 같은 문제의 해결을 지원하기 위해 제5, 6기의 코드를 통합한 코드를 생성하였다.
대상 데이터
국건영 홈페이지1)에서 제공하고 있는 제5기(2010-2012)와 제6기(2013-2015)의 코드북, 원시자료 및 이용지침서를 다운로드 하여 수집하였다. 해당 기간 동안 국건영의 조사 대상자 수는 Table 1에 기술하였다.
위와 같은 기준에 따른 통합 코드 생성 결과 최종적으로 1차 5,421개, 2차 1,140개 및 3차 839개의 통합코드를 생성했다(Fig. 4).
성능/효과
4) 관계형 데이터베이스 모델은 집합론을 기초로 만들어진 모델로써 엑셀과 같은 파일시스템이 갖는 데이터 불일치성을 개선하고자 제안되었으며, 현재 Oracle (ORACLE) 및 SQL-Server (Microsoft) 등 상용 관계형 데이터베이스 관리 프로그램(relational database management system)에서 채택하고 있다. 그 중 정규화 이론은 관계형 데이터베이스의 핵심 원리 중 하나로 자료의 중복을 방지함으로써 자료의 이상현상 (Anomalies), 즉 일관성 없는 자료 입력, 검색 및 통계자료의 출력을 방지함으로써 자료의 무결성(Integrity)을 지원한다.
먼저 N_FNAME기준으로 검정한 결과, 총 31건 중 13건을 제외한 총 18건이 제약조건 위반임을 확인하였고 중복되는 항목에 대해 각각 대표 N_FNAME 1개만 그 값을 유지하도록 보정하였다. 그리고 N_FNAME2를 기준으로 검정한 결과, 총 46건 중 23건을 제외한 총 23건이 제약조건 위반임을 확인하였고 N_FNAME의 정제 방법과 마찬가지로 중복되는 항목에 대해 각각 대표 1개만 그 값을 유지하도록 보정하였다. 또한, N_FCODE2를 기준으로 검정한 결과, 총 74건 중 27건을 제외한 총 47건이 제약조건 위반임을 확인하였고 중복되는 항목에 대해 각각 대표 N_FNAME 1개만 그 값을 유지하고 국건영 코드체계에 존재하지 않는 코드체계로 N_FCODE 2를 부여하여 보정하였다(Fig.
마지막으로, 5기와 6기 전체에 대한 비교를 진행한 결과, N_FCODE를 기준으로 비교한 경우에는 N_FCODE가 약 300개 이상의 차이를 보였고, N_FNAME을 기준으로 비교한 경우에는 N_FNAME2가 약 70개, N_FNAME3는 약 50개 차이를 보였다.
2의 예시와 같은 규칙으로 정제작업을 실시하였다. 먼저 N_FNAME기준으로 검정한 결과, 총 31건 중 13건을 제외한 총 18건이 제약조건 위반임을 확인하였고 중복되는 항목에 대해 각각 대표 N_FNAME 1개만 그 값을 유지하도록 보정하였다. 그리고 N_FNAME2를 기준으로 검정한 결과, 총 46건 중 23건을 제외한 총 23건이 제약조건 위반임을 확인하였고 N_FNAME의 정제 방법과 마찬가지로 중복되는 항목에 대해 각각 대표 1개만 그 값을 유지하도록 보정하였다.
본 연구는 국건영의 원시자료 중 제5기와 제6기의 식품섭취조사의 코드북, 이용 지침서 및 원시자료에 대한 분석 및 정제를 진행하였다. 수집한 데이터를 대상으로 기본키의 제약조건 충족 여부와 데이터베이스 정규화 이론에 따른 정규형 충족 여부에 대한 검정을 진행한 결과, 고유키의 고유성 제한조건을 충족하지 못한 중복 항목이 확인되었다. 특히, 데이터베이스 내 정규형 충족 여부에서는 N_FCODE와 N_FNAME 모두 도메인의 혼용으로 제1정규형의 위반이 확인되었다.
수집한 데이터를 대상으로 기본키의 제약조건 충족 여부와 데이터베이스 정규화 이론에 따른 정규형 충족 여부에 대한 검정을 진행한 결과, 고유키의 고유성 제한조건을 충족하지 못한 중복 항목이 확인되었다. 특히, 데이터베이스 내 정규형 충족 여부에서는 N_FCODE와 N_FNAME 모두 도메인의 혼용으로 제1정규형의 위반이 확인되었다. 이러한 문제 해결을 위해 기본키의 제약조건 및 데이터베이스의 정규화 이론을 기반으로 정제 프로세스를 확립하였고 기존 코드에 대한정제 작업을 진행하여 최종적으로 기수 통합 코드를 생성했다.
후속연구
본 연구는 국건영 자료에서 기본키를 명확화하고 데이터베이스 정규화 이론에 따른 코드 및 원시자료 구조의 무결성에 대하여 검정하고 고찰하였다. 따라서 본 연구결과는 향후 다년간의 국건영 데이터 셋을 병합한 식이노출계수 등 통합적인 통계분석 결과에 있어 정확하고 일관성 있는 산출 및 데이터베이스 기반 생산 체계 개선에 기여할 것으로 사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
관계형 데이터베이스 모델이란?
한편 컴퓨터과학의 한 분야인 데이터베이스는 대량의 자료를 입력, 저장 및 검색할 수 있는 효율적인 수단을 제공하기 위한 학문으로 현재 가장 범용적으로 활용되고 있는 데이터베이스는 관계형 데이터베이스 모델이다. 4) 관계형 데이터베이스 모델은 집합론을 기초로 만들어진 모델로써 엑셀과 같은 파일시스템이 갖는 데이터 불일치성을 개선하고자 제안되었으며, 현재 Oracle (ORACLE) 및 SQL-Server(Microsoft) 등 상용 관계형 데이터베이스 관리 프로그램(relational database management system)에서 채택하고 있다. 그 중 정규화 이론은 관계형 데이터베이스의 핵심 원리 중 하나로 자료의 중복을 방지함으로써 자료의 이상현상 (Anomalies), 즉 일관성 없는 자료 입력, 검색 및 통계자료의 출력을 방지함으로써 자료의 무결성(Integrity)을 지원한다.
정규화 이론이란?
4) 관계형 데이터베이스 모델은 집합론을 기초로 만들어진 모델로써 엑셀과 같은 파일시스템이 갖는 데이터 불일치성을 개선하고자 제안되었으며, 현재 Oracle (ORACLE) 및 SQL-Server(Microsoft) 등 상용 관계형 데이터베이스 관리 프로그램(relational database management system)에서 채택하고 있다. 그 중 정규화 이론은 관계형 데이터베이스의 핵심 원리 중 하나로 자료의 중복을 방지함으로써 자료의 이상현상 (Anomalies), 즉 일관성 없는 자료 입력, 검색 및 통계자료의 출력을 방지함으로써 자료의 무결성(Integrity)을 지원한다.4)
1NF란?
데이터베이스 정규화 방법론은 크게 제1정규형(1NF, the First normal form), 제2정규형(2NF, the Second normal form), 제3정규형(3NF, the Third normal form), 보이스-코드 정규화(BCNF, the BoyceCodd normal form), 제4정규형(4NF, the Fourth normal form) 및 제5정규형(5NF, the Fifth normal form) 등이 있으며 기술한 순서에 따라 단계적으로심화되어 수행된다. 제1정규형이란 테이블의 도메인이 원자 값만으로 이루어진 관계, 제2정규형은 제1 정규형의 요건을 충족하면서, 모든 컬럼이 기본키에 완전히 기능적으로 종속된 형태를 말하고, 제3정규 형은 제2정규형이면서, 기본키가 아닌 컬럼 간에는 완전히 기능적으로 종속되지 않은 형태이다4. 또한 각각의 정규형의 요건을 벗어날 경우 이를 정규형위반으로 표현한다.
참고문헌 (5)
Korea Centers for Disease Control & Prevention, Korea National Health & Nutrition Examination Survey. Available: https://knhanes.cdc.go.kr/knhanes/eng/index.do [accessed 12 July 2017].
Korea Food & Drug Administration, Study on Extension of Dietary Exposure Assessment System - On Dietary Intake Database and Food & Nutrient Content Database -. Available: https://rnd.mfds.go.kr/ [accessed 12 July 2017].
Choi HS, Oh HJ, Choi H, Choi WH, Kim JG, Kim KM, et al. Vitamin D Insufficiency in Korea-A Greater Threat to Younger Generation: The Korea National Health and Nutrition Examination Survey (KNHANES) 2008. 2011; 96(3): 643-651.
Codd EF, Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks, Research Report, IBM, 1969.
Shin SK, Sanders GL. Denormalization strategies for data retrieval from data warehouses. Decision Support Systems. 2006; 42(1): 267-282.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.