[논문]통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정

전희주; 이현지; 연규필; 김동례

doi:10.5392/jkca.2019.19.05.553

통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정
Data Quality Measurement on a De-identified Data Set Based on Statistical Modeling 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.19 no.5, 2019년, pp.553 - 561

전희주 (동덕여자대학교) , 이현지 (동국대학교) , 연규필 (호서대학교) , 김동례 ((주)이지서티)

초록
AI-Helper

본 연구에서는 개인정보 비식별화 데이터의 통계적 유용성에 대한 품질 측정 방안에 대하여 통계 모형화에 따른 예측 정확도 측면에서 고찰하였다. 4차 산업혁명 시대에서 정보통신기술을 통한 혁신에는 반드시 빅데이터의 효과적인 활용이 필수적이지만, 개인정보 이슈는 적극적인 빅데이터 활용에 제약이 되고 있다. 이를 해결하기 위해 비식별화 가이드라인이 제정되었으며 다양한 개인정보 비식별화 방법이 활용되면서 개인정보의 실질적인 재식별 가능성은 매우 낮아졌다. 반면에 강력한 비식별화는 데이터의 유용성을 떨어뜨리는 부작용이 나타날 수 있다. 그 동안은 재식별 불가능한 비식별화 방법이 연구의 주를 이루어 왔다면 본 연구에서는 대표적인 비식별 방법인 KLT 모형에 의한 비식별화 데이터에 대한 통계적 유용성 측면의 품질 측정에 대하여 연구하였다. 비식별화 데이터에 대한 통계적 예측모형의 정확도에 기반하여 비식별화 된 데이터의 통계적 유용성이 어느 정도 훼손되는지에 대하여 사례분석을 수행하였다. 또한, 비식별 자료에 어느 정도의 비식별화 되지 않은 자료가 추가되어야 예측모형의 정확도를 회복하는 지를 살펴봄으로써 비식별화된 자료의 데이터 유용성 정도에 대한 새로운 측정지표를 제안하였다.

Abstract ▼ AI-Helper

In this study, the method of quality measurement for the statistical usefulness of de-identified data was examined in terms of prediction accuracy by statistical modeling. In the era of the 4th industrial revolution, effective use of big data is essential to innovation through information and communication technology, but personal information issues are constrained to actively utilize big data. In order to solve this problem, de-identification guidelines have been established and the possibility of actual re-identification of personal information has become very low due to the utilization of various de-identification methods. On the other hand, strong de-identification can have side effects that degrade the usefulness of the data. We have studied the quality of statistical usefulness of the de-identified data by KLT model which is a representative de-identification method, A case study was conducted to see how statistical accuracy of prediction is degraded by de-identification. We also proposed a new measure of data usefulness of the de-identified data by quantifying how much data is added to the de-identified data to restore the accuracy of the predictive model.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 예측모형 성능 비교 기반의 비식별화 데이터 품질 측정 방안을 제안하고 사례분석 결과를 제시했다는데 의미가 있다. 다만, 다양한 비식별화 방법론에 따른 데이터의 유용성 측정 비교연구는 다루지 못했다는 한계가 있으며 이는 향후 추가적인 연구 과제로 진행하고자 한다
본 연구에서는 비식별화 데이터의 유용성에 대하여 예측 모형의 성능지표를 이용하여 검증하는 방안을 제시하였다. 비식별화된 자료를 포함하는 전체 데이터의 유용성은 비식별 자료를 제외했을 때의 모델링 결과를 토대로 판단할 수 있고, 비식별 처리된 자료만의 유용성 검증은 비식별 무관 자료를 훈련용 자료에 추가해가면서 모형 성능 측면에서 비식별 처리의 영향력이 미미 해지는 단계를 파악함으로써 이루어질 수 있음을 사례 분석으로 보여주었다.
비식별화 데이터 유용성에 대한 기존 연구가 원본데이터와 비식별데이터 간의 상이한 정도를 측정하는 것이었다면, 본 연구에서는 비식별화 데이터의 유용성을 통계모형 구축을 통한 예측 정확도 측면에서 살펴보았다. 비식별 전후 데이터에 기반한 통계 예측모형을 비교 분석하여 비식별화 데이터의 데이터 품질을 평가하는 방법을 제시하고자 한다.
비식별화 데이터 유용성에 대한 기존 연구가 원본데이터와 비식별데이터 간의 상이한 정도를 측정하는 것이었다면, 본 연구에서는 비식별화 데이터의 유용성을 통계모형 구축을 통한 예측 정확도 측면에서 살펴보았다. 비식별 전후 데이터에 기반한 통계 예측모형을 비교 분석하여 비식별화 데이터의 데이터 품질을 평가하는 방법을 제시하고자 한다.
)은 민감정보로 간주하여 비식별 조치를 적용하였다. 이는 실제 민감정보라기 보다는 본 연구 목적상 연속형 자료의 비식별화가 예측모형 구축에 미치는 영향을 알아보기 위하여 설정한 것이다. 모든 관측치가 구간화되어 [0:295], [100:104], .

가설 설정

셋째, 비식별화 수행단계로서 선택한 비식별화 알고리즘이 구현되는 프로그램을 수행하는 단계이다. 넷째, 비식별화 데이터에 대한 데이터 품질 평가 단계이다. 평가 결과에 따라 두 번째 단계로 이동하여 프라이버시 모델에서의 안전도 수준을 다시 세팅할 필요가 있다.

제안 방법

둘째, 비식별 처리된 DB1만을 훈련용 자료(training data)로 사용하는 방안이다. DB1의 비식별 전 참값을 이용하여 구축된 예측모형과 비식별 처리 후의 값(구간 화 된 경우 최빈값 또는 중앙값으로 대체한 후)에 기반하여 구축된 예측모형을 검증용 자료에 대하여 평가지표를 구하여 비교한다. 또한 DB1에 비식별 무관 자료를 추가해 나가면서 테스트 자료에 대한 평가지표를 비교한다.
구간화로 비식별 처리된 값들은 예측모형 구축에 사용되기 위해서 하나의 값으로 대체되어야 한다. 따라서, 명목형 변수의 비식별 처리된 값은 해당 구간의 범주 안에서 가장 빈도가 높은 그룹으로 처리하였고, 연속형 변수의 비식별 처리된 값은 해당 구간의 중앙값으로 대체하였다. 이런 과정을 거쳐 최종적으로 원본DB에 대응되는 비식별DB를 구축하였다.
DB1의 비식별 전 참값을 이용하여 구축된 예측모형과 비식별 처리 후의 값(구간 화 된 경우 최빈값 또는 중앙값으로 대체한 후)에 기반하여 구축된 예측모형을 검증용 자료에 대하여 평가지표를 구하여 비교한다. 또한 DB1에 비식별 무관 자료를 추가해 나가면서 테스트 자료에 대한 평가지표를 비교한다. 즉, DB2(비식별 무관 자료)에서 랜덤하게 DB1의 크기(레코드 수)와 동일한 양의 비식별 무관 자료를 추출하여 훈련용 자료에 더한다.
즉, DB2(비식별 무관 자료)에서 랜덤하게 DB1의 크기(레코드 수)와 동일한 양의 비식별 무관 자료를 추출하여 훈련용 자료에 더한다. 비식별 무관 자료를 2배, 3배, 4배 늘려가면서 훈련용 자료를 구성하고 각 단 계마다 검증용 자료에 대한 모형평가 지표를 구하여 비교한다. 비식별 무관 자료가 추가될수록 비식별 처리된 자료(DB1)의 모형구축에의 영향력을 감소할 것이다.
비식별 조치는 KLT 프라이버시 모델에서 k = 4 , l = 4로 설정하였으며, ㈜이지서티의 비식별 조치 솔루션인 Identity Shield 프로그램을 사용하여 수행하였다.
연속형변수인 혈당량(X₈)은 민감정보로 간주하여 비식별 조치를 적용하였다. 이는 실제 민감정보라기 보다는 본 연구 목적상 연속형 자료의 비식별화가 예측모형 구축에 미치는 영향을 알아보기 위하여 설정한 것이다.
다음 표는 2009년 건강검진자를 대상으로 향후 5년 동안 뇌졸중 발생유무에 대한 예측모형을 구축하기 위한 데이터 구성 변수들이다. 원본DB에는 혈압, 가족력, 콜레스테롤, 흡연유무, 요단백, 과거병력(고혈압, 심장볍, 당뇨병, 고지혈증, 암) 등의 변수가 포함되어 있으나, 기초 분석 결과 뇌졸중 발병유무와의 연관성이 있는 7개의 설명 변수만을 선택하여 분석에 사용하였다. 이 중에서 X₅와 X₆은 비식별화를 하지 않고 사용하였으며, 다른 설명변수들을 대상으로 비식별 전․후의 예측모형 결과에 미치는 영향을 살펴보았다.
원본DB의 209,455 관찰치(observation) 중에서 적어도 하나의 변수가 비식별 처리된 개체들을 DB1이라 고 하자. 원본DB에서 DB1을 뺀 나머지 개체들(비식별 무관 개체들)을 7:3으로 랜덤하게 나누어 각각 DB2, DB_test 라고 하자. DB_test는 모형 평가를 위한 검증용 데이터(test data)로 사용한다.
이 중에서 X5와 X6은 비식별화를 하지 않고 사용하였으며, 다른 설명변수들을 대상으로 비식별 전․후의 예측모형 결과에 미치는 영향을 살펴보았다.
따라서, 명목형 변수의 비식별 처리된 값은 해당 구간의 범주 안에서 가장 빈도가 높은 그룹으로 처리하였고, 연속형 변수의 비식별 처리된 값은 해당 구간의 중앙값으로 대체하였다. 이런 과정을 거쳐 최종적으로 원본DB에 대응되는 비식별DB를 구축하였다.
통계적 예측모형의 성능을 기반으로 비식별화 데이터의 유용성을 판단하기 위하여 전술한 변수들을 토대로 뇌졸중 유무(Y)를 예측하는 로지스틱회귀모형을 구축하였다. 로지스틱회귀모형은 다음 식과 같이 설명변수들의 선형결합으로 반응변수의 확률값을 예측하는 것으로 볼 수 있다.
국민건강보험공 단에서는 국민건강정보DB를 기반으로 표본코호트DB 를 구축하고 있다. 표본코호트DB는 자격DB, 진료DB, 건강검진DB, 요양기관DB를 포함하고 있는데, 2009년 자격DB를 기준으로, 진료DB와 건강검진DB를 연결하여 분석을 위한 원본DB를 구축하였다. 다음 표는 2009년 건강검진자를 대상으로 향후 5년 동안 뇌졸중 발생유무에 대한 예측모형을 구축하기 위한 데이터 구성 변수들이다.

대상 데이터

본 연구에 사용된 자료는 국민건강보험공단의 2009년 건강검진자 209,455명의 자료이다. 국민건강보험공 단에서는 국민건강정보DB를 기반으로 표본코호트DB 를 구축하고 있다.

이론/모형

이 프로그램에서는 LeFevre et al.[15]이 제안한 준식별자 계층격자 탐색 방법(Incognito)으로 각 준식 별자에 대하여 사전에 설정된 k-익명성을 만족하도록 일반화 방법을 사용하여 레코드들의 준식별자 값들을 변환한다.
검증용 자료에 대한 예측정확도 측면에서 어느 정도의 비식별 무관 자료가 훈련용 자료로 추가되어야 비식별 처리된 자료의 영향력이 소멸하는지를 살펴봄으로써 비식별 자료의 통계모형화 측면에서의 유용성 유지여부를 판단할 수 있을 것이다. 이러한 과정에서 통계모형으로는 전술한 로지스틱회귀모형을 사용하였다.

성능/효과

본 연구에서는 비식별화 데이터의 유용성에 대하여 예측 모형의 성능지표를 이용하여 검증하는 방안을 제시하였다. 비식별화된 자료를 포함하는 전체 데이터의 유용성은 비식별 자료를 제외했을 때의 모델링 결과를 토대로 판단할 수 있고, 비식별 처리된 자료만의 유용성 검증은 비식별 무관 자료를 훈련용 자료에 추가해가면서 모형 성능 측면에서 비식별 처리의 영향력이 미미 해지는 단계를 파악함으로써 이루어질 수 있음을 사례 분석으로 보여주었다.

후속연구

비식별 무관 자료가 추가될수록 비식별 처리된 자료(DB1)의 모형구축에의 영향력을 감소할 것이다. 검증용 자료에 대한 예측정확도 측면에서 어느 정도의 비식별 무관 자료가 훈련용 자료로 추가되어야 비식별 처리된 자료의 영향력이 소멸하는지를 살펴봄으로써 비식별 자료의 통계모형화 측면에서의 유용성 유지여부를 판단할 수 있을 것이다. 이러한 과정에서 통계모형으로는 전술한 로지스틱회귀모형을 사용하였다.
본 연구는 예측모형 성능 비교 기반의 비식별화 데이터 품질 측정 방안을 제안하고 사례분석 결과를 제시했다는데 의미가 있다. 다만, 다양한 비식별화 방법론에 따른 데이터의 유용성 측정 비교연구는 다루지 못했다는 한계가 있으며 이는 향후 추가적인 연구 과제로 진행하고자 한다
물론 여기서 1단계에서의 비식별 전·후 모형 평가지표의 차이 크기로 비식별 처리가 얼마나 데이터 유용성을 훼손했는지 가늠해 볼 수 있을 것이다. 따라서 1단계에서의 정확도 차이와 그 차이를 상쇄하는데 필요한 비식별 무관 데이터의 필요량을 비식별 데이터 에 대한 품질 지표로서 사용할 수 있을 것이다. 1단계 에서의 정확도 차이가 클수록 비식별화 데이터의 품질은 더 낮아졌다고 볼 수 있고, 그 차이를 상쇄하는데 필요한 비식별 무관 데이터의 양이 많을수록 비식별화 데이터의 유용성도 떨어진다고 간주할 수 있다.
비식별 무관 자료를 2배, 3배, 4배 늘려가면서 훈련용 자료를 구성하고 각 단 계마다 검증용 자료에 대한 모형평가 지표를 구하여 비교한다. 비식별 무관 자료가 추가될수록 비식별 처리된 자료(DB1)의 모형구축에의 영향력을 감소할 것이다. 검증용 자료에 대한 예측정확도 측면에서 어느 정도의 비식별 무관 자료가 훈련용 자료로 추가되어야 비식별 처리된 자료의 영향력이 소멸하는지를 살펴봄으로써 비식별 자료의 통계모형화 측면에서의 유용성 유지여부를 판단할 수 있을 것이다.
첫째, 검증용 데이터를 제외한 전체 데이터를 훈련용 자료로 사용하되 비식별 처리된 DB1이 비식별 전의 참값을 가지고 훈련용 자료에 포함될 때와 DB1을 모형구축에 사용하지 않을 때의 통계적 예측모형의 성능을 비교함으로써 비식별 자료가 예측모형 구축에 얼마나 영향을 미치는지 가늠할 수 있을 것이다. 여기서 두 모형의 성능 비교는 검증용 자료에 기반하여 수행된다.
본 연구는 예측모형 성능 비교 기반의 비식별화 데이터 품질 측정 방안을 제안하고 사례분석 결과를 제시했다는데 의미가 있다. 다만, 다양한 비식별화 방법론에 따른 데이터의 유용성 측정 비교연구는 다루지 못했다는 한계가 있으며 이는 향후 추가적인 연구 과제로 진행하고자 한다

한편, 비식별화 되는 개체들의 속성 분포가 모집단의 분포와 비슷할수록 예측모형에의 영향력은 더 작아질 것으로 예상되는 바, t-근접성과 비식별 처리의 예측모형에의 영향력 간의 관계에 대하여 추후 연구과제로 삼고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	비식별화의 대상이 되는 개인정보는 어떤 것들이 있는가?	비식별화의 대상이 되는 개인정보는 개인 식별 정보 로서 개인을 직접 식별하거나 유추하여 알 수 있는 모든 정보가 그 대상이 된다. 개인 식별 정보는 고유식별자, 준식별자 및 민감정보로 구분할 수 있다.
	비식별화 중 단순 익명화 방법의 단점은?	이러한 비식별화를 위한 전통적인 기법은 데이터 마스킹, 가명처리, 데이터 범주화, 데이터 값 삭제, 총계 처리 등이 있다. 그러나 모든 속성정보에 대한 이러한 단순 익명화 방법의 적용은 개인정보 보호라는 목적은 달성할 수 있지만 데이터 활용성은 크게 떨어뜨릴 수 있다. 따라서 데이터 유용성을 적게 훼손시키면서 익명화 요구사항을 지킬 수 있는 프라이버시 모델이 사용되고 있다.
	개인정보 비식별 조치 가이드라인에 따르면 개인정보는 어떻게 활용 가능한가?	빅데이터 활용의 중요성을 이미 인식하고 있는 정·관계에서도 관계부처 합동으로 개인정보 비식별 조치 가이드라인을 제정하여 비식별 조치 기준 및 지원․관리체계에 대한 안내를 하고 있다[2]. 이 가이드라인에서는 정보주체를 알아볼 수 없도록 비식별 조치를 적정하게 한 비식별 정보는 개인정보가 아닌 것으로 추정하여 빅데이터 분석에 활용 가능하다고 보고 있다.

참고문헌 (17)

양현철, 이영주, 김신곤, "개인정보 비식별화기술 적용수준이 빅데이터 활성화에 미치는 영향," 정보화연구, 제13권, 제3호, pp.395-404, 2016.
국무조정실 등, 개인정보 비식별 조치 가이드라인, 2016.
이영환, 전희주, 윤정연, "데이터 산업에서 창업 활성화를 위한 데이터 거래소 제안 : 금융거래소형 데이터거래소를 중심으로," 한국창업학회지, 제10권, 제2호, pp.28-49, 2015.
김동국, 이혁, "빅데이터 기반의 개인정보 비식별화 동향," 한국인터넷정보학회지, 제16권, 제2호, pp.15-22, 2015.

원문보기 상세보기
이현승, 송지환, 개인정보 비식별화기술의 쟁점 연구, 소프트웨어정책연구소, 2016.
임형진, "빅데이터 환경에서의 개인정보 비식별 처리방법 분석," 전자금융과 금융보안, 제8호, pp.9-37, 금융보안원, 2017.
엄수현, 이인경, 이우기, "빅데이터 기반 개인정보 비식별화 동향," 정보화연구, 제15권, 제4호, pp.545-552, 2018.
김근령, 이대희, "보건의료 빅데이터 활용에 관한 법적검토-개인정보보호를 중심으로-," 과학기술법연구, 제24권, 제3호, pp.57-90, 2018.
D. Rebollo-Monedero, J. Forne, M. Soriano, and J. P. Allepuz, "k-Anonymous microaggregation with preservation of statistical dependence," Information Sciences, Vol.342, pp.1-23, 2016.

상세보기
J. Soria-Comas, J. Domingo-Ferrer, D. Sanchez, and S. Martinez, "Enhancing Data Utility in Differential Privacy via Microaggregation- based k-Anonymity," The International Journal on Very Large Data Bases, Vol.23, No.5, pp.771-794, 2014.

상세보기
D. Sanchez, J. Domingo-Ferrer, S. Martinez, and J. Soria-Comas, "Utility-preserving differentially private data releases via individual ranking microaggregation," Information Fusion, Vol.30, pp.1-14, 2016.

상세보기
강동현, 오현석, 용우석, 이원석, "비식별 데이터의 유사성 보존에 관한 연구," 한국정보처리학회 추계학술발표대회 논문집, 제24권, 제2호, pp.285-288, 2017.
H. Lee, S. Kim, J. W. Kim, and Y. D. Chung, "Utility-preserving anonymization for health data publishing," BMC Medical informatics and Decision Making, Vol.17, No.1(104), 2017.
김동한, "개인정보 비식별화 기술 동향 및 전망," Weekly ICT Trend 주간기술동향, 제1809호, 정보통신기술진흥센터, pp.14-24, 2017.
K. LeFevre, D. DeWitt, and R. Ramakrishnan, "Incognito: Efficient full-domain k-anonymity," In Proceedings of the 2005 ACM SIGMOD international conference on Management of data (SIGMOD '05) , pp.49-60, 2005.
A. Machanavajjhala, J. Gehrke, and D. Kifer," $\ell$ -Diversity: Privacy beyond k-anonymity," 22nd International Conference on Data Engineering, 2006.
N. Li, T. Li, and S. Venkatasubramanian, "t-Closeness: Privacy beyond k-anonymity and l-diversity," IEEE 23rd International Conference on Data Engineering , 2007.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증