[논문]승법잡음모형을 이용한 통계적 노출조절기법의 적용

김영원; 김태연; 김계남

doi:10.5351/kjas.2011.24.1.127

[국내논문] 승법잡음모형을 이용한 통계적 노출조절기법의 적용
Application of a Statistical Disclosure Control Techniques Based on Multiplicative Noise 원문보기

응용통계연구 = The Korean journal of applied statistics, v.24 no.1, 2011년, pp.127 - 136

김영원 (숙명여자대학교 통계학과) , 김태연 (숙명여자대학교 통계학과) , 김계남 (숙명여자대학교 통계학과)

초록
AI-Helper

본 연구에서는 통계기관에서 마이크로자료를 제공할 때, 연속형 변수를 마스킹하는 기법으로 잘 알려진 승법잡음모형을 적용하는 경우 원자료의 평균과 분산을 유지할 수 있는 변수 변환 방안을 제시하고, 제시된 방법의 적절성과 다양한 잡음생성 분포에 따른 마스킹자료의 유용성을 검토하였다. 아울러 여러 변수들을 대상으로 승법잡음모형을 적용하는 경우 변수들 간의 상관관계를 유지하기 위해서는 잡음생성과정에서 어떤 측면이 고려되어야 하는지 살펴보았다. 본 연구에서는 제시된 변수 변환 방법의 적절성과 자료의 유용성 등을 평가하기 위해 우리나라 가계조사자료를 이용한 모의실험을 수행하였다.

Abstract ▼ AI-Helper

Multiplicative noise model is the one of popular method for masking continuous variables. In this paper, we propose the transformation on the variable to which random noise was multiplied. An advantage of the masking method using proposed transformation is that the masking data users can obtain the unbiased values of mean and variance of original (unmasked) data. We also consider the data utility and correlation structure of variables when we apply the proposed multiplicative noise scheme. To investigate the properties of the method of masking based on multiplicative noise, a simulation study has been conducted using the 2008 Householder Income and Expenditure Survey data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 두 개 이상의 변수들을 대상으로 승법잡음 변수 변환 방법을 적용하는 경우 두 변수들 간에 상관관계가 유지될 수 있도록 하기 위해서는 어떤 측면이 고려되어야 하는지 검토해 보기로 한다. 여기서는 2개 이상의 변수를 대상으로 다음 4가지 승법잡음 적용 방법을 비교해 본다.
따라서 본 연구에서는 승법잡음모형을 적용하는 경우 변환된 자료를 이용한 통상적인 통계분석 과정을 통해 원자료의 평균과 분산 등을 포함한 주요 통계를 얻을 수 있는 승법잡음모형 적용 방안을 제시한다. 또한 이런 기법을 적용함에 있어서 다양한 잡음 발생 분포에 따른 승법잡음모형의 효율성을 비교하기 위해 신뢰구간 및 성향점수 개념을 토대로 한 자료의 유용성(data utility) 척도를 활용해 잡음생성 분포의 차이에 따른 효과를 살펴본다.
또한 제시된 변환 방법에 따른 승법잡음모형을 적용하는 경우 잡음생성 분포에 따른 효율성 비교를 위해 자료 유용성 측면에서 잡음분포 가정에 따른 차이를 분석한다. 마지막으로 2개 변수에 대해 승법잡음모형 기법을 적용하는 경우 두 변수들 간의 상관관계를 유지하기 위해서는 승법잡음모형 적용 과정에서 어떤 점이 추가적으로 고려되어야 하는지 살펴보기로 한다.
본 연구에서는 승법잡음모형을 토대로 한 마스킹자료 생성을 위해 추가적인 변수변환 과정을 통해 기존의 승법잡음모형 관련 연구와는 달리 원자료의 평균과 분산이 마스킹 자료에서도 그대로 유지될 수 있는 노출조절기법을 제시했다.
본 연구에서는 우선 2절에서 기존 승법잡음모형이 갖고 있는 한계를 극복하기 위한 새로운 승법잡음모형 자료변환 방법을 제시한다. 3절에서는 마스킹자료의 유용성 평가를 위한 척도를 소개하고, 4절에서는 우리나라 가계조사자료를 이용한 모의실험을 통해 제시된 승법잡음모형을 토대로 한 추가적인 변환 과정의 적절성을 평가하고, 자료의 유용성과 함께 상관관계 유지를 위한 승법잡음모형의 적용방법에 대해 살펴본다.
또한 2개 이상 변수를 대상으로 승법잡음모형을 동시에 적용하는 경우 원자료에서의 변수간의 상관관계가 유지되기 위해서는 어떤 측면이 잡음생성 과정에서 고려될 필요가 있는지 추가적으로 검토한다. 본 연구에서는 제시된 방안이 실제로 작동할 수 있는 유효한 방법임을 확인하기 위해 통계청의 가계조사자료를 이용한 모의실험을 통해 제시된 방법의 효과를 확인하기로 한다.
따라서 승법잡음모형의 적절성을 평가함에 있어서도 노출위험을 얼마나 줄일 수 있는지와 함께 자료의 유용성이 함께 고려되어야 한다. 실제 노출조절기법의 자료의 유용성을 평가하기 위해서 다양한 척도들이 제시되고 있으며, 본 연구에서는 최근 개발된 자료 유용성 척도를 기준으로 가계조사자료를 이용한 모의실험을 통해 잡음분포에 따른 효과를 비교해 보기로 한다.
참고로 Kim (1986)은 가법잡음모형을 이용하는 경우, 가법잡음모형을 그대로 사용하게 되면 원자료 보다 마스킹자료의 분산이 커지게 된다는 점을 고려해, 마스킹자료와 원자료의 평균과 분산이 같아지도록 가법잡음 변수의 선형변환방법을 제안하였다. 하지만 승법잡음모형에 대해서는 이런 변환방법이 아직 개발되어 있지 않다는 점을 고려해, 본 연구에서는 식 (2.4)의 변수변환방법을 제시하고, 새로운 변환방법의 적절성을 검토해 보고자 한다.

제안 방법

01이 되도록 각각의 분포에서 모수 a, b, c, d 값을 구한 후 잡음을 생성한다. 각 분포에서 2008년 가계조사에서 서울시 월별 레코드 수에 해당하는 10,285개의 난수를 생성하여 소득, 지출, 조세 변수에 승법잡음이 반영된 변수를 만든 후 식 (2.4)의 변환과정을 통해 최종 마스킹 자료를 생성하는 과정을 1,000번 반복수행한 결과를 토대로 변환 방법의 적절성, 자료의 유용성 및 상관관계 관련 모의실험을 수행하였다.
하지만 이런 방식으로 잡음을 발생시키게 되면 4개 잡음분포에서 발생하는 난수의 범위는 갖지만 분포 형태에 차이가 있기 때문에 분산이 달라진다. 따라서 본 연구에서는 좀더 공정한 잡음분포들 간의 비교를 위해 잡음의 범위를 설정하는 대신 각 분포에서 E(e) = 1이고, Var(e) = 0.01이 되도록 각 분포별로 모수를 구해서 잡음을 생성하였다. 여기서 Var(e) = 0.
따라서 본 연구에서는 승법잡음모형을 적용하는 경우 변환된 자료를 이용한 통상적인 통계분석 과정을 통해 원자료의 평균과 분산 등을 포함한 주요 통계를 얻을 수 있는 승법잡음모형 적용 방안을 제시한다. 또한 이런 기법을 적용함에 있어서 다양한 잡음 발생 분포에 따른 승법잡음모형의 효율성을 비교하기 위해 신뢰구간 및 성향점수 개념을 토대로 한 자료의 유용성(data utility) 척도를 활용해 잡음생성 분포의 차이에 따른 효과를 살펴본다. 또한 2개 이상 변수를 대상으로 승법잡음모형을 동시에 적용하는 경우 원자료에서의 변수간의 상관관계가 유지되기 위해서는 어떤 측면이 잡음생성 과정에서 고려될 필요가 있는지 추가적으로 검토한다.
우선 본 연구에서 제시한 변환과정을 적용하게 되면 정동명 등 (2009)의 연구와는 달리 사후적으로 평균과 분산을 추정하는 과정 없이도 마스킹자료만을 이용해 원자료의 평균과 분산을 이용자가 직접 계산할 수 있다는 점을 확인하기로 한다. 또한 제시된 변환 방법에 따른 승법잡음모형을 적용하는 경우 잡음생성 분포에 따른 효율성 비교를 위해 자료 유용성 측면에서 잡음분포 가정에 따른 차이를 분석한다. 마지막으로 2개 변수에 대해 승법잡음모형 기법을 적용하는 경우 두 변수들 간의 상관관계를 유지하기 위해서는 승법잡음모형 적용 과정에서 어떤 점이 추가적으로 고려되어야 하는지 살펴보기로 한다.
가계조사의 조사 항목이나 방법 및 표본설계 등에 대한 내용은 통계청 (2008)을 참고하기 바란다. 본 연구에서는 가계조사 항목 중 가구 총소득과 총지출 그리고 조세 변수를 이용하였다. 2008년 연간 가계조사 원자료를 보면 총 84,908개의 레코드에 매우 많은 변수가 포함되어 있지만, 여기서는 이 중에서 서울특별시에서 관측된 10,285개 레코드에서 월별 소득, 지출과 조세 변수만을 모의실험 대상으로 사용하였다.
아울러 잡음분포에 따라 마스킹 자료의 유용성에 어떤 차이가 있는지 검토해 본 결과 검토된 4가지 잡음분포에 따른 차이는 거의 없는 것으로 나타났다. 아울러 여러 개의 연속형 변수를 대상으로 승법잡음모형을 기반으로 마스킹을 하는 경우 원자료가 지니고 있는 변수들 간의 상관관계를 유지하기 위해서는 잡음 발생 과정에 상당한 주의가 필요하다는 점을 보여주었고, 동시에 경험적인 접근을 통해 상관관계를 유지할 수 있는 아이디어를 제시했다.
회귀분석에서 회귀계수 βk에 대한 중복 확률을 고려함으로써 자료의 유용성을 파악하는 용도로 주로 사용되지만, 본 연구에서는 특정 모수(평균)에 대한 중복된 신뢰구간의 길이를 이용하는 방법을 사용하도록 한다.

대상 데이터

본 연구에서는 가계조사 항목 중 가구 총소득과 총지출 그리고 조세 변수를 이용하였다. 2008년 연간 가계조사 원자료를 보면 총 84,908개의 레코드에 매우 많은 변수가 포함되어 있지만, 여기서는 이 중에서 서울특별시에서 관측된 10,285개 레코드에서 월별 소득, 지출과 조세 변수만을 모의실험 대상으로 사용하였다.
여기서는 통계청에서 제공하는 2008년 가계조사 원자료를 사용한다. 가계조사는 매월 우리나라 소득과 소비 수준 및 변화 추이를 분석하기 위한 조사로 매월 전국 8,000가구를 대상으로 조사가 수행된다. 가계조사의 조사 항목이나 방법 및 표본설계 등에 대한 내용은 통계청 (2008)을 참고하기 바란다.
여기서는 통계청에서 제공하는 2008년 가계조사 원자료를 사용한다. 가계조사는 매월 우리나라 소득과 소비 수준 및 변화 추이를 분석하기 위한 조사로 매월 전국 8,000가구를 대상으로 조사가 수행된다.
1의 (a)∼(d)와 같다. 제시된 그림은 각 분포별로 1,000번의 모의실험 중 1회의 시행에서 발생된 10,285개의 난수를 히스토그램 형식으로 정리한 것이다.

이론/모형

결국 마스킹 자료의 유용성을 평가하기 위해서는 마스킹 자료의 분석을 통해 얻어지는 결과와 원래 자료를 분석해서 얻어지는 결과의 차이를 파악해야 한다. 본 연구에서는 우리나라 가계조사자료를 대상으로 승법잡음모형을 적용하는 경우 잡음분포에 따른 효과를 자료 유용성 측면에서 평가하기 위해 Karr 등 (2006)이 제안한 신뢰구간중복 척도와 정규분포 가정에 크게 영향을 받지 않는 자료 유용성 평가 방법인 Woo 등 (2009)이 제안한 성향점수 척도를 사용했다.
승법잡음모형을 기반으로 원자료의 평균과 분산이 그대로 유지되는 마스킹자료를 만들기 위해 본 연구에서는 3절에 세시된 식 (2.4)를 이용하였으며, 잡음 생성을 위한 분포로 정동명 등 (2009)에서 사용된 삼각분포, 절단된 삼각분포, 사다리꼴분포 및 이중삼각분포를 사용하였다.
이런 점을 고려해 본 연구에서는 Kim (2007), 정동명 등 (2009)에서 사용한 삼각분포, 절단된 삼각분포, 사다리꼴분포 및 이중삼각분포를 고려하기로 한다. 이들 분포는 모두 좌우대칭이면서 공통점을 갖고 있고, 절단된 삼각분포와 이중 삼각분포의 경우 삼각분포나 사다리꼴 분포와는 달리 e_i가 1이라는 값을 취할 수 없다는 특성이 있다.

성능/효과

1과 같다. 본 연구에서 제시한 변환방법을 적용하면 정동명 등 (2009)에서와 같이 잡음분포의 평균과 분산을 별도로 제공해 사후적으로 원자료의 평균과 분산을 추정하는 과정을 거치지 않더라도 이용자들이 별 어려움 없이 직접 마스킹 자료만을 이용해 원자료의 평균과 분산을 파악할 수 있다는 것을 알 수 있다.
우리나라 2008년도 가계조사자료를 이용한 모의실험을 통해 제시된 방법이 평균과 분산이 원자료 그대로 유지될 수 있는 마스킹자료 작성방법이라는 점을 확인할 수 있었다. 아울러 잡음분포에 따라 마스킹 자료의 유용성에 어떤 차이가 있는지 검토해 본 결과 검토된 4가지 잡음분포에 따른 차이는 거의 없는 것으로 나타났다. 아울러 여러 개의 연속형 변수를 대상으로 승법잡음모형을 기반으로 마스킹을 하는 경우 원자료가 지니고 있는 변수들 간의 상관관계를 유지하기 위해서는 잡음 발생 과정에 상당한 주의가 필요하다는 점을 보여주었고, 동시에 경험적인 접근을 통해 상관관계를 유지할 수 있는 아이디어를 제시했다.
우리나라 2008년도 가계조사자료를 이용한 모의실험을 통해 제시된 방법이 평균과 분산이 원자료 그대로 유지될 수 있는 마스킹자료 작성방법이라는 점을 확인할 수 있었다. 아울러 잡음분포에 따라 마스킹 자료의 유용성에 어떤 차이가 있는지 검토해 본 결과 검토된 4가지 잡음분포에 따른 차이는 거의 없는 것으로 나타났다.
4)의 변환 과정을 통해 잡음분포별로 마스킹자료를 만들었다. 우선 본 연구에서 제시한 변환과정을 적용하게 되면 정동명 등 (2009)의 연구와는 달리 사후적으로 평균과 분산을 추정하는 과정 없이도 마스킹자료만을 이용해 원자료의 평균과 분산을 이용자가 직접 계산할 수 있다는 점을 확인하기로 한다. 또한 제시된 변환 방법에 따른 승법잡음모형을 적용하는 경우 잡음생성 분포에 따른 효율성 비교를 위해 자료 유용성 측면에서 잡음분포 가정에 따른 차이를 분석한다.
잡음에 따른 마스킹자료들의 신뢰구간중복 비율은 대부분 0.94∼0.97로 매우 높고, 성향점수는 대부분 0에 가깝기 때문에 결국 두 가지 척도 어떤 경우에나 마스킹자료의 유용성이 높은 것으로 나타났다.
제시된 척도는 각 모수에 대한 신뢰구간을 독립적으로 간주한 것인데, 모수 추정량들의 결합분포를 기초로 한 동시 신뢰구간을 고려하게 되면 타원중복(ellipsoid overlap) 개념의 척도로 자료 유용성을 설명할 수 있다. 이와 관련된 구체적인 내용은 Karr 등 (2006)을 참고하기 바란다.

후속연구

예를 들어 일반적으로 마이크로자료 이용자들은 단순히 변수별 평균이나 분산에 대한 분석보다 사분위수 또는 변수들 간의 관계를 규명하기 위한 회귀분석이나 다변량분석 등에 관심을 가질 수 있기 때문에, 이런 측면에서 원자료가 갖고 있는 특성이 마스킹자료에 유지될 수 있을 뿐만 아니라 응답자 노출위험이 일정 수준을 넘지 않도록 해야 한다. 결국 이런 효과적인 승법잡음모형을 개발해 실제 통계작성기관에서 활용하기 위해서는 향후 보다 심층적인 연구가 수행되어야 할 것이다.
물론 제시된 결과는 이론적인 측면보다는 경험적인 방식으로 변수들 간의 상관관계를 유지할 수 있는 승법잡음모형의 적용 방안을 직관적으로 제시한 것이다. 따라서 이론적인 측면에서 제시된 방법의 적절성을 평가하고, 보다 효율적인 방법을 개발하기 위해서는 향후 보다 심층적인 연구가 필요할 것이다.
또한 이런 기법을 적용함에 있어서 다양한 잡음 발생 분포에 따른 승법잡음모형의 효율성을 비교하기 위해 신뢰구간 및 성향점수 개념을 토대로 한 자료의 유용성(data utility) 척도를 활용해 잡음생성 분포의 차이에 따른 효과를 살펴본다. 또한 2개 이상 변수를 대상으로 승법잡음모형을 동시에 적용하는 경우 원자료에서의 변수간의 상관관계가 유지되기 위해서는 어떤 측면이 잡음생성 과정에서 고려될 필요가 있는지 추가적으로 검토한다. 본 연구에서는 제시된 방안이 실제로 작동할 수 있는 유효한 방법임을 확인하기 위해 통계청의 가계조사자료를 이용한 모의실험을 통해 제시된 방법의 효과를 확인하기로 한다.
3)과 같은 추가적인 계산과정 없이도 이용자들이 원자료의 평균과 분산을 쉽게 구할 수 있다. 또한 마스킹된 자료 z_i를 이용한 일반적인 통계분석 과정을 통해 원자료 x_i와 유사한 통계분석 결과를 얻는 것이 가능해질 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	성향점수 척도는 무엇인가?	성향점수(propensity score 척도는 원자료와 마스킹자료의 관계를 로지스틱 회귀모형을 이용해 비교하는 자료 유용성 척도이다 (Woo 등, 2009). 성향점수 계산을 위해 원자료는 r = 1로 마스킹자료는 r = 0으로 놓으면, 조건이 x로 주어졌을 때, 성향점수는 e(x) = P(r = 1 \| x)와 같이 표현된다.
	Kim과 Winkler 등이 승법잡음모형으로 변환된 자료에서 얻어진 결과를 토대로 추가적인 계산과정을 통해 이용자가 원자료의 평균과 분산을 구하는 방안을 제시하였는데, 이 방법의 단점은 무엇인가?	한편 Kim과 Winkler (2001)는 승법잡음모형으로 변환된 자료에서 얻어진 결과를 토대로 추가적인 계산과정을 통해 이용자가 원자료의 평균과 분산을 구하는 방안을 제시하였고, 정동명 등 (2009)은 이 방법을 이용해 우리나라 가계조사자료에 대한 사례분석 결과를 제시하고 있다. 하지만, 이들이 제시한 방법은 변환된 자료로 원자료의 평균이나 분산을 직접 추정할 수 없고, 이용자들이 잡음발생 분포의 모수값을 제공 받아 추가적으로 계산해야 하는 불편함이 있을 뿐만 아니라 변환 자료를 갖고는 평균과 분산 이외의 다양한 통계를 이용자 스스로 계산할 수 없다는 매우 큰 결함을 갖고 있다.
	마스킹자료를 생성할 수 있는 기법이 필요한 이유는 무엇인가?	이런 수요 때문에 통계기관에서는 수집된 자료를 개별 레코드 단위의 마이크로자료 형식으로 제공하는 것을 피할 수 없게 되었다. 이와 같이 통계기관이 개인이나 사업체 단위의 마이크로자료를 제공하는 경우 응답자 비밀이 노출될 위험이 있기 때문에 응답자의 비밀을 보호하는 동시에 원래 자료가 갖고 있는 특성이 그대로 유지될 수 있는 마스킹(masking) 자료를 생성할 수 있는 기법이 필요하다. 최근 마이크로자료 제공과 관련해 통계적 노출조절기법(disclosure control techniques)에 대한 연구가 국내 외에서 활발히 이루어지고 있다.

참고문헌 (13)

김규성 (2009). 마이크로데이터 제공과 통계적 노출조절기법, , 16, 1-11.

원문보기 상세보기
정동명, 김종익, 강동환 (2007). 인구센서스자료의 비밀보호방법, , 12, 95-120.
정동명, 김종익, 김경미 (2009). 잡음을 이용한 가계조사자료의 정보노출제한방법, , 22, 141-151.

원문보기 상세보기
정동명, 정미옥 (2008). 인구주택총조사 마이크로자료의 개인정보 노출제한방법, , 21, 313-325.

원문보기 상세보기
통계청 (2008). 가계조사 조사지침서.
Dalenius, T. and Reiss, S. P. (1982). Data swapping: A technique for disclosure control, Journal of Statistical Planning and Inference, 6, 73-85.

상세보기
Fuller, W. A. (1993). Masking procedures for microdata disclosure limitation, Journal of Official Statisitcs, 9, 383-406.
Karr, A. F., Kohnen, C. N., Oganian, A., Reiter, J. P. and Sanil, A. P. (2006). A framework for evaluating the utility of data altered to protect confidentiality, The American Statistician, 60, 1-9.
Kim, J. (1986). A method for limiting disclosure in microdata based on random noise and transformation, American Statistical Association Proceedings of the Section on Survey Research Methods, 303-308.
Kim, J. (2007). Application of the truncated triangular and trapezoidal distributions for developing multi-plicative noise, American Statistical Association Proceedings of the Section on Survey Research Methods, 2723-2729.
Kim, J. and Winkler, W. E. (2001). Multiplicative noise for masking continuous data, American Statistical Association Proceedings of the Section on Survey Research Methods, CD-ROM.
Torra, V. (2004). Microaggregation for categorical variavbles: A median based approach, In Domingo-Ferrer, J. and Torra, V. Editors, Privacy in Statistical Databases, Lecture Notes in Computer Science, 3050, 162-174.

상세보기
Woo, M. J., Reiter, P., Anna, O. and Karr, A. F. (2009). Global measures of data utility for microdata masked for dislosure limitation, The Journal of Privacy and Confidentiality, 1, 111-124.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증