[논문]개인정보 비식별화 현황 및 비식별 조치 가이드라인 보완 연구

손지민; 신민호

개인정보 비식별화 현황 및 비식별 조치 가이드라인 보완 연구 원문보기

情報保護學會誌 = KIISC review, v.33 no.6, 2023년, pp.89 - 109

초록
AI-Helper

최근 AI와 로봇기술 등으로 개인정보를 포함한 데이터의 처리가 일상화됨에 따라 한국정부는 개인정보 비식별 조치 가이드라인 및 데이터 3법을 발표함으로써 개인정보 비식별화를 돕고자 하였다. 하지만 복잡한 비식별화 절차와 이의 효과에 대한 불명확함으로 기업들이 개인정보를 포함한 빅데이터의 활용에 어려움을 겪고, 동시에 시민단체나 소비자단체에서는 현 가이드라인에 따른 비식별화 절차가 개인정보를 보호하기에 충분하지 않다고 지적하고 있다. 본고에서는 비식별화 현황과 기술을 검토하고 현 가이드라인의 한계점을 보완 함으로써 데이터 활용 업체와 기관들의 정확한 비식별화를 돕고 빅데이터 활용의 활성화에 기여하고자 한다.

표/그림 (38)

그림 [그림 1] k-익명성 실현 알고리즘 예시(k=2)
그림 [그림 2] 속성노출에 대한 k-익명성 모델의 한계 예시
그림 [그림 3] 속성노출에 대한 l-다양성의 방어(l=3)
그림 [그림 4] 재귀형 l-다양성의 정의
그림 [그림 5] δ-노출 정의
그림 [그림 6] δ-노출의 쏠림현상
그림 [그림 7] 일반화 정보 손실
그림 [그림 8] 분별력 척도
그림 [그림 9] 평균동질집합 크기 공식
그림 [그림 10] 정보집합물의 최소 프라이버시 수준 원칙
그림 [그림 11] 신분노출 수준 정의
표 [표 1] 프라이버시 침해 분류
그림 [그림 12] 속성노출 수준 정의
그림 [그림 13] 추론노출 수준 정의
표 [표 2] 가이드라인 개선사항 개요
그림 [그림 14] 현 가이드라인 적정성 평가 절차
그림 [그림 15] 재식별 시도 가능성 분석표
그림 [그림 16] 평가 기준값 사례
그림 [그림 17] 재식별 위험도 정량화 공식
그림 [그림 18] 소속노출 목표기준 선정 기준
그림 [그림 19] 소속노출 목표기준 선정공식
그림 [그림 20] 모 데이터 크기접근성 소속노출 수준 공식
그림 [그림 21] 소속노출 가능성 공식
그림 [그림 23] 신분노출 목표기준 선정기준
그림 [그림 24] 신분노출 목표기준 선정공식
그림 [그림 22] 소속노출 수준 계산공식
그림 [그림 25] 신분노출 가능성 공식
그림 [그림 26] 속성노출 목표기준 선정기준
그림 [그림 27] 속성노출 목표기준 선정공식
그림 [그림 28] 속성노출 수준 공식
그림 [그림 29] 추론노출 수준 정의
그림 [그림 30] 현 가이드라인의 정보집합물 결합 절차
그림 [그림 31] 현 가이드라인의 정보집합물 결합 절차 흐름도
그림 [그림 32] 현 가이드라인의 정보집합물 결합 시 유의사항
그림 [그림 33] 전문기관에 의한 정보결합물 집합
그림 [그림 34] 임시대체키 생성방법 개선안
그림 [그림 36] 분산 정보집합물 분산결합 방법
그림 [그림 35] 현 가이드라인 임시대체키

AI 본문요약
AI-Helper

문제 정의

δ-소속은 소속노출 공격을 막기 위한 모델이다. 개인이 특정 데이터에의 포함여부 자체가 그 개인의 프라이버시에 심각한 영향을 미칠 수 있는 경우에 그 포함여부 사실을 공격자가 알아내지 못하도록 하는 데 그 목적이 있다. 예를 들어 치매 환자 데이터가 비식별화 되어 공개가 되었을 때 공격자가 자신의 공격 대상이 그 데이터의 어떤 레코드에 해당이 되든 상관없이 그 데이터 어딘가에 포함되어 있는지 여부만 알면 공격이 성립한다.
마이크로데이터는 각 레코드가 한 개인의 정보를 담고 있는 정보집합물을 말하는데, 프라이버시 보호 모델은 개인정보를 제거하기 위해 비식별화 처리된 마이크로데이터에 대해 그 비식별화 조치가 소정의 목적을 달성했는지를 객관적으로 평가하는 기준을 제시한다. 그 객관적인 기준을 제시함으로써 공격자가 해당 데이터로부터 도출해 낼 수 있는 개인정보의 수준과 그 가능성을 제한하는 것이 프라이버시 보호모델의 목적이다.
많은 나라들의 비식별화 정책과 국내 비식별화 정책 활용 사례가 무엇인지 등 비식별화 정책 및 기술에 대해 살펴보고자 한다.
본고에서는 국내외의 비식별화 정책과 정책 동향 및 정보 활용 사례를 알아보고, 현 정부의 비식별화 조치 가이드라인의 보호 모델과 비식별화 기술 및 정보 집합물 결합절차에 관한 개선안을 살펴보았다.
예를 들어 k-익명화를 통한 유용도 감소를 측정하기 위해서는 k-익명화가 수행하는 그룹화 수준, 또는 그룹화의 결과물인 동질집합을 기반으로 유용도를 측정해야 한다. 비식별화 기법 후의 유용도 측정방법을 논하고 프라이버시와 유용도의 관계에 대해서 살펴보기로 하자.
이 절에서는 엔트로피와 재귀형, δ-노출, δ-소속 등 현 가이드라인에서는 다루지 않았으나 기술적으로 중요한 모델을 검토하고자 한다.
이 절에서는 정보집합물의 결합을 지원하기 위한 기본적인 방안을 현 가이드라인을 통해서 알아보고, 보다 안전한 정보집합물 결합을 위한 방안을 모색하고자 한다.
k-익명성은 신분노출 공격을 방어하고자 나온 개념이다. 즉, 마이크로데이터의 특정 레코드가 실제로 누구의 것인지를 100% 확률로 지적할 수 없도록 데이터를 수정하는 것이 목적이다. 하지만 공격자가 특정 공격대상자의 준식별자 값들을 알고 있다면, 이 값들을 데이터의 준식별자 값과 비교했을 때 공격대상자의 레코드일 가능성이 있는 후보들이 매우 작은 집합으로 좁혀진다.

가설 설정

많은 사람들이 ‘엉덩이’라는 단어 대신 복숭아 모양 이모티콘을 사용한다고 가정해보자
여기서 공격자의 모 데이터에 대한 접근성은 모 데이터의 레코드 내용을 읽을 수 있는 경우(레코드 접근성)와 둘째, 모 데이터의 레코드 수만 알 수 있는 경우(크기 접근성)를 모두 고려한다. 여기서 모 데이터가 비식별화 데이터의 개인을 모두 포함한다는 사실은 공격자도 알고 있음을 가정한다. 그리고 모 데이터 또한 비식별화된 데이터일수도, 아닐 수도 있다.
예를 들어 공격자는 공격대상자의 혈당 수준에 대해서 알고 싶고 비식별 데이터의 전체 통계에 의하면 환자의 평균 혈당 수준이 75mg/dL이라고 가정하자. 이후에 공격자가 공격대상자의 준식별자를 알게 되었고 이를 바탕으로 공격대상자가 속한 동질집합을 알아낸 후 그 동질집합에 속한 환자들의 혈당수준을 평균을 내보니 90mg/dL이라고 가정하자. 이 경우 공격자는 자신의 공격대상자의 혈당수준이 다른 환자들에 비해서 높은 혈당을 갖고 있다는 정보를 배경지식으로부터 추가적으로 얻을 수 있다.

제안 방법

“Live face de-identification in video”라는 논문을 발표하였는데, 이는 높은 프레임 속도에서 완전 자동 비디오 수정을 가능하게 하는 얼굴 비식별화 방법을 제안한다
◦ 또한 정보제공사끼리 256bit이상의 비밀키를 정하고 SHA-256 이상의 해쉬함수를 정하며, 이를 조합키와 함께 HMAC 방법을 통해서 해쉬임시대체키를 생성한다.
이 때 사용되는 집계 데이터는 Differential Privacy[4]가 적용되어 ‘엉덩이’ 라는 단어에 대해 복숭아 이모티콘을 많은 사람들이 사용한다는 것은 알 수 있지만, 실제 누가 해당 이모티콘을 사용했었는지는 알 수 없다. 또한 예측 기능에도 사용자에게 예측 단어 추천 시, 로컬의 사용자 데이터로만 추천했지만 새로운 버전의 텍스트 예측 기능에는 Differential Privacy를 적용하여 전 세계 사용자들의 텍스트 데이터를 활용하여 단어 추천을 한다.
모 데이터의 레코드가 접근이 가능한 경우에는 우선 모 데이터에 포함된 준식별자 집합과 비식별화 데이터의 준식별자 집합을 비교하여 그 교집합을 계산한다. 만약 교집합이 없으면(즉, 중복되는 준식별자 부재) 레코드 수만 접근 가능한 것으로 보고 크기 접근성 소속노출 수준 공식을 사용하여 계산한다. 만약 교집합이 존재하면 데이터 기반 소속노출 가능성은 그림 21과 같이 δ-소속 모델의 계산방법을 따른다.
본 개선안에서는 한 동질집합의 속성노출 수준(그림 28)은 그 동질집합에 속한 각 민감속성의 값 중 가장 많이 존재하는 값의 비율의 최댓값으로 계산하고, 이에 대한 전체 테이블에서의 최댓값에 소속노출 수준을 곱한 값을 그 데이터의 속성노출 수준으로 계산한다.
본고에서는 국내외의 다양한 비식별 정보 활용사례를 분류하고 이에 따른 다양한 비식별화 모델 및 기법들을 정리하였다. 또한, 프라이버시 위협의 종류인 신분노출, 속성노출, 추론 노출, 소속 노출, 자취 노출 등을 분류하여 활용방안을 제시하였으며, 현 가이드라인의 적정성 평가를 새로운 기준으로 활용하여 적정성 평가 개선 방법을 제시하고 있다.
주어진 모 데이터의 집합에 대해서 비식별화 데이터의 소속노출 수준은 그림 22와 같이 계산할 수 있다. 소속노출 목표수준과 데이터의 소속노출 수준을 비교하여 적정성 여부를 판단한다.
페이스북의 비식별화 기술 작동 방식은 출력 비디오의 페이스 디스크립터를 대상 이미지의 페이스 디스크립터와 거리를 두는데, 대상 이미지는 입력 비디오의 프레임을 기반으로 할 필요가 없으며, 이는 라이브 비디오에 적용할 수 있다. 연구진은 사람들의 높은 수준의 얼굴 이미지에 대해 훈련된 새로운 Feed-forward encoder-decoder 네트워크 아키텍쳐를 사용하였다. 또한 네트워크는 주어진 비디오나 주어진 ID에 대해 재교육될 필요가 없다는 점에서 글로벌하며, 시간이 지남에 따라 왜곡이 거의 없는 자연스러운 이미지 시퀀스를 생성한다고 설명했다.
특히 임시대체키의 안전성과 결합시 프라이버시 수준의 저하, 그리고 전문기관의 결합대행에 대한 우려의 목소리가 컸다. 이에 본 고에서는 기존에 사용되던 해쉬를 이용한 임시대체키 생성방법을 더욱 보완하였고, 나아가 랜덤 임시키를 사용하여 본 식별자와의 연관성을 완전히 차단하는 기법을 소개하였다. 또한 비식별화 된 두 데이터가 결합되었을 때 프라이버시 수준이 현격히 떨어질 수 있음을 설명하였고 이러한 데이터를 대행하여 결합하여야 하는 전문기관의 역할과 책임에 대한 문제는 입법적으로 해결할 수밖에 없음을 지적하였다.
정보집합물을 결합 절차는 먼저 A사와 B사가 같은 알고리즘을 적용하여 식별자를 임시 대체키로 전환하고, 결합대상 정보집합물도 비식별 조치 및 적정성 평가를 수행한다. 그리고 비식별 조치된 정보를 전문기관에 제공하여 결합을 요청한다.
평가점수의 연속성을 확보하기 위해서 각 부분평가단계의 결과 값들을 정해진 방법으로 조합하면 최종 평가수치가 나오고 이 평가수치에 따른 적절한 비식별 수준에 대한 가이드라인을 제공하고자 한다. 즉, 각 부분평가의 평가수치를 0에서 1까지의 실수로 표현하고, 전체 평가수치는 각 부분평가의 곱으로 표현하는 방식을 제안한다. 이는 리스크 분석에 많이 사용되는 기법이다.
평가단은 이와 같이 기준이 되는 k값과 l값을 선정한 후 계량분석의 결과를 비교하여 비식별화 적정성 판단을 한다.
현 가이드라인에서는 비식별 조치기법 중 프라이버시 보호모델 기법으로 k-익명성, 기본형 l-다양성, t-근접성 기술을 소개하였다.

대상 데이터

이 때, 데이터들이 그대로 전송되는 게 아니라 사용 내역들에 대한 평균값들이 암호화되어 전송되기 때문에 상세 내역을 전혀 알 수 없는 평균값들에 대해서만 접근이 가능하게 된 것이다. 다음 사례는 2016년 6월 Apple이 Apple WWDC Keynote에서 사용자의 데이터를 보호하는 데에 Differential Privacy가 적용되었음을 발표하였는데, iOS 10의 새로운 메신저 앱의 이모티콘 교체 추천 기능에 전 세계의 아이폰 사용자들의 집계된 데이터가 사용된다. 많은 사람들이 ‘엉덩이’라는 단어 대신 복숭아 모양 이모티콘을 사용한다고 가정해보자.
예를 들어 한 병원에서 2013년 해당 병원 신경정신과에 입원한 환자에 대한 비식별화 데이터를 공유한다고 가정하자. 이 경우에 모 데이터는 2013년 해당 병원에 입원한 모든 환자의 데이터 (원본 데이터 혹은 비식별 데이터 둘 다 가능)도 되고, 2010~2015년도에 서울시에 있는 병원에 입원한 환자 데이터(비식별화 혹은 원본)도 되며, 또한 통계청에서 발행한 2013년 인구통계도 포함된다. 이 경우, 해당 비식별화 데이터의 소속노출 수준을 계산하기 위해서는 각각의 모 데이터를 기준으로 소속노출 수준을 계산하여야 한다.

이론/모형

주어진 비식별 데이터의 추론노출에 대한 방어 여부는 민감속성의 전체 데이터에서의 분포(전체분포)와 동질집합에서의 분포(동질집합분포)의 차이에 의해서 결정된다. 두 분포가 유사할수록 추론노출에 대해서 안전하며, 두 분포 간의 유사성은 여러 가지 방식으로 계산될 수 있는데, t-근접성 모델은 EMD(Earth Moving Distance)라는 방법을 채택하고 있다. 두 분포간의 유사성을 측정하는 기법인 EMD는 한 확률분포를 그 모양대로 쌓인 모래더미로 비유하여 두 분포 간의 거리를 한 모래더미에서 다른 모래더미로 바꾸기 위해서 필요한 모래의 이동량으로 측정한다.
두 분포간의 유사성을 측정하는 기법인 EMD는 한 확률분포를 그 모양대로 쌓인 모래더미로 비유하여 두 분포 간의 거리를 한 모래더미에서 다른 모래더미로 바꾸기 위해서 필요한 모래의 이동량으로 측정한다. 모래의 이동량 계산은, 가장 최소의 움직임으로 모래를 이동할 수 있는 최적의 움직임을 Linear Programming 기법으로 계산하고, 이 때의 최적의 비용을 정규화(Normalize)해서 계산한다. 비식별화 데이터가 t-근접성을 만족시키려면 모든 동질집합의 동질집합분포와 전체분포의 EMD 거리가 미리 설정한 t값보다 작거나 같아야 한다.
비식별 조치가 충분하지 않은 경우 공개 정보 등 다른 정보와의 결합 및 다양한 추론 기법 등을 통해 개인이 식별될 우려가 있기 때문에 개인정보 보호책임자 책임 하에 외부전문가가 참여하는 비식별 조치 적정성 평가단을 구성하여 개인식별 가능성에 대한 엄격한 평가가 필요하다. 적정성 평가 시 프라이버시 보호 모델 중 k-익명성을 활용하는데, k-익명성은 최소한의 평가 수단이며 필요시 추가적인 평가모델인 l-다양성, t-근접성을 활용한다. 적정성 평가는 기초자료 작성, 평가단 구성, 평가 수행, 추가 비식별 조치, 데이터 활용으로 나뉜다.

성능/효과

“개인정보 침해 수준”은 현 가이드라인에서 평가대상 기관에서 제출하는 개인정보 보호 수준의 반대 개념이고 현재 개인정보 보호 수준의 평가 기준표를 활용하면 측정이 가능하다
2016년 가이드라인 발표 후 산업계 및 관련 단체에서 현행 비식별화 정책 및 가이드라인 내용에 대한 다양한 의견을 제시하였다. 본고에서는 가이드라인 개선 사항을 표 2과 같이 정리하여 명시하였다.
원본데이터 T를 비식별화한 데이터 T*의 평균동질집합크기 척도 CAVG(T*)는 평균 동질집합 크기 |T|/|EQs|, 즉 전체 레코드 수를 동질집합 개수로 나눈 값을 k로 나눈 값으로 정의한다. CAVG(T*)가 1이면 가장 이상적인 비식별화에 가까우며 1보다 크면 클수록 유용도가 떨어진다. k-익명성이 적용된 경우 CAVG값은 항상 1보다 크거나 같다.
◦ 주민번호를 제외한 식별자에 정보제공사끼리 공유하는 랜덤 숫자(혹은 비밀키)를 앞 혹은 뒤에 덧붙여서 해쉬함수를 적용하는 경우는 앞의 경우보다 훨씬 안전하지만 고도의 분석기술을 통한 공격을 방어하기 위해서는 가장 안전한 방법으로 알려져 있는 HMAC기술을 통해서 식별자와 암호키의 조합에 대한 해쉬를 계산하는 것이 안전하다.
2019년 12월 4일 개정안이 국회를 통과했으며 이후 국회 본회의를 최종 통과하여 2020년 8월 5일부터 시행되고 있다. 데이터 3법에서 개인의 명시적 동의 없이 연구 목적으로 사용하기 위해서는 비식별 조치가 이뤄져야 한다는 것이 주목해야 할 점이며 데이터 3법 개정안에서는 데이터 활용을 위한 가명정보 개념 도입, 비식별 조치 후 산업적 통계 등 연구 목적 활용, 개인정보 보호위원회 격상 등이 법제화됐다. 기존에는 법제화된 것이 아닌 ‘가이드라인’이었기 때문에 한계가 있었고, 데이터 3법이 개정되기 이전에는 데이터 활용이 사실상 불가능했다.
데이터의 재식별 위험도를 측정함에 있어서 공격자가 자신의 공격대상이 비식별 데이터에 포함되어 있음을 100% 확신하고 있음을 가정하고 측정하는 경향이 있다. 예를 들어, 동질집합의 크기가 k이면, 공격대상자의 준식별자 값을 알고 있는 공격자가 대상자 레코드를 식별할 가능성은 1/k 이라고 평가하는데, 이는 그 k 중에 한 명이 반드시 공격대상자일 거라는 믿음을 가정하고 있을 때만 의미가 있다.
k-익명성이 적용된 경우 CAVG값은 항상 1보다 크거나 같다. 동질집합 크기가 작아서 제외(supression)된 데이터가 있는 경우는 평균 동질집합 크기가 커지는 영향을 준다.
정보 집합물의 결합이란 다수의 정보집합물에 동시에 속해있는 각 개인에 대한 데이터를 한 곳에 모음으로써 정보의 질을 향상시키는 방법이다. 두 개 이상의 기관이 소유하고 있는 정보집합물을 결합하면 하나의 데이터로부터는 얻을 수 없는 유용한 정보를 도출할 수 있다. 예를 들어 전문분야가 다른 두 병원의 데이터를 모으면 환자의 치료에 도움이 되는 중요한 정보를 도출해 낼 수도 있다.
두 번째 이점은 제안된 계산식이 정보이론 관점에서의 공격자의 정보획득과 관련이 있기 때문에 경험적 근거로만 접근해야 하는 t-근접성의 t값 설정에 비해서 δ-노출에서의 δ값 설정은 의미론적으로 유의한 접근방식이다.
만일에 하나 결합과정에서 비식별화 수준의 저하가 발생하더라도 전문기관이 이를 안전하게 관리하고, 결합데이터의 사용기관에게 전달하기 이전에 철저한 비식별화 평가 및 조치를 수행한 후 전달할 수 있게 된다. 따라서 전문기관이 정보집합물 결합을 대행하는 방안은 적절한 것으로 보여진다.
k-익명성의 경우는 그 모델의 목표가 신분 노출 공격이고, k값이(즉, 가장 작은 동질집합 크기) 신분노출 공격의 성공확률(1/k 이하)에 그대로 적용이 된다. 따라서 주어진 데이터의 신분노출 보호수준은 k값으로 정확하게 표현될 수 있다. t-근접성은 민감속성의 동질집합 내 분포와 테이블 전체의 분포의 유사도를 측정하여 공격자가 동질집합으로부터 추가적으로 얻어낼 수 있는 정보를 제한하는 데 목적이 있고 이는 두 분포의 차이로 직접 표현될 수 있기 때문에 기준이 되는 t값은 추론노출 공격의 성공확률을 직접 제어하는 변수로 볼 수 있다.
이를 위해서 공격자의 유일한 전략은 동질집합 내 가장 많이 존재하는 민감속성 값이 공격대상자의 것이라고 추측하는 것이다. 따라서 한 동질집합의 속성노출 수준은 그 동질집합에 속한 민감속성 값들 중 가장 빈번히 나타나는 값의 비율로 계산할 수 있고 정보집합물의 속성노출 수준은 이 값들의 최대값으로 측정한다. 속성노출 수준 정의는 그림 12과 같이 정의한다.
하지만 각 동질집합의 크기가 다를 수 있어 데이터에 속한 개인들의 신분노출 확률은 각기 다를 수 있다. 따라서 한 정보집합물의 프라이버시 위협 수준은 그 정보집합물에 속한 모든 개인이 갖는 프라이버시 위협 수준 중 가장 큰 값으로 정의하는 것이 합리적이다. 이러한 정의는 정보집합물을 공개 혹은 공유하는 업체는 그 정보집합물에 포함된 모든 개인이 안심할 수 있는 수준의 프라이버시 수준을 보장할 의무가 있으며 어느 한 개인의 프라이버시도 포기할 수 없음을 의미한다.
연구진은 사람들의 높은 수준의 얼굴 이미지에 대해 훈련된 새로운 Feed-forward encoder-decoder 네트워크 아키텍쳐를 사용하였다. 또한 네트워크는 주어진 비디오나 주어진 ID에 대해 재교육될 필요가 없다는 점에서 글로벌하며, 시간이 지남에 따라 왜곡이 거의 없는 자연스러운 이미지 시퀀스를 생성한다고 설명했다.
이에 본 고에서는 기존에 사용되던 해쉬를 이용한 임시대체키 생성방법을 더욱 보완하였고, 나아가 랜덤 임시키를 사용하여 본 식별자와의 연관성을 완전히 차단하는 기법을 소개하였다. 또한 비식별화 된 두 데이터가 결합되었을 때 프라이버시 수준이 현격히 떨어질 수 있음을 설명하였고 이러한 데이터를 대행하여 결합하여야 하는 전문기관의 역할과 책임에 대한 문제는 입법적으로 해결할 수밖에 없음을 지적하였다.
정보손실 척도는 준식별자의 일반화에 의해 야기된 정보의 손실을 각 속성의 테이블 전체에서의 값의 범위 대비(예: 20살~60살) 각 레코드의 준식별자 값의 범위(예: 20대)의 평균비율로 측정하고 있다. 레코드의 값의 범위는 항상 전체 테이블에서의 범위보다 작거나 같기 때문에 이 척도는 항상 0부터 1까지의 실수 값을 갖는데, 0에 가까울수록 일반화가 많이 안 된 상태로 유용성이 증가하고, 1에 가까울수록 일반화가 많이 되어 유용성이 떨어짐을 표시한다.
이 노출의 성공 여부는 공격자가 공격대상자에 대한 배경지식이 없을 때 얻을 수 있는 정보인 전체 데이터의 민감 속성 분포와 배경지식이 있을 때 얻을 수 있는 정보인 동질집합 내의 민감속성 분포의 상대적 차이에 의해 결정된다는 점이 핵심이다. 만약 공격대상자의 동질집합을 분석했을 때 평균 혈압이 120이므로 공격대상자의 혈압이 120 근처일 확률이 높다고 판단하면 이는 속성노출 공격에 해당된다. 하지만 이 정보의 가치는 공격자가 공격대상에 대한 배경지식이 없어도 어차피 알 수 있는 정보와 다를 때만 가치가 있다.
반대로 불확실성이 가장 높은 경우는 열개의 레코드 중 5개가 "교육직"이고 나머지 5개가 "공무원”으로 균등한 분포를 가질 때, 엔트로피는 가장 커지고 log(2)=1로 계산된다
반면에 전자의 경우에 공격자는 공격대상이 "교육직"인지 "공무원"인지 어느 하나도 더 유리한 확률로 추측할 수가 없기 때문에 더 높은 비식별 수준을 유지한다고 해석된다
민간 소비자 단체 및 시민단체는 개인의 정보를 본래의 목적과 달리 활용하고 제3의 단체에게 공유하는 행위에 대한 우려를 표해왔고 가이드라인에 기술된 비식별 조치 기준의 효과에 대한 불신을 표현해 왔다. 발표된 지 1년 만에 정부는 본 가이드라인의 개선 방안을 모색하기 시작하였고, 2018년 데이터 3법 개정안이 발의되었다. 하지만 법제화된 것이 아닌 ‘가이드라인’이라는 한계로 본격적인 데이터 활용은 시행령 등 구체적인 제도가 마련되어야 할 것으로 보인다.
앞서 조사한 세 국가가 공식적으로 발표한 기술 문서 또는 가이드라인들을 분석한 결과, 이에 대한 공통점은 데이터셋의 비식별화에 대한 법률이 체계적으로 제정되어 있다는 것과 데이터셋에 대한 비식별화를 국가적으로 규제하기 위한 자국민들에게의 지식전달이다. 법적으로 비식별화를 공개하는 데이터셋에 대해 비식별화를 수행할 것을 규정하고 있고, 비식별화된 완료된 데이터는 더 이상 개인정보가 아님을 법적으로 명시하고 있으며, 왜 비식별화를 수행해야 하는지 등의 비식별화에 대한 여러 안내 문서들을 발간함으로써, 이를 통해 자국민들이 비식별화의 필요성을 점차 깨달을 수 있도록 해왔다.
본 가이드라인은 비식별 조치를 통해 개인정보를 안전하게 활용할 수 있는 지원 및 관리체계를 제시하였다. 분야별 전문기관을 정하였으며, KISA에 개인정보 비식별 지원센터를 설치하여 운영을 개시하였다.
RAPPOR은 사용자 소프트웨어의 사용 통계 내역 등을 수집하되 강력한 프라이버시를 보장하는 기술이다. 사용자의 소프트웨어로 부터 사용 내역 통계 데이터 등을 수집할 때 수집 결과에 Random response를 통한 Noise를 추가시켜 각 사용자의 프라이버시는 유지하는 동시에 전체적인 수집 통계는 정확하게 유추할 수 있도록 했다. 2017년 4월에는 Google이 이어서 “Secured Aggregation”라는 논문을 발표하였는데, 이는 Google App인 Gboard에 사용자의 쿼리 검색 추천 기능을 학습시키고 이러한 학습 결과 및 사용 내역 등의 집계 데이터를 Google의 서버로 보내는 것이다.
앞서 조사한 세 국가가 공식적으로 발표한 기술 문서 또는 가이드라인들을 분석한 결과, 이에 대한 공통점은 데이터셋의 비식별화에 대한 법률이 체계적으로 제정되어 있다는 것과 데이터셋에 대한 비식별화를 국가적으로 규제하기 위한 자국민들에게의 지식전달이다. 법적으로 비식별화를 공개하는 데이터셋에 대해 비식별화를 수행할 것을 규정하고 있고, 비식별화된 완료된 데이터는 더 이상 개인정보가 아님을 법적으로 명시하고 있으며, 왜 비식별화를 수행해야 하는지 등의 비식별화에 대한 여러 안내 문서들을 발간함으로써, 이를 통해 자국민들이 비식별화의 필요성을 점차 깨달을 수 있도록 해왔다.
앞서 해외 동향 분석을 통해 해외 주요국들이 이미 비식별화에 대한 법률은 물론이고, 비식별화가 여러 기업에서 정확한 목적으로 사용될 수 있도록 여러 가이드라인을 공표하고 체계를 갖추려고 하는 모습을 확인할 수 있었다.
이 방법을 통해서 정보제공자는 자신의 데이터 중 어떤 데이터가 다른 제공자들도 공통으로 보유하고 있는지 외 다른 제공자가 보유한 데이터에 대한 어떠한 정보도 알 수 없고, 다른 제공자의 데이터에 대한 조작이 불가능하다. 활용자는 공통결합키를 거짓으로 요청할 수 없기에 결합에 불필요한 데이터가 활용자에게 전달되지 않으며, 결합키로부터 원래의 식별자를 추측할 수 없다.
즉, 데이터의 가장 작은 동질집합의 크기가 5라고 해서 달성한 신분노출 수준이 1/5가 아니라 이 확률에 소속노출 수준을 곱해줘야 한다. 이는 공격자가 이 데이터에 공격대상자가 포함되어 있다는 100% 확신이 없이는 신분노출 확률이 1/5라고 단정 지을 수 없음을 의미한다.
하지만 만약 데이터 전체 환자의 평균 혈당도 90mg/dL이었다면 공격자의 배경지식은 추가적인 정보를 제공하지 않게 된다. 이에 착안한 프라이버시 모델이 t-근접성이고 k-익명성 연관 모델 중 정보이론 측면에서 프라이버시 수준에 대한 가장 근본적인 접근방식을 보여주고 있다. 추론노출에서 추론되는 민감속성의 값은 반드시 동질집합 내에서 보여지는 민감속성의 값이 아닐 수도 있다는 점이 속성노출과의 차이점 중 하나이다.
호주의 가이드라인에서는 합리적으로 식별이 가능한 지 판단하는 것은 데이터셋의 상황에 대한 고려가 필요하다고 지적하고 있다. 정보의 본질과 양, 누가 그 정보를 보유하고 있고 접근할 수 있는지, 접근이 가능한 다른 정보, 그리고 그 다른 정보를 이용하여 개인을 식별할 수 있는 실제 가능성 등의 항목을 고려하여 합리적으로 식별이 가능한 데이터 셋이라고 판단될 경우에 비식별화된 정보가 아닌 개인 정보라고 판단한다.
게다가 해쉬키(HK)를 모르기 때문에 전수 조사를 통한 특정 고객의 정보를 알아낼 수가 없다. 제 3자인 관찰자는 제공자 간의 통신을 통해서 해쉬키(HK)를 알아낼 수 없으며, 제공자와 활용자 간의 통신을 통해서 고객데이터를 접근할 수 없다.
비식별 데이터에 대한 재식별 위험은 환경적인 요소, 공격자의 능력과 의도, 속성노출 수준, 재식별 시 파급효과 등 여러 가지를 복합적으로 고려해야 하며, 재식별 위험 수준에 따라서 데이터 비식별화 수준을 결정해야 한다. 즉 침해 위험요소를 파악하고 각 요소 별 위험 수준을 정량화하여 그 요소별 수준들의 곱으로 침해 위험도를 계산하고, 이와 비례하여 프라이버시 수준을 강화하는 방식을 취하는 것이 합리적이다. 재식별 위험도에 대한 적절한 비식별화 수준은 모델에 따라 다르고 정책에 의존하는 값이기 때문에 각 모델의 기준값 선정은 모델별로 정의하고 프라이버시에 대한 현 인식수준과 경험적인 판단기준을 활용하여 결정하여야 한다.
즉, k-익명성을 적용했을 때 가장 완화된 k값으로 사용되는 값은 3이고 이는 프라이버시 보호의 중요도가 가장 낮은 상황에서 개인이 심리적으로 받아들일 수 있는 프라이버시 침해확률 중 가장 높은 값이 1/3=0.333 임을 의미한다. 또한 가장 강화된 k값으로는 20이 사용되는데, 이는 프라이버시 보호의 중요도가 가장 높은 상황에서 개인이 받아들일 수 있는 프라이버시 침해확률 중 가장 높은 값이 1/20=0.
δ-노출은 t-근접성과 같은 맥락 하에서 프라이버시 모델을 제시하고 있다. 즉, 동질집합 내 민감속성의 분포가 전체데이터의 분포와 동일할수록 프라이버시 수준이 높은 것으로 간주된다. 하지만 t-근접성이 전체 분포와 동질집합의 분포를 분포 대 분포로서 비교하는 반면 δ-노출은 각 민감속성 값의 동질집합 내 비율과 전체 데이터에서의 비율의 유사성을 비교함으로서 간접적으로 분포간의 비교를 하고 있다.
예를 들어, 만약 동질집합의 크기가 8이고 그 민감속성 값들이 {Heart Disease, Viral Infection, Cancer, Cancer, Cancer, Cancer, Cancer, Cancer}라고 하면, 동질집합 내 세 가지 다른 민감속성을 갖기 때문에 l=3이지만 8개의 레코드 중 6개의 레코드가 Cancer이기 때문에 공격자는 6/8=75%의 확률로 공격 대상자의 민감속성을 알 수 있다. 즉, 민감속성 값들의 분포를 고려하지 않기 때문에 속성노출의 성공률이 높아졌다.
하지만 이 정보의 가치는 공격자가 공격대상에 대한 배경지식이 없어도 어차피 알 수 있는 정보와 다를 때만 가치가 있다. 즉, 전체 데이터의 평균 혈압도 120이고 동질집합의 평균 혈압도 120이라면 공격자는 공격대상자에 대한 배경지식으로 인해 추가적으로 얻은 정보가 없기 때문에 추론 노출 공격은 실패한 것으로 판단된다.
추론노출을 목적으로 제안된 모델로는 δ-노출과 t-근접성이 있다
하지만 δ-노출의 경우는 실제로 테이블 내 민감속성 분포와 동질집합 내의 민감속성 분포의 유사성을 보장하지 못하기 때문에 주어진 테이블의 추론노출 보호수준 측정은 t-근접성이 제시하고 있는 방법으로 측정하는 것이 바람직하다.
하지만 후자의 경우는 동질집합의 레코드들 중 90%가 "교육직"이므로 공격자는 매우 높은 성공률로 공격대상자가 " 교육직"이라고 추측할 수가 있다

후속연구

기본형 l-다양성은 동질집합의 “다양성 수준을 그 동질집합에 포함된 서로 다른 민감속성 값들의 개수로 측정하지만, 단순히 다른 값들의 개수로 다양성을 판단하는 데는 한계가 있다
기존에는 법제화된 것이 아닌 ‘가이드라인’이었기 때문에 한계가 있었고, 데이터 3법이 개정되기 이전에는 데이터 활용이 사실상 불가능했다
2016년 대한민국 정부는 ‘비식별 조치 가이드라인’ 을 발표함으로써 개인정보가 포함된 자료를 활용하기 위해 취해야 하는 비식별화 절차와 방법들을 소개하여 비식별화를 활성화하고자 하였고, 2018년 데이터 3법 개정안이 발의되면서 데이터 산업이 활성화될 것으로 기대되고 있다. 데이터 3법에서 주목해야 할 점은 개인의 명시적 동의 없이 연구 목적으로 사용하기 위해서는 비식별 조치가 이뤄져야 한다는 것인데, 국내에서 데이터 활용을 위한 움직임으로 인해 활용되는 데이터의 품질도 크게 향상될 전망이다.
데이터 기반 소속노출 수준을 측정하기 위해서는 우선 비식별화 데이터의 원천데이터인 모 데이터에 대한 파악이 필요하다. 모 데이터는 비식별화 데이터에 포함된 개인이 모두 포함되어 있으며 공격자가 접근할 수 있는 데이터 모두를 말한다.
이 문제는 차후에 논의할 엔트로피형과 재귀형 l—다양성에도 그대로 적용된다. 따라서 개선안에서는 모델의 파라미터인 l에 의존하지 않고 속성노출의 방어수준을 나타낼 수 있는 새로운 기준을 활용해야 할 것으로 보여진다.
또한 “재식별 시도 가능성”과 “재식별 시 영향도” 를 3, 4가지로 분류를 한 후 이를 가지고 기준을 도출하는 방법은 평가의 결과가 왜곡될 수 있는 여지가 있다
비식별 정보파일에 대한 관리 담당자 지정 및 비식별 조치 관련 정보 공유 금지 등의 관리적 보호조치, 비식별 정보파일에 대한 접근통제 및 보안 프로그램 운영 등의 조치가 필요한 기술적 보호조치가 있다. 또한 재식별 가능성을 열어두고 정기적으로 모니터링을 해야 한다.
또한, 프라이버시 위협의 종류인 신분노출, 속성노출, 추론 노출, 소속 노출, 자취 노출 등을 분류하여 활용방안을 제시하였으며, 현 가이드라인의 적정성 평가를 새로운 기준으로 활용하여 적정성 평가 개선 방법을 제시하고 있다. 또한, 정보집합물 결합 절차로 임시대체키에 대한 보완점 및 정보집합물 결합시 비식별화 조치 등에 관한 개선안을 제시하고 있다.
본고에서는 국내외의 다양한 비식별 정보 활용사례를 분류하고 이에 따른 다양한 비식별화 모델 및 기법들을 정리하였다. 또한, 프라이버시 위협의 종류인 신분노출, 속성노출, 추론 노출, 소속 노출, 자취 노출 등을 분류하여 활용방안을 제시하였으며, 현 가이드라인의 적정성 평가를 새로운 기준으로 활용하여 적정성 평가 개선 방법을 제시하고 있다. 또한, 정보집합물 결합 절차로 임시대체키에 대한 보완점 및 정보집합물 결합시 비식별화 조치 등에 관한 개선안을 제시하고 있다.
전문기관이 결합을 수행하는 과정에서 발생할 수 있는 개인정보 침해를 대비해서 법률적으로 전문기관의 역할과 권한을 강화할 필요가 있다. 만약 전문기관이 정보집합물 결합으로 인해서 법률적 제재를 당한다면 정보집합물의 결합은 실질적으로 어려워지며 이로 인한 잠재적인 사회적 경제적 이익은 포기해야 할 것으로 보여진다.
법제화된 것이 아닌 ‘가이드라인’이라는 한계로 본격적인 데이터 활용은 시행령 등 구체적인 제도가 마련되어야 할 것이다.
본고는 개선안을 통해 개인정보의 남용을 막고 비식별화 조치를 활성화함으로써 데이터 활용과 개인정보 보호에 대한 긍정적인 기여를 할 수 있을 것으로 기대된다.
비식별 조치가 충분하지 않은 경우 공개 정보 등 다른 정보와의 결합 및 다양한 추론 기법 등을 통해 개인이 식별될 우려가 있기 때문에 개인정보 보호책임자 책임 하에 외부전문가가 참여하는 비식별 조치 적정성 평가단을 구성하여 개인식별 가능성에 대한 엄격한 평가가 필요하다. 적정성 평가 시 프라이버시 보호 모델 중 k-익명성을 활용하는데, k-익명성은 최소한의 평가 수단이며 필요시 추가적인 평가모델인 l-다양성, t-근접성을 활용한다.
빅데이터 분석에 활용하기 위해 서로 다른 사업자가 보유하고 있는 정보집합물을 결합하는 경우 개인별로 부여된 식별자가 매칭키로 사용되는데, 정보집합물 간 결합·분석을 위해서는 결합 과정에서만 임시로 매칭키 역할을 하는 임시 대체키의 활용이 필요하다
또한 전문기관 결합대행 시 비용이 발생한다. 이러한 이유로 현재 가이드라인은 결합된 데이터를 활용하기 이전에 이를 보완할 필요가 있다.
기존에는 법제화된 것이 아닌 ‘가이드라인’이었기 때문에 한계가 있었고, 데이터 3법이 개정되기 이전에는 데이터 활용이 사실상 불가능했다. 이런 관점에서 가이드라인의 한계를 해결함으로써 데이터 활용의 기반이 마련될 것으로 보인다.
빅데이터, IoT 등 IT 융합기술 발전으로 데이터 이용 수요가 급증함에 따라 주요 선진국들은 데이터 산업 활성화를 위한 정책을 추진 중에 있다. 이에 빅데이터 활용에 필요한 비식별 조치 기준 및 절차, 방법 등을 구체적으로 안내하여 안전한 빅데이터 활용 기반 마련과 개인정보 보호 강화를 도모해야 한다.
빅데이터 분석에 활용하기 위해 서로 다른 사업자가 보유하고 있는 정보집합물을 결합하는 경우 개인별로 부여된 식별자가 매칭키로 사용되는데, 정보집합물 간 결합·분석을 위해서는 결합 과정에서만 임시로 매칭키 역할을 하는 임시 대체키의 활용이 필요하다. 임시 대체키를 활용한 결합을 허용하는 경우에도 무분별한 결합을 통한 개인정보 침해 소지를 방지하기 위해 전문기관에서만 결합을 하도록 하는 등 지원 및 관리 체계가 필요하다.
하지만 아직 해결해야 할 법률적으로 보완되어야 할 사항이 남아있다. 전문기관이 결합을 수행하는 과정에서 발생할 수 있는 개인정보 침해를 대비해서 법률적으로 전문기관의 역할과 권한을 강화할 필요가 있다. 만약 전문기관이 정보집합물 결합으로 인해서 법률적 제재를 당한다면 정보집합물의 결합은 실질적으로 어려워지며 이로 인한 잠재적인 사회적 경제적 이익은 포기해야 할 것으로 보여진다.
t-근접성 모델은 비식별화의 이상적인 목표를 제시하고 있으나, 실질적으로 t-근접성을 만족시키는 비식별화를 수행하는 것이 기술적으로 어려울 때가 많고, 적절한 t값에 대한 이론적인 뒷받침이 부족한 상태이다. 특정 t값이 공격자가 민감속성에 대해서 추가적으로 얻는 정보의 양과 어떤 관련이 있는지에 대한 기준이 부재한 점이 t-근접성의 이론적 한계로 여겨진다.
이 경우 공격자는 자신의 공격대상자의 혈당수준이 다른 환자들에 비해서 높은 혈당을 갖고 있다는 정보를 배경지식으로부터 추가적으로 얻을 수 있다. 하지만 만약 데이터 전체 환자의 평균 혈당도 90mg/dL이었다면 공격자의 배경지식은 추가적인 정보를 제공하지 않게 된다. 이에 착안한 프라이버시 모델이 t-근접성이고 k-익명성 연관 모델 중 정보이론 측면에서 프라이버시 수준에 대한 가장 근본적인 접근방식을 보여주고 있다.
하지만 법제화된 것이 아닌 ‘가이드라인’이라는 한계로 본격적인 데이터 활용은 시행령 등 구체적인 제도가 마련되어야 할 것으로 보인다.
하지만 아직 해결해야 할 법률적으로 보완되어야 할 사항이 남아있다. 전문기관이 결합을 수행하는 과정에서 발생할 수 있는 개인정보 침해를 대비해서 법률적으로 전문기관의 역할과 권한을 강화할 필요가 있다.
그 이유는 한 집합의 부분집합의 엔트로피는 항상 그 모집합의 부분집합보다 클 수가 없기 때문이다. 하지만 전체 데이터의 민감속성이 균등하지 않다면 엔트로피가 log(l)이 안 될 수도 있고, 이 경우 이 기법을 적용하기에는 무리가 있을 수 있다. 따라서 이 기법을 적용하기 전에 전체 테이블의 엔트로피를 먼저 계산해 보고 적용 여부를 판단하여야 한다.

참고문헌 (11)

Health Insurance Portability and Accountability？Act of 1996, Public Law No. 104-191, 110？Statutes. 1936 (1996)
Nergiz, Mehmet Ercan and Atzori, Maurizio and？Clifton, Chris, "Hiding the Presence of？Individuals from Shared Databases", Proceedings？of the 2007 ACM SIGMOD International？Conference on Management of Data, 2007
Erlingsson, Pihur, Korolova, "A. Rappor:？Randomized aggregatable privacypreserving ordinal response." In Proceedings of the 2014 ACM？SIGSAC conference on computer and communications security (2014), ACM, pp. 1054-1067,？2014
Cynthia Dwork, "Differential Privacy",？Proceedings of International Conference on Automata, Languages, and Programming (ICALP？2006), 2006
Office for Government Policy Coordination,？Ministry of the Interior and Safety, Korea？Communications Commission, Financial Services？Commission, Ministry of Science, ICT and Future Planning, Ministry of Health and Welfare,？"Guideline on De-identification of Personal？Information", 2016
Latanya Sweeney and Pierangela Samarati,？"Protecting privacy when disclosing information:？k-anonymity and its enforcement through generalization and suppression", Proceedings of the IEEE？Symposium on Research in Security and Privacy,？1998.
Ashwin Machanavajjhala, Johannes Gehrke, amd？Daniel Kifer, "l-Diversity: Privacy Beyond？k-Anonymity", ACM Transactions on Knowledge？Discovery from Data (TKDD), 1(1), 2007
Ninghui Li, Tiancheng Li, and Suresh？Venkatasubramanian, "t-Closeness: Privacy？Beyond k-Anonymity and l-Diversity", IEEE？23rd International Conference on Data？Engineering, 2007
R. J. Bayardo and R. Agrawal. Data Privacy？Through Optimal k-Anonymization. In？Proceedings of the 21st International Conference on Data Engineering, ICDE '05, pages 217-228,？2005.
K. LeFevre, D. J. DeWitt, and R. Ramakrishnan.？Mondrian Multidimensional K-Anonymity. In？Proceedings of the 22nd International Conference on Data Engineering, ICDE '06, page 25, 2006.
European Union. General Data Protection？Regulation. Official Journal of Eurpean Union,？49:L119, 2016, Retrieved from https://gdpr-info.eu

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증