[논문]공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석

김수형; 정연돈; 이기용

공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석
The Privacy Safety of Public Data: A Case Study on Medical Statistics HIRA-NPS 2011 원문보기

김수형 (고려대학교 IT융합학과) , 정연돈 (고려대학교 컴퓨터.통신공학부) , 이기용 (숙명여자대학교 컴퓨터과학부)

개인정보가 포함된 데이터가 많은 기관에서 다양한 목적을 위해 배포되고 있다. 이러한 공개 데이터는 프라이버시 문제를 야기할 수 있기 때문에, 배포에 앞서 항상 데이터에 대한 프라이버시 보호가 고려되어야 한다. 그러나 현재 배포되는 많은 데이터는 충분하지 못한 프라이버시 보호 과정을 거쳐 배포되고 있다. 이 논문에서는 개인정보를 포함하는 데이터의 프라이버시 안전성을 분석한다. 이를 위해 우리는 건강보험심사평가원에서 배포한 2011년 진료정보 통계자료(HIRA-NPS)를 실험에 사용한다. 분석을 위해 기존에 널리 쓰이는 프라이버시 보호 모델 k-익명성(k-anonymity)과 l-다양성(l-diversity)을 차용하여 안전성 판단의 척도를 정의한다. 또한 실제 데이터에 이 척도를 적용하여 프라이버시 안전성을 측정하고, 그 결과가 갖는 의미를 분석한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

표본이 모집단을 반영하기는 하나, 실제 모집단에 대한 실험 결과는 표본에 대한 실험 결과와 다소 차이가 있을 것이라 예상된다. 우리는 향후 연구 에서 도메인의 크기, 속성, 표본의 크기 등을 고려하여 모집단의 프라이버시 안전성을 예측하고자 한다.
이 논문에서는 개인정보를 포함하는 공개 데이터를 분석하여 데이터의 프라이버시 안전성을 측정한다. 이것은 데이터를 배포하기 이전에 프라이버시 문제가 발생할 여지를 미리 알아본다는 점과, 현재 배포되고 있는 데이터가 어느 정도의 프라이버시 안전성을 지니고 있는지 확인한 다는 점에서 의미가 있다.
개인정보를 포함하는 데이터를 안전하게 배포하기 위해서는, 반드시 데이터의 프라이버시 보호 과정이 선행되어야 한다. 이 논문에서는 충분한 프라이버시 보호 기법이 적용되지 않은 실제 데이터를 분석하여 데이터의 프라이버시 안전성을 알아보았다. 우리는 기존 프라이버시 보호 모델을 척도로 삼아 실제 데이터가 어느 정도의 위험도를 지니고 있는지 확인하였다.
이 논문에서는 프라이버시 보호 기법 중 일반화 (generalization)기법을 중심으로 프라이버시 안전성을 분석하였다. 향후 연구에서는 분해(anatomy)[6], 분리 (disassociation)[7], 확률(probabilistic)[8] 등의 다양한 프라이버시 보호 모델을 척도로 삼는 프라이버시 안전성 분석이 필요하다.

가설 설정

민감한 정보는 밝혀지게 되면 곤란한 개인의 사적인 정보로서, 질병, 개인적인 흥미, 수입 등이 이에 해당한다. 이 논문에서 다룰 프라이버시 문제는 공격자가 준식별자들의 조합{QI₁, QI₂, ..., QI_n}을 배경 지식으로 하여 특정인의 민감한 정보{SI₁, SI₂, ..., SI_m} 를 알아내는 것으로 가정한다.
L4단계에서 공격자가 가지는 배경 지식의 속성 개수는 총 11개이다. 한편, 속성 중 주상병과 부상병은 환자의 질병에 대한 것으로, 이 실험에서의 민감한 속성으로 가정한다.

제안 방법

두 가지 실험을 통해 전체 환자 표본 데이터의 프라이버시 안전성을 알아보았다. 동일 조건의 모든 실험에서 k 값보다 l값이 다소 작은 값으로 측정되었다.
이 논문에서는 충분한 프라이버시 보호 기법이 적용되지 않은 실제 데이터를 분석하여 데이터의 프라이버시 안전성을 알아보았다. 우리는 기존 프라이버시 보호 모델을 척도로 삼아 실제 데이터가 어느 정도의 위험도를 지니고 있는지 확인하였다. 실험의 결과는 별도의 프라이버시 보호 과정 없이 데이터가 배포되어서는 안 된다는 사실을 시사한다.
즉, 이 값들이 클수록 더 높은 수준의 프라이버시가 보장된다. 우리는 실제 공개 데이터의 k값과 l값을 구하고, 이를 바탕으로 해당 데이터가 어느 정도의 프라이버시 안전성을 갖는지 분석한다.
이 장에서는 데이터의 프라이버시 안전성을 측정하는 방법에 대하여 설명한다. 이를 위해 먼저 몇 가지 배경지식과 기존 프라이버시 보호 모델에 대해 알아본다.

대상 데이터

82GB로, 약 2700만개의 레코드를 포함하고 있다. 데이터는 39개의 속성으로 구성 되어 있으나, 우리는 이 중 현실적으로 QI와 SI로 활용 가능한 것들만 고려한다. 실험에 활용한 상세 속성 정보는 표 1과 같다.
이는 2011년에 의료서비스를 이용한 모든 환자의 진료비 청구 명세서를 바탕으로 제작된 데이터이다. 데이터는 4600만 명의 모든 환자 중에서 3%(1,375,843명)의 환자를 층화 추출한 것으로 구성되어 있다. 우리는 전체 데이터 중 환자의 준식별자와 질병 정보(주상병, 부상병)가 포함되어 있는 명세서 일반테이블을 사용한다.
우리는 전체 데이터 중 환자의 준식별자와 질병 정보(주상병, 부상병)가 포함되어 있는 명세서 일반테이블을 사용한다. 데이터의 크기는 약 3.82GB로, 약 2700만개의 레코드를 포함하고 있다. 데이터는 39개의 속성으로 구성 되어 있으나, 우리는 이 중 현실적으로 QI와 SI로 활용 가능한 것들만 고려한다.
실험을 위해 건강보험심사평가원의 전체 환자 표본 자료[5]가 사용되었다. 이는 2011년에 의료서비스를 이용한 모든 환자의 진료비 청구 명세서를 바탕으로 제작된 데이터이다.
향후 연구의 한 가지 방향은 모집단의 프라이버시 안전성 추론이다. 우리는 모집단으로부터 표본 추출된 데이터를 실험에 사용하였다. 표본이 모집단을 반영하기는 하나, 실제 모집단에 대한 실험 결과는 표본에 대한 실험 결과와 다소 차이가 있을 것이라 예상된다.

데이터처리

실험에서는 평균 k, l값과 k값별 환자의 수를 측정하였다.(l값별 환자의 수는 k의 경우와 유사하여 제외하였다.

이론/모형

이것은 데이터를 배포하기 이전에 프라이버시 문제가 발생할 여지를 미리 알아본다는 점과, 현재 배포되고 있는 데이터가 어느 정도의 프라이버시 안전성을 지니고 있는지 확인한 다는 점에서 의미가 있다. 이를 위하여 우리는 프라이버시 보호 모델 k-익명성(k-anonymity)[3]과 l-다양성 (l-diversity)[4]을 차용한다. k와 l값은 각각 ‘k개 이상의 구별 불가능한 레코드’, ‘l 이상의 다양성을 지닌 레코드’를 의미한다.

성능/효과

11%의 환자는 1∼10%의 프라이버시 유출 확률을 의미하는 10∼99 범위의 k값을 가지며, 이 환자들에 대해서도 일정 수준의 프라이버시 안전성이 갖춰졌다고 할 수 있다.
그러나 1∼9 범위의 k값을 갖는 환자가 약 4만 8천여 명 존재하며, 이 중 1만여 명은 100%의 프라이버시 유출을 의미하는 k값 1을 갖는다. 같은 배경지식 단계에서 평균 k값이 약 51로 비교적 높은 수준의 프라이버시 안전성을 보인다고 생각할 수 있으나, 일부 환자의 프라이버시는 전혀 보호되지 않음을 확인할 수 있다.
배경지식 단계가 L1에서 L2로 증가할수록 점차 낮아지는 프라이버시 안전성은 L3에서 실질적으로 공격 가능한 수준까지 다다른다. 공격자가 L3정도의 배경지식만 확보한 다면 통계적으로 약 25% 환자의 병명을 100%의 확률로 알아낼 수 있다.
또한, 1∼9의 k값을 갖는 환자가 각각 전체의 75%, 76% 로, 대부분의 환자가 프라이버시 측면에서 비교적 안전하지 못한 상태인 것으로 보인다.
이것은 l-다 양성 모델이 k-익명성 모델보다 더 엄격한 프라이버시 보호 기준을 따르기 때문이다. 또한, 실험 결과는 공격자의 배경지식이 풍부할수록 낮은 프라이버시 안전성을 보인다. 배경지식 단계가 L1에서 L2로 증가할수록 점차 낮아지는 프라이버시 안전성은 L3에서 실질적으로 공격 가능한 수준까지 다다른다.
우리는 기존 프라이버시 보호 모델을 척도로 삼아 실제 데이터가 어느 정도의 위험도를 지니고 있는지 확인하였다. 실험의 결과는 별도의 프라이버시 보호 과정 없이 데이터가 배포되어서는 안 된다는 사실을 시사한다.
그림 1은 배경지식 단계가 L1일 때 k값 별 환자의 수와 그 비율을 나타낸 것이다. 전체 환자의 약 99%가 1000 이상의 k값에 해당하며, 이는 데이터가 L1 단계의 배경지식을 가진 공격자에 대하여 비교적 높은 수준의 프라이버시 안전성을 보임을 의미한다. 그러나 24명의 환자는 1에서 9 사이의 작은 k값을 가지며, 이 중 특히 10명의 환자는 1의 k값을 가진다.

후속연구

이 논문에서는 프라이버시 보호 기법 중 일반화 (generalization)기법을 중심으로 프라이버시 안전성을 분석하였다. 향후 연구에서는 분해(anatomy)[6], 분리 (disassociation)[7], 확률(probabilistic)[8] 등의 다양한 프라이버시 보호 모델을 척도로 삼는 프라이버시 안전성 분석이 필요하다.
향후 연구의 한 가지 방향은 모집단의 프라이버시 안전성 추론이다. 우리는 모집단으로부터 표본 추출된 데이터를 실험에 사용하였다.

핵심어

질문

논문에서 추출한 답변

개인정보를 포함하는 데이터의 활용은 어떠한 문제를 수반하는가?

개인정보를 포함하는 데이터의 활용은 항상 프라이버시 유출 가능성을 수반한다. 만약 데이터에 포함된 개인이 식별된다면, 그 개인의 민감한 정보가 노출될 수 있다.

개인정보가 포함된 데이터는 현재 어떠한 분야에서 활용되고 있는가?

개인정보가 포함된 데이터는 현재 마케팅, 사회 현상 분석, 연구 등의 다양한 분야에서 활용되고 있다. 애플의 음성인식 서비스 시리(Siri)는 사용자와 스마트폰의 대화 기록을 분석하여 서비스 품질을 높이는데 활용한다.

개인정보가 포함된 데이터의 배포에 앞서 항상 데이터에 대한 프라이버시 보호가 고려되어야 하는 이유는 무엇인가?

개인정보가 포함된 데이터가 많은 기관에서 다양한 목적을 위해 배포되고 있다. 이러한 공개 데이터는 프라이버시 문제를 야기할 수 있기 때문에, 배포에 앞서 항상 데이터에 대한 프라이버시 보호가 고려되어야 한다. 그러나 현재 배포되는 많은 데이터는 충분하지 못한 프라이버시 보호 과정을 거쳐 배포되고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석
The Privacy Safety of Public Data: A Case Study on Medical Statistics HIRA-NPS 2011 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석 The Privacy Safety of Public Data: A Case Study on Medical Statistics HIRA-NPS 2011 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석
The Privacy Safety of Public Data: A Case Study on Medical Statistics HIRA-NPS 2011 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper