비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.
비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.
De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, proces...
De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, processing, storing and distributing information. Although there have been many studies in de-identification algorithms, protection models, and etc., most of them are limited to structured data, and there are relatively few considerations on de-identification of unstructured data. Especially, in the medical field where the unstructured text is frequently used, many people simply remove all personally identifiable information in order to lower the exposure risk of personal information, while admitting the fact that the data utility is lowered accordingly. This study proposes a new method to perform de-identification by applying the k-anonymity protection model targeting unstructured text in the medical field in which de-identification is mandatory because privacy protection issues are more critical in comparison to other fields. Also, the goal of this study is to propose a new utility metric so that people can comprehend de-identified data set utility intuitively. Therefore, if the result of this research is applied to various industrial fields where unstructured text is used, we expect that we can increase the utility of the unstructured text which contains personal information.
De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, processing, storing and distributing information. Although there have been many studies in de-identification algorithms, protection models, and etc., most of them are limited to structured data, and there are relatively few considerations on de-identification of unstructured data. Especially, in the medical field where the unstructured text is frequently used, many people simply remove all personally identifiable information in order to lower the exposure risk of personal information, while admitting the fact that the data utility is lowered accordingly. This study proposes a new method to perform de-identification by applying the k-anonymity protection model targeting unstructured text in the medical field in which de-identification is mandatory because privacy protection issues are more critical in comparison to other fields. Also, the goal of this study is to propose a new utility metric so that people can comprehend de-identified data set utility intuitively. Therefore, if the result of this research is applied to various industrial fields where unstructured text is used, we expect that we can increase the utility of the unstructured text which contains personal information.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
게다가, 기존 유용도 측정 방식들은 수치만 제공할 뿐, 이를 통해 비식별화된 결과가 어느 정도의 유용도를 가지고 있는지 사용자가 직관적으로 판단하기 어렵다는 단점이 있다. 따라서 본 연구는 비정형 텍스트를 대상으로 k-익명성을 적용한 비식별화 수행 결과에 대해 새로운 유용도 측정 기법을 제시하고, 측정 결과를 통해 직관적인 유용도 판단이 가능하도록 하는 것을 목적으로 한다.
하지만, 비정형 텍스트로부터 추출된 식별자 및 준식별자들을 대상으로 비식별화가 수행된 결과는 위와 같이 하나의 튜플, 즉 하나의 뉴스 기사 또는 간호 일지가 한 명의 개인을 나타낸다고 보장할 수 없다. 따라서, 본 연구는 기존의 유용도 측정 방식을 보완, 비정형 텍스트를 대상으로 한 비식별화에 부합하는 새로운 측정 방식을 제안한다.
일반 적으로는, k-익명성의 경우 k 값을 높이면 높일 수록 개인을 식별할 수 있는 확률은 낮아지지만, 반대로 그만큼 유용도는 낮아질 수 있다. 따라서, 비식별화 수행 결과를 통해 개인을 식별할 수 있는 확률이 높지 않으면서 동시에 유용도 손실을 최소화 하는 것이 본 연구의 목적이며, 이를 위해 비정형 텍스트 대상으로 한 비식별화 결과에 적합한 유용도 측정 방식을 제안한다.
위의 정규화 과정을 통해 유용도 수치를 0과 1 사이의 값으로 변환하더라도, 이를 통해 직관적으로 어느 정도의 유용도를 갖는지, 또는 과연 이 수치가 허용 가능한 범위 내의 수치인지 판단하기는 쉽지 않다. 따라서, 유용도 허용 한계값(threshold)을 계산하고, 이 한계값을 기준으로 유용도 수치에 대한 직관적인 판단이 가능하도록 하는 방안을 제시한다.
기존 대부분의 의료 분야 비정형 텍스트에 대한 비식별화 연구에서는 모든 PHI에 대해 무조건적인 삭제 또는 치환을 수행하였다면, 본 연구는 정형 데이터에 사용되는 k-익명성 보호모델을 비정형 텍스트에 적용하여 준식별자들에 대한 비식별화를 수행, 기존의 의료 비정형 텍스트의 비식별화된 결과와 비교하였을 때 유용도를 높일 수 있는 방안을 제시하였다. 또한, 비식별화 결과에 적합한 새로운 유용도 측정 기법은 물론, 측정된 수치에 대해 직관적으로 유용도를 판단할 수 있는 방안을 제공함으로써, 비식별화에 대해 전문지식이 없는 일반 데이터 사용자들도 본 연구가 제시한 유용도 측정 방식 및 수치를 통해 비식별화된 데이터셋에 대해 손쉽게 유용도 판단이 가능하도록 하였다.
본 연구는 PHI 항목들을 대상으로 한 비식별화를 수행하되, HIPAA에서 규정한 첫 번째 방법인 전문가에 의한 결정 방법을 적용, PHI 항목들에 대한 무조건적인 제거가 아닌 k-익명성 비식별화 보호 모델을 사용함으로써, 데이터 유용도의 훼손을 최소화하는 비식별화 방안을 제시하고, 이를 정량적으로 측정하여 달성도를 판단하기 위한 체계적인 방안을 제시하는데 그 목적이 있다.
본 연구는 비식별화 등의 소프트웨어 개발 및 평가 목적으로 사용되는 간호 일지(nursing notes) 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화를 수행하는 방안을 제시하고, 수행 결과에 대한 새로운 유용도 측정 기법을 마련하여, 직관적인 유용도 판단이 가능하도록 한다.
본 연구는 비식별화가 가장 활발하게 연구되고 있는 의료분야에서 발생되는 데이터 중 의사 진단 노트, 간호일지 등 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화를 수행하는 방안을 제시한다. 기존의 의료분야의 비정형 텍스트를 대상으로 수행한 비식별화 연구들은 HIPPA에서 규정한 방법 중 두 번째 방법인 ‘모든 PHI 항목들에 대한 단순 제거’를 적용한 것으로, 개인정보 노출 위험도는 최대한 낮출 수 있지만, 그만큼 수행된 결과에 대한 데이터 유용도는 현저히 낮을 가능성이 높다.
본 연구는 의료 비정형 텍스트를 대상으로 k-익명성 보호 모델을 적용한 비식별화 방안을 제시하였다. 기존 대부분의 의료 분야 비정형 텍스트에 대한 비식별화 연구에서는 모든 PHI에 대해 무조건적인 삭제 또는 치환을 수행하였다면, 본 연구는 정형 데이터에 사용되는 k-익명성 보호모델을 비정형 텍스트에 적용하여 준식별자들에 대한 비식별화를 수행, 기존의 의료 비정형 텍스트의 비식별화된 결과와 비교하였을 때 유용도를 높일 수 있는 방안을 제시하였다.
본 연구의 목적은 정형 데이터에 맞춰진 k-익명성 보호 모델을 적용하여 비식별화를 수행하고, 이 결과에 대한 유용도 수치가 보호 모델을 적용하지 않고 단순 제거하는 방법보다 높게 도출되도록 하는 것이다. 하지만 k-익명성은 정형 데이터에 적용되는 보호모델이므로, k-익명성을 적용하여 수행한 비식별화 결과의 유용도 측정 방식 또한 정형 데이터에 사용되는 방식을 고려할 필요가 있다.
제안 방법
NER(Named Entity Recognizer)을 활용한 식별자, 준식별자의 추출에 대한 precision과 recall 측정 실험 연구에서는 HIPPA에서 지정한 18가지 PHI 항목들을 식별자, 준식별자로 분류하고, 2개의 데이터셋인 Reuters-21578[10] 과 Gold Standard Corpus로부터 이 항목들을 Stanford Classifier[4]를 활용하여 얼마나 정확하게 추출하는지를 측정하였다.
Reuters-21578 데이터셋 중 무작위로 50건의 뉴스 기사로부터 사람 이름과 장소 단어를 추출하고, 이 추출 결과를 대상으로 [Figure 1]의 일반화 체계를 적용하여 k-익명성(k = 3)을 수행하였다. 50건의 뉴스는 대부분 금융, 경제에 대한 내용으로 구성되어 있고, 이로부터 준식별자로 추출된 355개의 단어에 대해 총 374ms의 비식별화 수행 시간이 소요되었으며, 약 30.
본 연구는 의료 비정형 텍스트를 대상으로 k-익명성 보호 모델을 적용한 비식별화 방안을 제시하였다. 기존 대부분의 의료 분야 비정형 텍스트에 대한 비식별화 연구에서는 모든 PHI에 대해 무조건적인 삭제 또는 치환을 수행하였다면, 본 연구는 정형 데이터에 사용되는 k-익명성 보호모델을 비정형 텍스트에 적용하여 준식별자들에 대한 비식별화를 수행, 기존의 의료 비정형 텍스트의 비식별화된 결과와 비교하였을 때 유용도를 높일 수 있는 방안을 제시하였다. 또한, 비식별화 결과에 적합한 새로운 유용도 측정 기법은 물론, 측정된 수치에 대해 직관적으로 유용도를 판단할 수 있는 방안을 제공함으로써, 비식별화에 대해 전문지식이 없는 일반 데이터 사용자들도 본 연구가 제시한 유용도 측정 방식 및 수치를 통해 비식별화된 데이터셋에 대해 손쉽게 유용도 판단이 가능하도록 하였다.
평균 동질집합 크기 방식은 동질 집합 크기가 클수록 유용도가 낮은 것으로 판단하는 방법으로 일반적으로 많이 사용되지만, 그만큼 보호 모델의 유무에 관계없이 적용되므로, 데이터 특성에 맞는 유용도 수치를 측정하기 어렵다. 반면에 분별력 측정 방식은 반드시 k 값을 적용한 비식별화 결과에 대해서만 측정이 가능하고, 유용도 수치에 대한 변수도 k만 존재하기 때문에, 본 연구는 분별력 측정 방식을 선택하여 보완한다.
본 연구 실험은 CPU i7 2.8GHz, RAM 16GB, HDD SSD 512GB 사양을 갖춘 맥북 프로를 기반으로 수행하며, 실험 장비에 mySQL을 설치하여 이에 비식별화 결과를 저장한다. 또한, 모든 실험코드는 JAVA8을 기준으로 작성하며, 비식별화 수행을 위해 ARX 라이브러리를 활용한다.
본 연구는, 위 연구에서 사용한 식별자, 준식별자 추출 방법을 활용하여, Reuters-21578 데이터셋으로부터 추출된 준식별자들을 대상으로 비식별화를 수행하고, 수행결과에 대한 유용도를 측정한다.
정형데이터 비식별화 결과에 사용되는 일반적인 분별력 측정 방식은 Record -Oriented 즉, 레코드별 동질집합들을 기준으로 계산하는 방식이다. 하지만, 본 연구에 사용된 비정형 텍스트는 하나의 레코드가 반드시 한 명의 개인정보에 해당한다는 보장이 없으므로, 레코드별이 아닌 준식별자별로 동질 집합에 대한 DM 값 (Attribute-Oriented DM)을 계산하기로 한다. 이를 수식으로 표현하면 아래와 같다.
대상 데이터
두 번째 데이터셋은 비식별화 자동화 연구[11]에 사용된 Gold Standard Corpus이다. 2,434건의 의료 간호일지로 구성되어 있으며. 각 간호일지에 포함된 환자 이름은 실제 이름과는 전혀 무관한 다른 값으로 대체되어, 개인을 식별할 수 없는 상태로 비식별화된 데이터셋이다.
Reuters-21578은 IR 분야 및 NER에서 많이 사용되는 공개 데이터 셋이며. 21,578건의 뉴스 기사로 이루어져 있다, 각 뉴스 기사는 제목, 본문, 날짜 항목들을 가지고 있지만, 본 연구는 이 중에 본문만을 대상으로 수행한다. 두 번째 데이터셋은 비식별화 자동화 연구[11]에 사용된 Gold Standard Corpus이다.
21,578건의 뉴스 기사로 이루어져 있다, 각 뉴스 기사는 제목, 본문, 날짜 항목들을 가지고 있지만, 본 연구는 이 중에 본문만을 대상으로 수행한다. 두 번째 데이터셋은 비식별화 자동화 연구[11]에 사용된 Gold Standard Corpus이다. 2,434건의 의료 간호일지로 구성되어 있으며.
이론/모형
비식별화 수행에는 오픈소스로 공개되어 있는 ARX: Data Anonymization Tool에서 제공하는 라이브러리를 활용한다[3]. ARX를 통해서 비식별화 수행 시에 k-익명성을 포함한 다양한 보호 모델은 물론 사용자가 원하는 형태의 일반화 체계를 적용할 수 있어, 본 연구의 비식별화 실험에도 ARX를 활용한다.
8GHz, RAM 16GB, HDD SSD 512GB 사양을 갖춘 맥북 프로를 기반으로 수행하며, 실험 장비에 mySQL을 설치하여 이에 비식별화 결과를 저장한다. 또한, 모든 실험코드는 JAVA8을 기준으로 작성하며, 비식별화 수행을 위해 ARX 라이브러리를 활용한다.
본연구에서 제시하는 k-익명성 보호모델 적용을 통한 비식별화 방법은 HIPPA에서 규제하는 비식별화 방법 중 ‘전문가에 의한 결정’에 해당된다.
성능/효과
HIPAA에서 명시한 비식별화 방법에 의거하여, 의료분야에서 발생하는 비정형 텍스트의 비식별화와 관련된 연구로는 free-text로 이루어진 의료 기록 데이터를 대상으로 “gold standard corpus”를 구축하고, 이를 통해 자동화된 비식별화를 수행하는 연구[11]가 있으며, 타 데이터 와의 결합을 통해 발생할 수 있는 재식별을 고려, 장기간에 걸쳐 생성되는 임상실험 텍스트를 대상으로 한 비식별화 자동화 시스템 연구[6]가 있다. 두 연구 모두 HIPAA에서 지정한 PHI 항목들 전체 또는 일부를 비식별화 대상으로 하고, 대상 데이터로부터 지정된 PHI 항목들의 추출 정확도를 정확도, 재현율, 그리고 F1-점수를 통해 측정하는 방식으로 자신들의 연구 결과의 우수성을 입증하였다. 또한, 두 연구 모두 HIPPA에서 명시한 “Safe Harbor” 방법, 18가지 PHI 항목들에 대한 제거 또는 가명화를 통한 비식별화를 수행하기 때문에 지정한 항목들을 정확하게 추출하고 나면 연구의 목표가 달성된 것이라고 봐도 무방하다.
후속연구
마지막으로, 비정형 텍스트에 대한 비식별화를 수행한다고 하면, 식별자 및 준식별자에 해당하는 단어들만 비식별처리 되고, 나머지는 원문 그대로 보여지는 형태이어야 할 것이다. 따라서, 비정형 텍스트의 비식별화 결과를 다시 원래의 비정형 텍스트 형태로 원상 복귀하는 방안과 이에 따른 구현도 향후 과제로 남긴다.
잘 알려진 대로 비정형 텍스트 문서에서 각 개인에 속하는 식별자, 준식별자들을 추출하고 이를 개인별로 그룹화하는 것에는 한계가 존재한다. 향후에는 추출 대상인 비정형 텍스트에서 개체(entity) 추출 시, 주위 문맥을 파악하여 추출되는 개체를 개인별로 정확히 그룹화 할 수 있다면, 정형데이터와 더 근접하게 구조화를 시킬 수 있을 것으로 예상한다.
질의응답
핵심어
질문
논문에서 추출한 답변
비식별화라는 개념이 중요해진 이유는 무엇인가?
비식별화(De-identification)는 데이터셋으로부터 개인 식별 정보를 제거함으로써 남은 정보가 특정 개인을 식별할 수 없도록 하는 방법으로, 이를 통해 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험성을 낮출 수 있다[8]. 비식별화라는 개념이 중요해진 것은 빅데이터라고 불릴 만큼 방대한 양의 데이터에 대한 분석이 필요해지면서 개인정보 보호에 대한 이슈가 점점 대두되어가고 있기 때문이다. 빅데이터 시대의 정보 프라이버시 위험과 정책에 관한 실증 연구에서는 이러한 프라이버시 보호 정책과 개인정보 제공 여부와의 상관성 연구를 통해 정보 프라이버시 위험을 낮추는 것이 매우 중요함을 연구한 바 있다[13].
데이터 유용도 측정 방식들을 비정형 텍스트에 적용할 수 없는 이유는?
전문가의 결정에 의해 일부 PHI 항목들에 대해 단순 제거가 아닌 일반화를 거쳐 비식별화를 수행하게 되므로, 기존의 방식들과 비교하였을 때 데이터 활용 목적에 부합하는 비식별화를 수행할 수 있으므로 데이터 유용도를 높일 수 있는 방안이라고 판단한다. 또한, 본 연구에서 활용하는 k-익명성 보호모델과, 이에 따른 데이터 유용도 측정 방식들은 비정형 데이터가 아닌 정형 데이터를 대상으로 수행되는 방법이다. 따라서 이를 비정형 텍스트에 그대로 적용할수 없다.
비식별화(De-identification)란 무엇인가?
비식별화(De-identification)는 데이터셋으로부터 개인 식별 정보를 제거함으로써 남은 정보가 특정 개인을 식별할 수 없도록 하는 방법으로, 이를 통해 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험성을 낮출 수 있다[8]. 비식별화라는 개념이 중요해진 것은 빅데이터라고 불릴 만큼 방대한 양의 데이터에 대한 분석이 필요해지면서 개인정보 보호에 대한 이슈가 점점 대두되어가고 있기 때문이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.