$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

의료 비정형 텍스트 비식별화 및 속성기반 유용도 측정 기법
De-identifying Unstructured Medical Text and Attribute-based Utility Measurement 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.24 no.1, 2019년, pp.121 - 137  

노건 (Department of Computer Engineering, Myongji University) ,  전종훈 (Department of Data Technology, School of Software Convergence, Myongji University)

초록
AI-Helper 아이콘AI-Helper

비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.

Abstract AI-Helper 아이콘AI-Helper

De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, proces...

주제어

표/그림 (10)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 게다가, 기존 유용도 측정 방식들은 수치만 제공할 뿐, 이를 통해 비식별화된 결과가 어느 정도의 유용도를 가지고 있는지 사용자가 직관적으로 판단하기 어렵다는 단점이 있다. 따라서 본 연구는 비정형 텍스트를 대상으로 k-익명성을 적용한 비식별화 수행 결과에 대해 새로운 유용도 측정 기법을 제시하고, 측정 결과를 통해 직관적인 유용도 판단이 가능하도록 하는 것을 목적으로 한다.
  • 하지만, 비정형 텍스트로부터 추출된 식별자 및 준식별자들을 대상으로 비식별화가 수행된 결과는 위와 같이 하나의 튜플, 즉 하나의 뉴스 기사 또는 간호 일지가 한 명의 개인을 나타낸다고 보장할 수 없다. 따라서, 본 연구는 기존의 유용도 측정 방식을 보완, 비정형 텍스트를 대상으로 한 비식별화에 부합하는 새로운 측정 방식을 제안한다.
  • 일반 적으로는, k-익명성의 경우 k 값을 높이면 높일 수록 개인을 식별할 수 있는 확률은 낮아지지만, 반대로 그만큼 유용도는 낮아질 수 있다. 따라서, 비식별화 수행 결과를 통해 개인을 식별할 수 있는 확률이 높지 않으면서 동시에 유용도 손실을 최소화 하는 것이 본 연구의 목적이며, 이를 위해 비정형 텍스트 대상으로 한 비식별화 결과에 적합한 유용도 측정 방식을 제안한다.
  • 위의 정규화 과정을 통해 유용도 수치를 0과 1 사이의 값으로 변환하더라도, 이를 통해 직관적으로 어느 정도의 유용도를 갖는지, 또는 과연 이 수치가 허용 가능한 범위 내의 수치인지 판단하기는 쉽지 않다. 따라서, 유용도 허용 한계값(threshold)을 계산하고, 이 한계값을 기준으로 유용도 수치에 대한 직관적인 판단이 가능하도록 하는 방안을 제시한다.
  • 기존 대부분의 의료 분야 비정형 텍스트에 대한 비식별화 연구에서는 모든 PHI에 대해 무조건적인 삭제 또는 치환을 수행하였다면, 본 연구는 정형 데이터에 사용되는 k-익명성 보호모델을 비정형 텍스트에 적용하여 준식별자들에 대한 비식별화를 수행, 기존의 의료 비정형 텍스트의 비식별화된 결과와 비교하였을 때 유용도를 높일 수 있는 방안을 제시하였다. 또한, 비식별화 결과에 적합한 새로운 유용도 측정 기법은 물론, 측정된 수치에 대해 직관적으로 유용도를 판단할 수 있는 방안을 제공함으로써, 비식별화에 대해 전문지식이 없는 일반 데이터 사용자들도 본 연구가 제시한 유용도 측정 방식 및 수치를 통해 비식별화된 데이터셋에 대해 손쉽게 유용도 판단이 가능하도록 하였다.
  • 본 연구는 PHI 항목들을 대상으로 한 비식별화를 수행하되, HIPAA에서 규정한 첫 번째 방법인 전문가에 의한 결정 방법을 적용, PHI 항목들에 대한 무조건적인 제거가 아닌 k-익명성 비식별화 보호 모델을 사용함으로써, 데이터 유용도의 훼손을 최소화하는 비식별화 방안을 제시하고, 이를 정량적으로 측정하여 달성도를 판단하기 위한 체계적인 방안을 제시하는데 그 목적이 있다.
  • 본 연구는 비식별화 등의 소프트웨어 개발 및 평가 목적으로 사용되는 간호 일지(nursing notes) 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화를 수행하는 방안을 제시하고, 수행 결과에 대한 새로운 유용도 측정 기법을 마련하여, 직관적인 유용도 판단이 가능하도록 한다.
  • 본 연구는 비식별화가 가장 활발하게 연구되고 있는 의료분야에서 발생되는 데이터 중 의사 진단 노트, 간호일지 등 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화를 수행하는 방안을 제시한다. 기존의 의료분야의 비정형 텍스트를 대상으로 수행한 비식별화 연구들은 HIPPA에서 규정한 방법 중 두 번째 방법인 ‘모든 PHI 항목들에 대한 단순 제거’를 적용한 것으로, 개인정보 노출 위험도는 최대한 낮출 수 있지만, 그만큼 수행된 결과에 대한 데이터 유용도는 현저히 낮을 가능성이 높다.
  • 본 연구는 의료 비정형 텍스트를 대상으로 k-익명성 보호 모델을 적용한 비식별화 방안을 제시하였다. 기존 대부분의 의료 분야 비정형 텍스트에 대한 비식별화 연구에서는 모든 PHI에 대해 무조건적인 삭제 또는 치환을 수행하였다면, 본 연구는 정형 데이터에 사용되는 k-익명성 보호모델을 비정형 텍스트에 적용하여 준식별자들에 대한 비식별화를 수행, 기존의 의료 비정형 텍스트의 비식별화된 결과와 비교하였을 때 유용도를 높일 수 있는 방안을 제시하였다.
  • 본 연구의 목적은 정형 데이터에 맞춰진 k-익명성 보호 모델을 적용하여 비식별화를 수행하고, 이 결과에 대한 유용도 수치가 보호 모델을 적용하지 않고 단순 제거하는 방법보다 높게 도출되도록 하는 것이다. 하지만 k-익명성은 정형 데이터에 적용되는 보호모델이므로, k-익명성을 적용하여 수행한 비식별화 결과의 유용도 측정 방식 또한 정형 데이터에 사용되는 방식을 고려할 필요가 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
비식별화라는 개념이 중요해진 이유는 무엇인가? 비식별화(De-identification)는 데이터셋으로부터 개인 식별 정보를 제거함으로써 남은 정보가 특정 개인을 식별할 수 없도록 하는 방법으로, 이를 통해 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험성을 낮출 수 있다[8]. 비식별화라는 개념이 중요해진 것은 빅데이터라고 불릴 만큼 방대한 양의 데이터에 대한 분석이 필요해지면서 개인정보 보호에 대한 이슈가 점점 대두되어가고 있기 때문이다. 빅데이터 시대의 정보 프라이버시 위험과 정책에 관한 실증 연구에서는 이러한 프라이버시 보호 정책과 개인정보 제공 여부와의 상관성 연구를 통해 정보 프라이버시 위험을 낮추는 것이 매우 중요함을 연구한 바 있다[13].
데이터 유용도 측정 방식들을 비정형 텍스트에 적용할 수 없는 이유는? 전문가의 결정에 의해 일부 PHI 항목들에 대해 단순 제거가 아닌 일반화를 거쳐 비식별화를 수행하게 되므로, 기존의 방식들과 비교하였을 때 데이터 활용 목적에 부합하는 비식별화를 수행할 수 있으므로 데이터 유용도를 높일 수 있는 방안이라고 판단한다. 또한, 본 연구에서 활용하는 k-익명성 보호모델과, 이에 따른 데이터 유용도 측정 방식들은 비정형 데이터가 아닌 정형 데이터를 대상으로 수행되는 방법이다. 따라서 이를 비정형 텍스트에 그대로 적용할수 없다.
비식별화(De-identification)란 무엇인가? 비식별화(De-identification)는 데이터셋으로부터 개인 식별 정보를 제거함으로써 남은 정보가 특정 개인을 식별할 수 없도록 하는 방법으로, 이를 통해 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험성을 낮출 수 있다[8]. 비식별화라는 개념이 중요해진 것은 빅데이터라고 불릴 만큼 방대한 양의 데이터에 대한 분석이 필요해지면서 개인정보 보호에 대한 이슈가 점점 대두되어가고 있기 때문이다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로