$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정
Data Quality Measurement on a De-identified Data Set Based on Statistical Modeling 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.19 no.5, 2019년, pp.553 - 561  

전희주 (동덕여자대학교) ,  이현지 (동국대학교) ,  연규필 (호서대학교) ,  김동례 ((주)이지서티)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 개인정보 비식별화 데이터의 통계적 유용성에 대한 품질 측정 방안에 대하여 통계 모형화에 따른 예측 정확도 측면에서 고찰하였다. 4차 산업혁명 시대에서 정보통신기술을 통한 혁신에는 반드시 빅데이터의 효과적인 활용이 필수적이지만, 개인정보 이슈는 적극적인 빅데이터 활용에 제약이 되고 있다. 이를 해결하기 위해 비식별화 가이드라인이 제정되었으며 다양한 개인정보 비식별화 방법이 활용되면서 개인정보의 실질적인 재식별 가능성은 매우 낮아졌다. 반면에 강력한 비식별화는 데이터의 유용성을 떨어뜨리는 부작용이 나타날 수 있다. 그 동안은 재식별 불가능한 비식별화 방법이 연구의 주를 이루어 왔다면 본 연구에서는 대표적인 비식별 방법인 KLT 모형에 의한 비식별화 데이터에 대한 통계적 유용성 측면의 품질 측정에 대하여 연구하였다. 비식별화 데이터에 대한 통계적 예측모형의 정확도에 기반하여 비식별화 된 데이터의 통계적 유용성이 어느 정도 훼손되는지에 대하여 사례분석을 수행하였다. 또한, 비식별 자료에 어느 정도의 비식별화 되지 않은 자료가 추가되어야 예측모형의 정확도를 회복하는 지를 살펴봄으로써 비식별화된 자료의 데이터 유용성 정도에 대한 새로운 측정지표를 제안하였다.

Abstract AI-Helper 아이콘AI-Helper

In this study, the method of quality measurement for the statistical usefulness of de-identified data was examined in terms of prediction accuracy by statistical modeling. In the era of the 4th industrial revolution, effective use of big data is essential to innovation through information and commun...

주제어

표/그림 (4)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 예측모형 성능 비교 기반의 비식별화 데이터 품질 측정 방안을 제안하고 사례분석 결과를 제시했다는데 의미가 있다. 다만, 다양한 비식별화 방법론에 따른 데이터의 유용성 측정 비교연구는 다루지 못했다는 한계가 있으며 이는 향후 추가적인 연구 과제로 진행하고자 한다
  • 본 연구에서는 비식별화 데이터의 유용성에 대하여 예측 모형의 성능지표를 이용하여 검증하는 방안을 제시하였다. 비식별화된 자료를 포함하는 전체 데이터의 유용성은 비식별 자료를 제외했을 때의 모델링 결과를 토대로 판단할 수 있고, 비식별 처리된 자료만의 유용성 검증은 비식별 무관 자료를 훈련용 자료에 추가해가면서 모형 성능 측면에서 비식별 처리의 영향력이 미미 해지는 단계를 파악함으로써 이루어질 수 있음을 사례 분석으로 보여주었다.
  • 비식별화 데이터 유용성에 대한 기존 연구가 원본데이터와 비식별데이터 간의 상이한 정도를 측정하는 것이었다면, 본 연구에서는 비식별화 데이터의 유용성을 통계모형 구축을 통한 예측 정확도 측면에서 살펴보았다. 비식별 전후 데이터에 기반한 통계 예측모형을 비교 분석하여 비식별화 데이터의 데이터 품질을 평가하는 방법을 제시하고자 한다.
  • 비식별화 데이터 유용성에 대한 기존 연구가 원본데이터와 비식별데이터 간의 상이한 정도를 측정하는 것이었다면, 본 연구에서는 비식별화 데이터의 유용성을 통계모형 구축을 통한 예측 정확도 측면에서 살펴보았다. 비식별 전후 데이터에 기반한 통계 예측모형을 비교 분석하여 비식별화 데이터의 데이터 품질을 평가하는 방법을 제시하고자 한다.
  • )은 민감정보로 간주하여 비식별 조치를 적용하였다. 이는 실제 민감정보라기 보다는 본 연구 목적상 연속형 자료의 비식별화가 예측모형 구축에 미치는 영향을 알아보기 위하여 설정한 것이다. 모든 관측치가 구간화되어 [0:295], [100:104], .

가설 설정

  • 셋째, 비식별화 수행단계로서 선택한 비식별화 알고리즘이 구현되는 프로그램을 수행하는 단계이다. 넷째, 비식별화 데이터에 대한 데이터 품질 평가 단계이다. 평가 결과에 따라 두 번째 단계로 이동하여 프라이버시 모델에서의 안전도 수준을 다시 세팅할 필요가 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
비식별화의 대상이 되는 개인정보는 어떤 것들이 있는가? 비식별화의 대상이 되는 개인정보는 개인 식별 정보 로서 개인을 직접 식별하거나 유추하여 알 수 있는 모든 정보가 그 대상이 된다. 개인 식별 정보는 고유식별자, 준식별자 및 민감정보로 구분할 수 있다.
비식별화 중 단순 익명화 방법의 단점은? 이러한 비식별화를 위한 전통적인 기법은 데이터 마스킹, 가명처리, 데이터 범주화, 데이터 값 삭제, 총계 처리 등이 있다. 그러나 모든 속성정보에 대한 이러한 단순 익명화 방법의 적용은 개인정보 보호라는 목적은 달성할 수 있지만 데이터 활용성은 크게 떨어뜨릴 수 있다. 따라서 데이터 유용성을 적게 훼손시키면서 익명화 요구사항을 지킬 수 있는 프라이버시 모델이 사용되고 있다.
개인정보 비식별 조치 가이드라인에 따르면 개인정보는 어떻게 활용 가능한가? 빅데이터 활용의 중요성을 이미 인식하고 있는 정·관계에서도 관계부처 합동으로 개인정보 비식별 조치 가이드라인을 제정하여 비식별 조치 기준 및 지원․관리체계에 대한 안내를 하고 있다[2]. 이 가이드라인에서는 정보주체를 알아볼 수 없도록 비식별 조치를 적정하게 한 비식별 정보는 개인정보가 아닌 것으로 추정하여 빅데이터 분석에 활용 가능하다고 보고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. 양현철, 이영주, 김신곤, "개인정보 비식별화기술 적용수준이 빅데이터 활성화에 미치는 영향," 정보화연구, 제13권, 제3호, pp.395-404, 2016. 

  2. 국무조정실 등, 개인정보 비식별 조치 가이드라인, 2016. 

  3. 이영환, 전희주, 윤정연, "데이터 산업에서 창업 활성화를 위한 데이터 거래소 제안 : 금융거래소형 데이터거래소를 중심으로," 한국창업학회지, 제10권, 제2호, pp.28-49, 2015. 

  4. 김동국, 이혁, "빅데이터 기반의 개인정보 비식별화 동향," 한국인터넷정보학회지, 제16권, 제2호, pp.15-22, 2015. 

  5. 이현승, 송지환, 개인정보 비식별화기술의 쟁점 연구, 소프트웨어정책연구소, 2016. 

  6. 임형진, "빅데이터 환경에서의 개인정보 비식별 처리방법 분석," 전자금융과 금융보안, 제8호, pp.9-37, 금융보안원, 2017. 

  7. 엄수현, 이인경, 이우기, "빅데이터 기반 개인정보 비식별화 동향," 정보화연구, 제15권, 제4호, pp.545-552, 2018. 

  8. 김근령, 이대희, "보건의료 빅데이터 활용에 관한 법적검토-개인정보보호를 중심으로-," 과학기술법연구, 제24권, 제3호, pp.57-90, 2018. 

  9. D. Rebollo-Monedero, J. Forne, M. Soriano, and J. P. Allepuz, "k-Anonymous microaggregation with preservation of statistical dependence," Information Sciences, Vol.342, pp.1-23, 2016. 

  10. J. Soria-Comas, J. Domingo-Ferrer, D. Sanchez, and S. Martinez, "Enhancing Data Utility in Differential Privacy via Microaggregation- based k-Anonymity," The International Journal on Very Large Data Bases, Vol.23, No.5, pp.771-794, 2014. 

  11. D. Sanchez, J. Domingo-Ferrer, S. Martinez, and J. Soria-Comas, "Utility-preserving differentially private data releases via individual ranking microaggregation," Information Fusion, Vol.30, pp.1-14, 2016. 

  12. 강동현, 오현석, 용우석, 이원석, "비식별 데이터의 유사성 보존에 관한 연구," 한국정보처리학회 추계학술발표대회 논문집, 제24권, 제2호, pp.285-288, 2017. 

  13. H. Lee, S. Kim, J. W. Kim, and Y. D. Chung, "Utility-preserving anonymization for health data publishing," BMC Medical informatics and Decision Making, Vol.17, No.1(104), 2017. 

  14. 김동한, "개인정보 비식별화 기술 동향 및 전망," Weekly ICT Trend 주간기술동향, 제1809호, 정보통신기술진흥센터, pp.14-24, 2017. 

  15. K. LeFevre, D. DeWitt, and R. Ramakrishnan, "Incognito: Efficient full-domain k-anonymity," In Proceedings of the 2005 ACM SIGMOD international conference on Management of data (SIGMOD '05) , pp.49-60, 2005. 

  16. A. Machanavajjhala, J. Gehrke, and D. Kifer," $\ell$ -Diversity: Privacy beyond k-anonymity," 22nd International Conference on Data Engineering, 2006. 

  17. N. Li, T. Li, and S. Venkatasubramanian, "t-Closeness: Privacy beyond k-anonymity and l-diversity," IEEE 23rd International Conference on Data Engineering , 2007. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로