[논문]개인정보유출 사고의 분포 추정에 관한 연구

황윤희; 유진호

doi:10.13089/jkiisc.2016.26.3.799

개인정보유출 사고의 분포 추정에 관한 연구
A Study on the Distribution Estimation of Personal Data Leak Incidents 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.26 no.3, 2016년, pp.799 - 808

초록
AI-Helper

본 논문은 국내 개인정보유출사고 발생의 패턴을 찾고 어떤 분포를 따르는지 확인한 연구이다. 이를 위해 2011년도부터 2014년도까지 언론에 보도된 개인정보유출사고를 사용하였다. 조사결과를 바탕으로 'K-S통계량' 방법론을 사용하여 개인정보유출사고의 통계적 분포를 추정하였고, 적합도 검정을 실시하였다. 그 결과 '유의수준 95%에서 포아송분포와 지수분포 모두 높은 적합도를 지닌다.'는 사실을 정략적으로 입증하였고, 이를 통해 1년에 평균 12번씩 대형 개인정보유출사고가 발생되어 언론에 보도되었다는 것을 확인할 수 있었다. 본 연구는 향후 기업 및 조직의 개인정보 유출사고의 발생예측 및 정보보호 투자금액선정 등 보안경제성 분석에 유용하게 활용될 것으로 전망된다.

Abstract ▼ AI-Helper

To find the pattern of personal data leak incidents and confirm which distribution is suitable for, this paper searched the personal data leak incidents reported by the media from 2011 to 2014. Based on result, this research estimated the statistical distribution using the 'K-S Statistics' and tested the 'Goodness-of-Fit'. As a result, the fact that in 95% significance level, the Poisson & Exponential distribution have high 'Goodness-of-Fit' has been proven quantitatively and, this could find it for major personal data leak incidents to occur 12 times in a year on average. This study can be useful for organizations to predict a loss of personal data leak incidents and information security investments and furthermore, this study can be a data for requirements of the cyber-insurance.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

개인정보유출의 발생빈도가 포아송분포를 따르는 것으로 검증되었기 때문에 사고발생간격은 지수분포를 따른다는 것을 실증적으로 검증하고자 한다.
또한 시뮬레이션을 통한 ‘K-S 통계량’ 검증을 통해 모델의 적합성을 수치뿐만 아니라 시각적으로 확인하고자 한다.
본 논문은 개인정보유출사고 발생관련 실증적 데이터에 대한 정량적 확률분포 추정을 시도하였고 개인정보유출 사고 발생을 설명해주는 가장 유사한 통계적 분포를 찾고자 하였다.
본 논문은 선행연구를 더욱 발전시켜 개인정보유출사고에 적용하고자 ‘x2 적합도 검정’을 통해 최적의 분포를 정량적으로 입증하고자 한다.
본 연구는 개인정보유출 사고발생의 패턴과 이에 대한 통계적 분포를 추정하려 한다. 이를 위해 관측 데이터와 기존 이론상의 7가지 누적분포를 비교한 후, 가장 작은 유사성 차이(Similarity Gap)값을 갖는 누적분포의 종류를 식별하고자 한다.
본 연구에서는 개인정보유출사고 발생시기의 통계적 분포를 추정하고자 다음의 가설을 설정하였다.
본 연구에서는 개인정보유출사고에 초점을 맞춰 ‘K-S 통계량’ 방법론과 ‘카이제곱 적합도 검정’을 통해 가장 적합한 누적분포함수를 찾고자 한다.
일반적으로 관측 데이터는 가장 높은 확률을 나타내는 평균과 분산 등의 가치에 대한 분포를 찾아내는 것이 분포 추정의 원리이다[3]. 이 원리에 따라 관측 데이터를 정형화된 누적분포함수(Cumulative Distribution Functions, CDF)와 비교해 어떠한 분포를 따르는지 추정하고자 한다.
본 연구는 관측데이터가 2011년도부터 2014년도까지의 4개년의 데이터에 한정되어 있다는 한계점을 지닌다. 이러한 데이터 부족의 한계점을 극복하기 위해 관련데이터의 양을 증가시키고 더욱 정교화 하고자 한다. 향후 본 연구는 2015년의 개인정보유출사고 데이터를 확보하여 연구모델의 예측 검증력을 평가하고자 한다.

가설 설정

H′0: 개인정보유출 사고발생의 시간간격은 지수분포를 따를 것이다.
H′1: 개인정보유출 사고발생의 시간간격은 지수분포를 따르지 않을 것이다.
H₀: 개인정보유출 사고의 평균 발생 수는 포아송분포를 따를 것이다.
H₁: 개인정보유출 사고의 평균 발생 수는 포아송분포를 따르지 않을 것이다.
이 값은 X²분포표에 의해 유의수준 95%의 기각 값인 #보다 훨씬 작으므로 포아송분포를 따른다고 할 수 있다. 즉, 일정기간 동안의 개인정보유출 사고발생 수는 유의수준 5%에서 포아송분포를 따르므로, 귀무가설 H₀를 채택한다.

제안 방법

4.2.1의 과정에서 지수분포, 와이블분포, 카이제곱 분포 모두 높은 적합도를 가지므로 추가적으로 X²적합도 검정을 시행하였다. Table 7,8,9는 관측데이터의 실제 빈도수와 누적분포함수의 액셀 가상시뮬레이션 값을 비교한 X²적합도 검정의 결과이다.
그리고 x값에 해당하는 빈도수를 조사하여 ‘Actual Frequency(실제빈도)’와 ‘Actual Percent(실제확률)’의 값을 구하였다.
본 연구는 개인정보유출 사고발생의 패턴과 이에 대한 통계적 분포를 추정하려 한다. 이를 위해 관측 데이터와 기존 이론상의 7가지 누적분포를 비교한 후, 가장 작은 유사성 차이(Similarity Gap)값을 갖는 누적분포의 종류를 식별하고자 한다. 그리고 관측 데이터와 누적분포함수와의 유사성을 측정할 시 ‘K-S 통계량’을 사용해 계산한 후, 가장 적합한 분포를 찾고자 ‘Χ²-통계량’의 적합도 검정 방법론을 이용하고자 한다.
포아성분포의 적합도 검정을 위해 2011년부터 2014년까지의 개인정보유출 발생빈도(Occurrence Frequency)를 산출하였다.

대상 데이터

본 연구에서는 개인정보유출사고에 초점을 맞춰 ‘K-S 통계량’ 방법론과 ‘카이제곱 적합도 검정’을 통해 가장 적합한 누적분포함수를 찾고자 한다. 이 때, 본 연구에서는 분포추정에 가장 많이 사용되는 7가지의 함수(포아송, 지수, 정규, 감마, 베타, 와이블, 카이제곱)를 비교평가 대상으로 정하였다. 일곱 가지 분포함수 중 가장 밀접한 연관성은 지닌 포아송과 지수분포의 누적확률 계산식을 나타내면 다음과 같다[11].

데이터처리

‘K-S 통계량’ 방법론을 본 연구에 적용하여 (2)에서 도출된 결과(F(x))값과 관측데이터의 누적퍼센트 값(Fn(x))의 차이에 대한 절대 값을 구하였다.
(3)도출된 F(x)값에 대하여 ‘K-S 통계량(Kolmogorov-Smirnov test)’을 적용한다.
그리고 관측 데이터와 누적분포함수와의 유사성을 측정할 시 ‘K-S 통계량’을 사용해 계산한 후, 가장 적합한 분포를 찾고자 ‘Χ2-통계량’의 적합도 검정 방법론을 이용하고자 한다.
앞서 설명한 두 가설을 증명하기 위해 카이제곱 적합도 검정을 적용하였다. 통계방법론을 통해 관측데이터 분포와 포아성분포 및 지수분포와의 차이를 모두 검증하였다.
일반적으로 관찰결과로 얻은 데이터가 이론과 잘 일치하는지를 확인하는 것을 적합도 검정(goodness of fit test)이라고 한다. 이 때, 관측도수와 이론적인 기대도수가 부합하는지를 검정하기 위해 X²-통계량을 이용하였다. 기대도수를 E, 관측도수를 O라고 가정하면 X²-통계량 식은 다음과 같다.
이를 위해 관측데이터의 누적분포함수와 이론적 통계분포를 비교하여 최적의 누적분포함수를 찾는 ‘K-S 통계량’ 검증과 ‘X2 적합도 검정’ 방법론을 사용하고자 한다.
앞서 설명한 두 가설을 증명하기 위해 카이제곱 적합도 검정을 적용하였다. 통계방법론을 통해 관측데이터 분포와 포아성분포 및 지수분포와의 차이를 모두 검증하였다.

성능/효과

Actual 값과 Expected 값을 비교한 결과, 지수분포, 와이블 분포, 카이제곱 분포의 2-통계량은 ‘0.132326’, ‘0.137753’, ‘3.518911’로 나타났다.
카이제곱 적합도 검정의 결과, 유의수준 95%에서 개인정보유출사고의 평균발생횟수는 포아송 분포를 따르는 것으로 입증되었다. 또한, 개인정보유출사고 발생의 시간간격은 관측데이터의 누적분포와 7가지 통계적 분포를 비교한 결과 지수분포와 가장 가깝다는 사실을 입증할 수 있었다.
발생한 사건빈도(Occurrence Frequency)를 분석한 결과 4년 동안 평균 1개월에 1번씩 유출사고가 있었다는 것을 알 수 있다. 다음은 도출된 평균값을 포아송분포 식에 대입하여 기대도수를 구하였다.
741452’보다 큰 값을 가지므로 적합하다고 볼 수 없다. 지수분포와 와이블 분포 모두 적합성을 갖지만, 이 중에서 지수분포가 가장 최소값을 갖는 것으로 나타났다. 즉, 개인정보유출사고 발생의 시간간격은 ‘지수분포’와 가장 유사하다고 할 수 있고, 귀무가설인 H′₀를 채택한다.
카이제곱 적합도 검정의 결과, 유의수준 95%에서 개인정보유출사고의 평균발생횟수는 포아송 분포를 따르는 것으로 입증되었다. 또한, 개인정보유출사고 발생의 시간간격은 관측데이터의 누적분포와 7가지 통계적 분포를 비교한 결과 지수분포와 가장 가깝다는 사실을 입증할 수 있었다.

후속연구

또한 데이터를 수집함에 따라 개인정보유출사고 발생률을 기관·업종별로 분류하고, 각각의 분포를 추정하여 연구결과의 신뢰도를 향상시킬 예정이다.
본 연구는 관측데이터가 2011년도부터 2014년도까지의 4개년의 데이터에 한정되어 있다는 한계점을 지닌다. 이러한 데이터 부족의 한계점을 극복하기 위해 관련데이터의 양을 증가시키고 더욱 정교화 하고자 한다.
위의 연구들은 관측 표본데이터에 대해 가장 높은 적합도를 갖는 분포함수를 예측한다는 점에서 본 연구에 적용될 수 있다. 본 연구에서는 개인정보유출사고에 초점을 맞춰 ‘K-S 통계량’ 방법론과 ‘카이제곱 적합도 검정’을 통해 가장 적합한 누적분포함수를 찾고자 한다.
해당 결과는 대형 개인정보유출사고 발생빈도를 예측하고 확률을 측정하여 앞으로 발생할 수 있는 사고에 대비해 투자해야하는 금액 등을 산정하는 다양한 정량적 보안경제성 분석에 기초자료로 유용하게 활용될 수 있을 것으로 판단된다. 특히, 사고발생예측을 통해 손실을 예상하고 그에 따른 정보보안 예산의 투자금액산정연구 뿐만 아니라 개인정보 유출사고에 대한 통계적 분포추정을 수행함으로써 보안경제성 연구 활성화에 활용될 것으로 기대된다.
해당 결과는 대형 개인정보유출사고 발생빈도를 예측하고 확률을 측정하여 앞으로 발생할 수 있는 사고에 대비해 투자해야하는 금액 등을 산정하는 다양한 정량적 보안경제성 분석에 기초자료로 유용하게 활용될 수 있을 것으로 판단된다. 특히, 사고발생예측을 통해 손실을 예상하고 그에 따른 정보보안 예산의 투자금액산정연구 뿐만 아니라 개인정보 유출사고에 대한 통계적 분포추정을 수행함으로써 보안경제성 연구 활성화에 활용될 것으로 기대된다.
이러한 데이터 부족의 한계점을 극복하기 위해 관련데이터의 양을 증가시키고 더욱 정교화 하고자 한다. 향후 본 연구는 2015년의 개인정보유출사고 데이터를 확보하여 연구모델의 예측 검증력을 평가하고자 한다. 또한 데이터를 수집함에 따라 개인정보유출사고 발생률을 기관·업종별로 분류하고, 각각의 분포를 추정하여 연구결과의 신뢰도를 향상시킬 예정이다.

참고문헌 (16)

Cha Jae Bok, "Gamma distribution," 2013. 10.10 http://ktword.co.kr/abbr_view.php?m_temp14413
David Vose, Quantitative Risk Analysis : A Guide to Monte Carlo Simulation Modelling, John Wiley & Sons, 605 Third Avenue, New York, NY 10158-0012, USA, pp.126-132, 1996.
David Vose, "Fitting Distributions to Dat a and why you are probably doing it wrong," 2010.02.15, http://www.vosesoftware.com/whitepapers/Fitting%20distributions%20to%20data.pdf.
Jeong-Bin Yim and Won-Jae Yang, "Estimating Cumulative Distribution Funtions with Maximum Likelihood to Sample Data Sets of a Sea Floater Model," Journal of Navigation and Port Research, 37(5), pp.453-461, Oct. 2013.

원문보기 상세보기
Jun Chang Hyun and Yoo Chul Sang, "Application of the Beta Distribution for the Temporal Quantification of Storm Events," Journal of Korean Water Resources Association, 45(6), pp.531-544. Mar. 2015.
Kim Jin Ho, Kim Hyeong Seok and Cho Sung Ho(2013), "A Ranging Algorithm for IR-UWB in Multi-Path Environment Using Gamma Distribution," The Journal of Korea Information and Communications Society, 38B(2), pp. 146-153, Feb. 2013.

원문보기 상세보기
Kim Phillip, Ahn Soyeon, Jeon Hyesung, Lee Jae Kwan, Park Sunghyun, Chang Seoil, Park Ilgun, Jung Changu and Kwon Segon, "Classification Accuracy Test of Hearing Laboratory Test Models for Railway Noise at Station Platform," Trans. Korean Soc. Noise Vib. Eng., 25(4), pp.299-305, Mar. 2015.

원문보기 상세보기
KISA, Information Security Survey, "Insurance and Reporting against Security Incidents", pp.26, Dec, 2010.
Korea Insurance Development Institute, CEO Report, "Activation Methods of Private Information Liability Insurance", CR 2012-04, pp.11, Dec. 2012.
Lee Jung Hoon, "Goodness of Fit for Probability Model," Master's Degree Thesis, Semyung University, Aug. 2004.
MATLAB(2008a), Programming, MATLAB Version 7.6 (R2008a).
Ministry of Science, ICT, and Future Planning, The Study of Broadcasting and Communications Policy, "A Study on Estimating Economic Damages from Internet Incidents for Cybersecurity Insurance", 13-Jinheong-098, pp.66, Nov. 2013.
Riddhi D., "Beta Function and its Applications," Department of Physics and Astron omy, The University of Tennessee, 2008.1 0.27, http://sces.phys.utk.edu/-moreo/mm08/Riddi.pdf.
Song Mi Kyung and Jung In Kyung, "Comparison of Goodness-of-Fit Tests using Grouping Strategies for Multinational Logit Regression Model," The Korean Journal of Applied Statistics, 26(6), pp.889-902, Oct. 2013.

원문보기 상세보기
Wikipedia, Tutorial for Poisson distribution, 2016.04.24, https://en.wikipedia.org/wiki/Poisson_distribution.
Wikipedia(2015), Tutorial for Exponential distribution, 2016.03.17, https://en.wikipedia.org/wiki/Exponential_distribution.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증