중소기업 프로파일링 분석을 통한 기술유출 방지 및 보호 모형 연구 A Study on Empirical Model for the Prevention and Protection of Technology Leakage through SME Profiling Analysis원문보기
Purpose Corporate technology leakage is not only monetary loss, but also has a negative impact on the corporate image and further deteriorates sustainable growth. In particular, since SMEs are highly dependent on core technologies compared to large corporations, loss of technology leakage threatens ...
Purpose Corporate technology leakage is not only monetary loss, but also has a negative impact on the corporate image and further deteriorates sustainable growth. In particular, since SMEs are highly dependent on core technologies compared to large corporations, loss of technology leakage threatens corporate survival. Therefore, it is important for SMEs to "prevent and protect technology leakage". With the recent development of data analysis technology and the opening of public data, it has become possible to discover and proactively detect companies with a high probability of technology leakage based on actual company data. In this study, we try to construct profiles of enterprises with and without technology leakage experience through profiling analysis using data mining techniques. Furthermore, based on this, we propose a classification model that distinguishes companies that are likely to leak technology. Design/methodology/approach This study tries to develop the empirical model for prevention and protection of technology leakage through profiling method which analyzes each SME from the viewpoint of individual. Based on the previous research, we tried to classify many characteristics of SMEs into six categories and to identify the factors influencing the technology leakage of SMEs from the enterprise point of view. Specifically, we divided the 29 SME characteristics into the following six categories: 'firm characteristics', 'organizational characteristics', 'technical characteristics', 'relational characteristics', 'financial characteristics', and 'enterprise core competencies'. Each characteristic was extracted from the questionnaire data of 'Survey of Small and Medium Enterprises Technology' carried out annually by the Government of the Republic of Korea. Since the number of SMEs with experience of technology leakage in questionnaire data was significantly smaller than the other, we made a 1: 1 correspondence with each sample through mixed sampling. We conducted profiling of companies with and without technology leakage experience using decision-tree technique for research data, and derived meaningful variables that can distinguish the two. Then, empirical model for prevention and protection of technology leakage was developed through discriminant analysis and logistic regression analysis. Findings Profiling analysis shows that technology novelty, enterprise technology group, number of intellectual property registrations, product life cycle, technology development infrastructure level(absence of dedicated organization), enterprise core competency(design) and enterprise core competency(process design) help us find SME's technology leakage. We developed the two empirical model for prevention and protection of technology leakage in SMEs using discriminant analysis and logistic regression analysis, and each hit ratio is 65%(discriminant analysis) and 67%(logistic regression analysis).
Purpose Corporate technology leakage is not only monetary loss, but also has a negative impact on the corporate image and further deteriorates sustainable growth. In particular, since SMEs are highly dependent on core technologies compared to large corporations, loss of technology leakage threatens corporate survival. Therefore, it is important for SMEs to "prevent and protect technology leakage". With the recent development of data analysis technology and the opening of public data, it has become possible to discover and proactively detect companies with a high probability of technology leakage based on actual company data. In this study, we try to construct profiles of enterprises with and without technology leakage experience through profiling analysis using data mining techniques. Furthermore, based on this, we propose a classification model that distinguishes companies that are likely to leak technology. Design/methodology/approach This study tries to develop the empirical model for prevention and protection of technology leakage through profiling method which analyzes each SME from the viewpoint of individual. Based on the previous research, we tried to classify many characteristics of SMEs into six categories and to identify the factors influencing the technology leakage of SMEs from the enterprise point of view. Specifically, we divided the 29 SME characteristics into the following six categories: 'firm characteristics', 'organizational characteristics', 'technical characteristics', 'relational characteristics', 'financial characteristics', and 'enterprise core competencies'. Each characteristic was extracted from the questionnaire data of 'Survey of Small and Medium Enterprises Technology' carried out annually by the Government of the Republic of Korea. Since the number of SMEs with experience of technology leakage in questionnaire data was significantly smaller than the other, we made a 1: 1 correspondence with each sample through mixed sampling. We conducted profiling of companies with and without technology leakage experience using decision-tree technique for research data, and derived meaningful variables that can distinguish the two. Then, empirical model for prevention and protection of technology leakage was developed through discriminant analysis and logistic regression analysis. Findings Profiling analysis shows that technology novelty, enterprise technology group, number of intellectual property registrations, product life cycle, technology development infrastructure level(absence of dedicated organization), enterprise core competency(design) and enterprise core competency(process design) help us find SME's technology leakage. We developed the two empirical model for prevention and protection of technology leakage in SMEs using discriminant analysis and logistic regression analysis, and each hit ratio is 65%(discriminant analysis) and 67%(logistic regression analysis).
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기업이 보유한 다수의 요인들에 대하여 ‘기업 특성,’ ‘조직적 특성,’ ‘기술적 특성,’ ‘관계적 특성,’ ‘재무적 특성,’ ‘기업 핵심역량’으로 상위 범주화하였고, 각 범주에 속하는 요인들이 기업의 기술유출에 어떠한 영향을 미치는지 확인하고자 하였다.
특히 기업이 보유한 수많은 특성들 중 목적에 부합하는 요인들을 도출하고, 관심 받지 못하던 유의한 영향요인들 또한 확인해볼 수 있다. 따라서 본 연구에서는 중소기업이 보유한다수의 요인을 기반으로 기술유출이 발생하는 기업의 특징들을 프로파일링 분석을 통해 확인하고, 중소기업의 각 특징들을 상위 차원으로 범주화하여 전사적 관점에서 기술유출에 영향을 미치는 요인들을 도출하여 보고자 한다.
이후 분석의 용이성과 각 표본 간 정규성의 확보를 위하여 데이터 전처리와 제곱근 변환을 수행하였다. 또한 확보된 중소기업의 유출-비유출 기업 표본 상 비율의 불균형으로 인하여 표본에 대한 혼합 샘플링을 통하여 각 표본 간 1:1 대응을 이루어 모형의 타당성을 확보하고, 편향을 제거하고자 하였다. 나아가 데이터마이닝의 기법 중 하나인 의사결정나무를 통해 기술 유출이 발생한 혹은 발생할 가능성이 높은 기업에 대한 프로파일을 도출하여 실증적인 데이터 근거를 산출하고, 이어 도출된 프로파일에 근거하여, 판별분석과 로지스틱 회귀분석을 통해 기술 유출 기업에 대한 예측 모형을 구성하였다.
본 연구는 중소기업이 보유한 다양한 요인들이 기술유출에 영향을 미치는지에 대한 후자의 관점에서 살펴보고자 하며, 기업이 보유한 수많은 요인들을 상위 차원으로 범주화하여 보다 전사적인 관점에서 다수의 요인들을 다루고자 하였다. 이때 각 요인들은 ‘기업 특성,’ ‘조직적 특성,’ ‘기술적 특성,’ ‘관계적 특성,’ ‘재무적 특성,’ ‘기업 핵심역량’으로 범주화 되었다.
본 연구에서는 ‘프로파일링(Profiling)’을 통하여 기술유출이 발생하는 기업의 프로파일을 구축하고자 한다.
본 연구에서는 위험관리를 통한 ICT 환경의 활성화 측면에서 기술 유출 기업 프로파일과 그 예측 모형을 구축하고자 한다. 이때 각 중소기업을 개인의 관점에서 바라보며 분석을 수행하는 ‘프로파일링’ 방식을 통하여 기술유출 예측모형에 접근하였으며, 전술한 선행 연구에 근거하여 중소기업이 보유한 다수의 요인들을 여섯 가지 범주로 분류하여 전사적인 관점에서 중소기업의 기술유출을 다루고자 하였다.
의사결정나무 분석은 일련의 변수들에 대하여 분류 및 예측을 수행하는데, 최종 결과물이 일련의 규칙으로 표현되어 결과의 대한 해석이 용이할 것으로 판단하였다. 분석에 앞서 데이터샘플링을 통해 전체 표본을 학습용 표본과 검정용 표본으로 70:30의 비율로 분류하여 모형분석의 타당성을 확보하고자 하였다. 모형 분석간 반복적 분할을 통하여 기술유출 기업 분류를 시작하였으며, 지나친 세분화에 의한 과적합 문제를 해결하기 위해 가지치기를 수행하였다.
이런 추세에 발맞추어 본 연구에서는 데이터마이닝 기법을 통해 기술유출 가능성이 있는 기업에 대한 프로파일링과 기술유출 기업에 대한 예측 모형을 제시하고자 한다. 구체적으로 의사결정나무를 통해 기술유출이 발생한 기업에 대한 프로파일을 구축하여 실증적인 데이터 근거를 산출하고, 앞서 구축된 프로파일에 근거하여, 판별분석과 로지스틱 회귀분석을 통해 기술유출 기업에 대한 예측 모형을 구축할 것이다.
이에 최근 기술유출 이슈에 대하여 본 연구는 데이터마이닝 기법을 통해 기술유출 가능성이 있는 기업에 대한 프로파일링을 수행하고자 하였다. 기업이 보유한 다수의 요인들에 대하여 ‘기업 특성,’ ‘조직적 특성,’ ‘기술적 특성,’ ‘관계적 특성,’ ‘재무적 특성,’ ‘기업 핵심역량’으로 상위 범주화하였고, 각 범주에 속하는 요인들이 기업의 기술유출에 어떠한 영향을 미치는지 확인하고자 하였다.
본 연구는 다음과 같은 시사점을 가진다. 첫 번째, 중소기업의 기술유출에 관련한 선행 연구들은 기술유출에 대한 보안정책 관련 연구나 전산적, 기술적, 재무적 측면을 고려한 반면, 본 연구는 중소기업의 기술적, 구조적 측면과 함께 기업 전면의 다측면에 대한 요인들을 모형에 포함하여 기술유출 영향 요인의 범위를 확대하고, 이론적 한계 또한 완화하고자 하였다. 두 번째, 정부주도의 정량적인 대량의 정밀통계조사를 통해 다수의 기업 표본에 대하여 연구 모형을 검증하였다.
제안 방법
2011년부터 2015년의 ‘중소기업기술통계조사’ 4개년 데이터를 통합하여 10900개의 기업표본을 획득하여 분석을 수행하고자 하였으며, 이때 기술유출 기업 표본과 그렇지 않은 기업 간의 불균형으로 인하여 기술유출이 발생한 기업 454개를 기준으로 샘플링을 수행하여 편향된 예측 모형을 방지하고, 각 표본 간 1:1 대응을 유지할 수 있도록 하였다.
4개년 기술유출 기업에 대한 의사결정나무 분석결과, 투입한 29개 변수 중, 7개의 변수를 통해 모형이 모두 구축되었다<그림 2>. 이때 기술 신규성, 기업 기술군, 지식재산권 등록건수, 제품 수명주기, 기술개발 인프라 수준(전담조직 부재), 기업 핵심역량(디자인)과 기업 핵심역량(공정설계)이 기술유출이 발생한 기업을 분류하는데 유의한 영향 요인으로 도출되었다.
또한 확보된 중소기업의 유출-비유출 기업 표본 상 비율의 불균형으로 인하여 표본에 대한 혼합 샘플링을 통하여 각 표본 간 1:1 대응을 이루어 모형의 타당성을 확보하고, 편향을 제거하고자 하였다. 나아가 데이터마이닝의 기법 중 하나인 의사결정나무를 통해 기술 유출이 발생한 혹은 발생할 가능성이 높은 기업에 대한 프로파일을 도출하여 실증적인 데이터 근거를 산출하고, 이어 도출된 프로파일에 근거하여, 판별분석과 로지스틱 회귀분석을 통해 기술 유출 기업에 대한 예측 모형을 구성하였다.
앞선 판별분석을 통하여 중소기업의 기술유출에 영향을 미치는 7개의 변수의 영향력 수준과 함께 판별식을 산출하여 변수간의 관계와 기술유출 기업을 예측하는 모형을 구성하였다. 다만 이때 종속변수인 기술유출이 이분형으로 구성됨에 따라서 이분형 척도로 구성된 종속변수를 예측하는데 매우 강건하고 해석력 또한 제공하는 로지스틱 회귀분석을 추가로 수행하였다.
도출된 기술유출 영향요인의 상위 범주에 기반 하여 ‘중소기업기술통계조사’의 국가주도 설문을 통하여 중소기업 표본과 함께 정량적으로 각 하위 요인들을 확보하고자 하였다.
첫 번째, 중소기업의 기술유출에 관련한 선행 연구들은 기술유출에 대한 보안정책 관련 연구나 전산적, 기술적, 재무적 측면을 고려한 반면, 본 연구는 중소기업의 기술적, 구조적 측면과 함께 기업 전면의 다측면에 대한 요인들을 모형에 포함하여 기술유출 영향 요인의 범위를 확대하고, 이론적 한계 또한 완화하고자 하였다. 두 번째, 정부주도의 정량적인 대량의 정밀통계조사를 통해 다수의 기업 표본에 대하여 연구 모형을 검증하였다. 정책적으로는 첫 번째, 기업을‘개인’의 관점에서 접근하고, 다수의 요인을 모형에 포함하여 실무자의 경우 기업의 특성에 따른 기술유출 위험도를 파악할 수 있고, 유출방지에 대한 전략적인 의사결정을 지원하는데 도움을 줄 수 있을 것으로 기대된다.
이때 CHAID는 독립변수와 종속변수 간의 관계를 확인할 때 유용한 방법으로 알려져 있다(Pyle, 1998). 따라서 CHAID 성장방법을 통해 적정 수준에서 나무 모형의 성장을 중단하였다.
이는 구축 시 모두 기술유출이 일어나지 않을 것으로 예측되는 문제점이 발생되며 모두 비 유출로 예측하더라도 96%의 분류 정확도를 확보할 수 있기 때문이다. 따라서 기술유출이 발생한 기업 454개를 기준으로 샘플링을 수행하여 편향된 예측 모형을 방지하고, 각 표본 간 1:1 대응을 유지할 수 있도록 하였다.
이때 ‘중소기업기술통계조사’를 통해 수집된 각 변수들은 각각 범주형 변수와 연속형 변수로 분류된다. 따라서 변수의 정규성과 규모의 문제를 해결하기 위하여 범주형 변수에 대해서는 더미변수 생성 및 일반적인 정규화 방식을 통하여 변수 변환을 수행하였고, 연속형 변수들 중 연구직 인원수, 지식재산권 등록건수, 기술개발 투자비, 기술개발을 통한 매출액과 같은 연속형이며, 기업의 규모에 대한 의존적인 변수들에 대하여 제곱근 변환을 수행하였다.
반면 오버 샘플링(OverSampling)은 목적 표본인 기술유출 기업의 수가 상대적으로 작아(전체의 4%), 다수 범주에 대응시키기 위하여, 소수 범주 전체를 복제할 시 소수 범주 표본의 중복 문제화 함꼐 과적합 화 문제가 발생할 가능성이 높다. 따라서 본 연구에서는 각 샘플링 방법을 혼합해 각 샘플링시 발생할 수 있는 문제점을 완화하는 혼합 샘플링을 통하여 모형에 사용될 데이터 표본을 구성하였다.
로지스틱 회귀분석에 사용될 변수들은 앞서 정규화 및 제곱근 변환을 수행한 상태로 추가적인 조작은 수행되지 않았다. 또한 다변량 정규분포나 공분산 행렬의 가정이 요구되지 않아 의사결정나무 분석을 통해 확인된 7개 변수를 모두 모형에 투입하고, 모형의 검증을 위하여 훈련용 표본과 검정용 표본을 70:30으로 구성하여 기술유출 기업을 분류하였다.
앞서 판별과 회귀분석에 사용될 변수에 대하여 정규성을 확보하기 위해 정규화 및 제곱근변환을 수행하였다. 또한 본 연구는 분석 모형에 투입될 변수들을 앞선 의사결정나무 분석을 통해 선정하였다.
분석에 앞서 데이터샘플링을 통해 전체 표본을 학습용 표본과 검정용 표본으로 70:30의 비율로 분류하여 모형분석의 타당성을 확보하고자 하였다. 모형 분석간 반복적 분할을 통하여 기술유출 기업 분류를 시작하였으며, 지나친 세분화에 의한 과적합 문제를 해결하기 위해 가지치기를 수행하였다. 이때 CHAID는 독립변수와 종속변수 간의 관계를 확인할 때 유용한 방법으로 알려져 있다(Pyle, 1998).
모형의 종속변수인 ‘기술유출 여부’는 과거 기업의 기술유출 여부를 확인하는 문항을 통하여 설정하였고, 이에 영향을 미치는 기업의 특성들은 각각 ‘기업 특성,’ ‘조직적 특성,’ ‘기술적 특성,’ ‘관계적 특성,’ ‘재무적 특성,’ ‘기업 핵심역량’으로 29개의 독립변수에 대하여 상위 범주화를 수행하였다.
세 번째 기술적 특성은 ‘기업 기술군,’ ‘세계대비 기술수준,’ ‘기술 신규성,’ ‘기술 모방기간,’ ‘제품 수명주기,’ ‘지식재산권 등록건수,’ ‘기술개발 시도’가 하부 요인으로 구성된다.
앞서 판별과 회귀분석에 사용될 변수에 대하여 정규성을 확보하기 위해 정규화 및 제곱근변환을 수행하였다. 또한 본 연구는 분석 모형에 투입될 변수들을 앞선 의사결정나무 분석을 통해 선정하였다.
앞선 판별분석을 통하여 중소기업의 기술유출에 영향을 미치는 7개의 변수의 영향력 수준과 함께 판별식을 산출하여 변수간의 관계와 기술유출 기업을 예측하는 모형을 구성하였다. 다만 이때 종속변수인 기술유출이 이분형으로 구성됨에 따라서 이분형 척도로 구성된 종속변수를 예측하는데 매우 강건하고 해석력 또한 제공하는 로지스틱 회귀분석을 추가로 수행하였다.
이때 판별분석은 Fisher의 선형판별함수를 사용하며, 변수 진입은 단계선택을 통해 선정하며, 진입 기준은 Wilks's λ를 사용하였다. 의사결정나무 기법을 통해 구축된 모형에서 유의하게 관측된 7개의 변수인 기업 기술군, 기술 신규성, 지식재산권 등록현황, 제품 수명주기, 기술개발 전담부서 부재여부, 기업 핵심역량(디자인), 기업 핵심역량(공정설계)을 사용하였다.
이때 Hosmer와 Lemeshow 적합도 검정을 함께 수행하였고, 변수 진입은 모든 변수를 입력하여 유의하게 관측된 7개의 변수인 기업 기술군, 기술 신규성, 지식재산권 등록현황, 제품수명주기, 기술개발 전담부서 부재여부, 기업 핵심역량(디자인), 기업 핵심역량(공정설계)이 모형에 투입되었다.
이때 각 중소기업을 개인의 관점에서 바라보며 분석을 수행하는 ‘프로파일링’ 방식을 통하여 기술유출 예측모형에 접근하였으며, 전술한 선행 연구에 근거하여 중소기업이 보유한 다수의 요인들을 여섯 가지 범주로 분류하여 전사적인 관점에서 중소기업의 기술유출을 다루고자 하였다.
이때 본 연구에서는 범죄학에서 개인의 특성을 분석하는 기법인 ‘프로파일링(Profiling)’을 통하여 기업을 개인으로 보는 관점에서 기술유출이 발생하는 기업의 프로파일을 구성하였다.
이때, 혼합 샘플링 과정에서 적합한 각 샘플링의 수준을 개념적으로 추정하기 어렵기 때문에, 소수 범주 표본에 대하여 0% 수준에서 10%씩 증가시키며 100% 수준에 도달할 때 까지 오버 샘플링을 진행하여 최대 2배수의 기술유출기업이 확보되도록 하였고, 동시에 기술유출이 발생하지 않은 중소기업 표본에 대하여 오버샘플링 된 표본과 동일한 수의 기업 표본을 언더 샘플링하였고, 최종적으로 비 유출 기업을 기술유출 기업과 일대일 대응시켜 혼합 샘플링표본을 구성하였다. 이때 수행한 각 오버샘플링수준과 복제된 소수 집단 표본의 수, 총 소수집단 표본 수(원 표본+복제 표본), 전체 표본 수(기술유출 기업+비 기술유출 기업)를 포함하는 단계적 혼합 샘플링 결과는 다음 <표 2>와 같다.
이후 각 샘플링 단계 수준에 따라 구성된 표본의 적합성을 확인하기 위해, 의사결정나무 분석을 통해 위험도 추정값을 확인하였다. 그 결과 기술유출 기업에 대한 30%수준의 오버샘플링 혼합 모형에서 위험도 추정값이 감소하는 것을 확인되었으며, 그 이상의 오버샘플링 수준에서는 의사결정나무의 구조도 깊이가 증가하며 지나친 가지 세분화와 함께 과적합화 문제가 발생하는 것이 확인되었다.
따라서 기술유출 케이스에 대한 30% 수준의 오버 샘플링과 비 유출 케이스에 대한 언더 샘플링을 혼합하여 1:1 대응 표본이 구성되었고, 총 1180개 분석용 표본이 확보되었다. 이후 각 중소기업의 설문 수집 연도와 KSIC2 산업 분류에 따라서 유출 및 비유출 기업에 대하여 그 수를 1:1로 대응시켜 모형을 구성하였고 모형의 검증을 위해 전체 표본을 학습용 표본과 검정용 표본으로 70:30의 비율로 분류하여 분석을 수행하였다.
도출된 기술유출 영향요인의 상위 범주에 기반 하여 ‘중소기업기술통계조사’의 국가주도 설문을 통하여 중소기업 표본과 함께 정량적으로 각 하위 요인들을 확보하고자 하였다. 이후 분석의 용이성과 각 표본 간 정규성의 확보를 위하여 데이터 전처리와 제곱근 변환을 수행하였다. 또한 확보된 중소기업의 유출-비유출 기업 표본 상 비율의 불균형으로 인하여 표본에 대한 혼합 샘플링을 통하여 각 표본 간 1:1 대응을 이루어 모형의 타당성을 확보하고, 편향을 제거하고자 하였다.
이후 분석의 용이성과 각 표본 간 정규성의 확보를 위하여 수집된 데이터에 대한 전처리가 수행되었다. 본 연구에서 사용된 프로파일링 중의사결정나무 기법의 경우 비모수형 검정 방식으로 명목형 변수와 연속형 변수의 종류에 따른 선택의 문제가 발생하지 않으며 원 데이터에 대한 전처리를 요구하지 않는다.
해당 연구에서는 표준정책에 대한 수요가 있는 중소기업을 ‘표준 대응’과 ‘표준 정책’의 성격으로 분류하고 각 중소기업 집단의 특징을 프로파일링을 통해 도출하였다.
대상 데이터
따라서 기술유출 케이스에 대한 30% 수준의 오버 샘플링과 비 유출 케이스에 대한 언더 샘플링을 혼합하여 1:1 대응 표본이 구성되었고, 총 1180개 분석용 표본이 확보되었다. 이후 각 중소기업의 설문 수집 연도와 KSIC2 산업 분류에 따라서 유출 및 비유출 기업에 대하여 그 수를 1:1로 대응시켜 모형을 구성하였고 모형의 검증을 위해 전체 표본을 학습용 표본과 검정용 표본으로 70:30의 비율로 분류하여 분석을 수행하였다.
본 연구에서 사용한 분석 자료는 중소기업청과 중소기업중앙회에서 공동 수행, 설문한 ‘중소기업기술통계조사’의 2011년, 2013년, 2014년, 2015년의 4개년 조사 데이터를 통합하여 구성하였다.
본 연구에서 사용한 분석 자료는 중소기업청과 중소기업중앙회에서 공동 수행, 설문한 ‘중소기업기술통계조사’의 2011년, 2013년, 2014년, 2015년의 4개년 조사 데이터를 통합하여 구성하였다. 이때 각 연도별로 각각 3,500개, 2,000개, 2,200개, 3,300개의 기업 표본에 대한 설문이 수행되었다. 상기 조사는 중소기업의 R&D 실태를 파악하고, 중소기업에 대한 기술개발 활동, 기술개발 조직, 기술보호 등과 같은 중소기업 지원에 대한 기획 및 추진을 위한 자료이며, 중소기업기술혁신촉진법 제 8조(중소기업 기술통계의 작성)에 근거하여 실시되고 있다.
조사 대상 기업은 ‘한국표준산업분류’인 KSIC2 상에서 제조업 및 제조업 외 기업을 포함하며 면접조사, E-mail, 유선조사 등의 방법으로 수집되었다.
데이터처리
이때 판별분석은 Fisher의 선형판별함수를 사용하며, 변수 진입은 단계선택을 통해 선정하며, 진입 기준은 Wilks's λ를 사용하였다.
이론/모형
이후 분석의 용이성과 각 표본 간 정규성의 확보를 위하여 수집된 데이터에 대한 전처리가 수행되었다. 본 연구에서 사용된 프로파일링 중의사결정나무 기법의 경우 비모수형 검정 방식으로 명목형 변수와 연속형 변수의 종류에 따른 선택의 문제가 발생하지 않으며 원 데이터에 대한 전처리를 요구하지 않는다. 하지만 이후 수행 될 판별분석과 로지스틱 회귀분석에 적용되는 다변량 데이터의 경우 변수의 정규성이 고려되며, 연속형 변수를 사용해야 한다.
성능/효과
4개년 기술유출 기업에 대한 분석 결과 학습용 표본에서의 위험도 추정값은 32.7%이고 검정용 표본에서는 35.9%로 나타났다. 검정용 표본을 기준으로 의사결정나무의 전체 분류 정확도는 64.
Exp(B)의 경우, 기술 신규성이 보편적인 기술인 경우에 비하여 세계 최초의 신규성을 가지는 경우 3.083배의 기술유출 위험도가 증가하고, 지식재산권 등록건수는 제곱근 변환 수행 후 1 증가할수록 기술유출 위험도가 1.175배 증가하며, 기술개발을 전담하는 부서가 없는 경우 기술유출 위험도가 0.673배 감소하는 것으로 나타났다.
9%로 나타났다. 검정용 표본을 기준으로 의사결정나무의 전체 분류 정확도는 64.1% 이고, 학습용 표본의 분류 정확도는 67.3%로 나타났다.
이후 각 샘플링 단계 수준에 따라 구성된 표본의 적합성을 확인하기 위해, 의사결정나무 분석을 통해 위험도 추정값을 확인하였다. 그 결과 기술유출 기업에 대한 30%수준의 오버샘플링 혼합 모형에서 위험도 추정값이 감소하는 것을 확인되었으며, 그 이상의 오버샘플링 수준에서는 의사결정나무의 구조도 깊이가 증가하며 지나친 가지 세분화와 함께 과적합화 문제가 발생하는 것이 확인되었다.
1%까지 증가하였다. 그 외 기술 신규성이 일부 선진국에서만 개발 및 보편화 되었으나 국내에서는 최초 개발이면서 제품 수명주기가 짧은 경우, 기업 기술군이 첨단 및 고기술 기업일 때 기술유출이 상대적으로 빈번하게 발생하였고(62.3%), 제품 수명주기가 상대적으로 긴 경우, 기업 핵심역량(공정설계)이 70% 이하의 수준을 갖춘 기업일 때 76.4%까지 기술유출 빈도가 증가하는 것이 관측되었다. 반면 기술 신규성은 보편화된 기술이며, 지식재산권 등록건수이 약 3건 이하이면서 기술개발 전담부서(기술개발 인프라 수준)가 존재하지 않는 경우 기술유출 빈도가 16.
그 중 지식재산권 등록건수는 Wilks‘s λ값은 가장 작고, F 통계량은 가장 큰 값을 나타내어 전체 분산의 비율이 높아 기술유출 기업에 대한 판별력이 높음을 알 수 있다.
모형에 투입된 7개 변수 중 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부의 3개 변수가 90% 신뢰수준에서 유의한 것이 확인되었다. 기술 신규성의 경우 99%의 신뢰수준하에서 유의하며, 독립변수의 기울기를 나타내는 B의 경우 1.125로 (+)값을 가지는 것이 확인되었다. 지식재산권 등록건수 또한 99%의 신뢰수준 하에서 유의하며, B의 경우 0.
첫 번째, 수집된 전체 기업 표본에 비하여 실제 기술유출이 발생한 기업 표본의 수가 상대적으로 적어 혼합 샘플링을 통하여 모형의 편향과 타당성을 확보하고자 하였지만, 언더 샘플링 과정에서 유의미할 수 있는 다수의 기업 표본이 모형에서 소거된 것이다. 두 번째, 기술유출이 발생한 기업에 대하여 해당 기술유출이 발생한 기간이 명시되어있지 않았으며, 따라서 기술유출과 영향요인 간 선후관계에 대한 문제가 발생할 수 있다는 것이다.
기술의 신규성은 해당 기술의 매력도를 상승시킬 수 있으며, 타 기업의 경제적, 기술적 욕구를 만족시킬 수 있는 기회로 작용하여 기술유출의 위험도를 증가시키는 것으로 해석된다. 또한 지식재산권 등록건수의 경우 중소기업이 보유한 지식재산권의 건수가 증가할수록 기업 기술유출 위험도가 증가하는 것으로 나타났다. 이는 기업이 보유한 기술에 대한 특허 및 산업재산권을 통하여 기술 소유권 주장 및 법적 우위를 달성하여 기술유출을 사전에 방지할 수 있다는 일반적 통념과는 사뭇 대립되는 결과로 볼 수 있다.
로지스틱 회귀분석 또한 앞선 의사결정나무 결과로 유의하게 관측된 7개의 변수가 투입되었으며, 회귀 모형의 설명력은 14.3% 로 확인되었고, 적합도 검정 결과 또한 0.136으로 확인되었다. 투입된 변수들 중 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부의 세 변수가 각각 99%, 99%, 90%의 신뢰수준 하에서 중소기업의 기술유출에 유의한 영향을 미치며, 그중 기술 신규성이 기술유출에 가장 큰 영향력을 보유하는 것이 확인되었다.
마지막으로 사전 추출된 1180개의 기업에 대한 기술유출 집단을 판별한 결과, 도출된 판별함수와 판별식을 통해 학습용 표본에 대해서는 63%를 정확히 분류하였고, 검증용 표본에 대해서는 65%를 정확히 분류하였다. 이때 학습용 표본에서 실제 기술유출이 발생하지 않았으나, 모형에서는 기술유출이 발생할 것으로 예측된 표본이 그렇지 않은 표본보다 더 많이 관측되었다.
모형 분석 결과, 기술 신규성에 의해서 기술 유출 빈도가 크게 변화하는 것을 확인할 수 있으며, 특히 기술 신규성이 세계 최초 및 국내 최초일수록(신규성이 높은 경우), 기업 기술군이 첨단 및 고수준 기업일수록, 기업 핵심역량(공정설계)은 낮을수록 기술유출이 빈번하게 발생하였다.
모형 요약 통계량과 Hosmer와 Lemeshow검정 결과, Nagelkerke R-제곱이 0.143으로 해당 로지스틱 회귀 모형의 설명력이 14.3%인 것을 확인할 수 있으며, 적합도 검정의 유의확률이 0.136으로 0.05보다 크게 나타나 도출된 회귀모형이 적합한 것이 확인되었다.
분석 결과 도출된 로지스틱 회귀모형은 다음과 같다. 모형에 투입된 7개 변수 중 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부의 3개 변수가 90% 신뢰수준에서 유의한 것이 확인되었다. 기술 신규성의 경우 99%의 신뢰수준하에서 유의하며, 독립변수의 기울기를 나타내는 B의 경우 1.
반면 제품 수명주기와 기업 핵심역량(공정설계) 수준은 Wilks‘s λ값이 1에 가까우며 95%의 신뢰수준 하, 기술 유출 기업에 대한 집단 간 유의한 차이가 없는 것을 확인할 수 있었다.
따라서 중소기업이 자사에 보유한 역량 이상의 지식재산권을 획득하는 과정에서 기업 자원이 치중될 위험과 기술 공개에 따른 모방 및 원천 기술에 대한 매력도 증가로 인하여 기술유출 위험도가 증가하는 것으로 해석해 볼 수 있다. 반면, 부(-)의 B값을 가지는 전담부서 부재여부는 중소기업이 보유한 기술개발 전담부서가 없는 경우 기술유출 위험도가 감소하는 것으로 나타났다. 즉, 기술개발을 위한 전담 부서나 연구소가 조직되어 있는 경우 기술유출 위험이 증가하는 것을 의미한다.
이후 산출된 정준 판별함수의 요약은 <표 7 과', '>과')">>과 같다. 분석을 통해 도출된 판별함수와 기술 유출 기업 간의 관련 정도는 0.320로 관측되었으며, 정준상관계수의 제곱인 0.1024를 통해 종속변수인 기업 기술유출의 판별 점수 분산의 10.24%가 단계선택에 의해 선정된 3개의 독립변수에 의해 설명됨을 알 수 있다. 이때 판별함수의 고유값이 0.
을 통해 기술유출 기업에 대한 판별식 적합도를 확인한 결과 99%의 신뢰수준 하에서Wilks’s λ값이 낮아 판별식이 유의한 것을 확인할 수 있었다.
<표 5>의 집단 평균의 동질성에 대한 검정 결과, 기업 기술군, 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부, 기업 핵심역량(디자인)이 95%의 신뢰수준 하에서 기술유출 기업에 대한 평균 차이가 유의한 것으로 나타났다. 그 중 지식재산권 등록건수는 Wilks‘s λ값은 가장 작고, F 통계량은 가장 큰 값을 나타내어 전체 분산의 비율이 높아 기술유출 기업에 대한 판별력이 높음을 알 수 있다.
의사결정나무 분석 결과 기술 신규성, 기업 기술군, 지식재산권 등록건수, 제품 수명주기,기술개발 인프라 수준(전담조직 부재), 기업 핵심역량(디자인)과 기업 핵심역량(공정설계)이 기술유출이 발생한 기업을 분류하는데 유의한 영향 요인으로 확인되었다. 특히 기술 신규성이 높을 때(세계 최초 및 국내 최초의 기술일 때) 기술유출 빈도가 82.
의사결정나무 분석은 일련의 변수들에 대하여 분류 및 예측을 수행하는데, 최종 결과물이 일련의 규칙으로 표현되어 결과의 대한 해석이 용이할 것으로 판단하였다. 분석에 앞서 데이터샘플링을 통해 전체 표본을 학습용 표본과 검정용 표본으로 70:30의 비율로 분류하여 모형분석의 타당성을 확보하고자 하였다.
4개년 기술유출 기업에 대한 의사결정나무 분석결과, 투입한 29개 변수 중, 7개의 변수를 통해 모형이 모두 구축되었다<그림 2>. 이때 기술 신규성, 기업 기술군, 지식재산권 등록건수, 제품 수명주기, 기술개발 인프라 수준(전담조직 부재), 기업 핵심역량(디자인)과 기업 핵심역량(공정설계)이 기술유출이 발생한 기업을 분류하는데 유의한 영향 요인으로 도출되었다.
이후 구조행렬을 통해 판별함수와 변수들 간의 상관관계를 관측할 수 있으며, 상관관계가 높을수록 판별점수도 높아진다. 이때 지식재산권등록건수가 상관계수 0.
정(+)의 B값을 가지는 기술 신규성은 중소기업이 보유한 기술의 신규성 수준이 신규할수록, 즉 세계 최초의 신기술을 개발한 경우 기술유출의 위험도가 증가하는 것으로 나타났다. 기술의 신규성은 해당 기술의 매력도를 상승시킬 수 있으며, 타 기업의 경제적, 기술적 욕구를 만족시킬 수 있는 기회로 작용하여 기술유출의 위험도를 증가시키는 것으로 해석된다.
125로 (+)값을 가지는 것이 확인되었다. 지식재산권 등록건수 또한 99%의 신뢰수준 하에서 유의하며, B의 경우 0.161로 (+)값을 가지는 것이 확인되었다. 반면 전담부서 부재여부는 90%의 신뢰수준에서 유의하며, B는–0.
마지막으로, 로지스틱 회귀모형을 통한 기술 유출 기업 분류 결과는 다음과 같다. 추출된 1180개 기업에 대한 기술유출 여부를 분류한 결과, 학습용 표본에 대해서는 62.3%를 정확히 분류하였고, 검정용 표본에 대해서는 66.9%를 정확히 분류하였다. 학습용 표본의 경우 판별분석에 비하여 다소 낮은 분류정확도를 나타내었으나, 검정용 표본에 대해서는 상대적으로 높은 분류정확도를 나타내는 것이 확인되었다.
136으로 확인되었다. 투입된 변수들 중 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부의 세 변수가 각각 99%, 99%, 90%의 신뢰수준 하에서 중소기업의 기술유출에 유의한 영향을 미치며, 그중 기술 신규성이 기술유출에 가장 큰 영향력을 보유하는 것이 확인되었다.
특히 기술 신규성에 따라서 기술유출이 두드러지게 변화하는 것을 확인 할 수 있는데, 세계 최초의 가까운 기술 신규성을 보유한 경우, 기술 신규성 하나의 조건만 충족되었음에도 불구하고 기술유출이 82.1%까지 증가하였다. 그 외 기술 신규성이 일부 선진국에서만 개발 및 보편화 되었으나 국내에서는 최초 개발이면서 제품 수명주기가 짧은 경우, 기업 기술군이 첨단 및 고기술 기업일 때 기술유출이 상대적으로 빈번하게 발생하였고(62.
의사결정나무 분석 결과 기술 신규성, 기업 기술군, 지식재산권 등록건수, 제품 수명주기,기술개발 인프라 수준(전담조직 부재), 기업 핵심역량(디자인)과 기업 핵심역량(공정설계)이 기술유출이 발생한 기업을 분류하는데 유의한 영향 요인으로 확인되었다. 특히 기술 신규성이 높을 때(세계 최초 및 국내 최초의 기술일 때) 기술유출 빈도가 82.1%로 기존의 균형화 표본(50%)보다 30% 이상 기술유출이 증가하는 것을 확인할 수 있으며, 기술 신규성은 보편화된기술이고,, 지식재산권 등록건수이 약 3건 이하이면서 기술개발 전담부서(기술개발 인프라 수준)가 존재하지 않는 경우 기술유출 빈도가 16.2%로 현저히 감소하는 것을 확인할 수 있었다.
판별분석에는 의사결정나무의 분석 결과로 유의하게 관측된 7개의 변수가 투입되었으며,집단 평균의 동질성에 대한 검정 결과, 기업 기술군, 기술 신규성, 지식재산권 등록건수, 전담부서 부재여부, 기업 핵심역량(디자인)이 95%의 신뢰수준 하에서 기술유출 기업에 대한 평균 차이가 유의한 것으로 나타났으며, 그 중 지식재산권 등록건수가 기술유출 기업에 대한 판별력이 가장 높은 것이 확인되었다.
판별함수의 Wilks’s λ는 0.897이며, Wilks’s λ값과 자유도를 고려한 카이제곱 통계량은 89.062의 환산 값을 가지며, 99%의 신뢰수준 하에서 본 판별함수는 유의한 것으로 나타났다.
9%를 정확히 분류하였다. 학습용 표본의 경우 판별분석에 비하여 다소 낮은 분류정확도를 나타내었으나, 검정용 표본에 대해서는 상대적으로 높은 분류정확도를 나타내는 것이 확인되었다.
2011년부터 2015년의 ‘중소기업기술통계조사’ 4개년 데이터를 통합하여 10900개의 기업표본을 획득하여 분석을 수행하고자 하였으며, 이때 기술유출 기업 표본과 그렇지 않은 기업 간의 불균형으로 인하여 기술유출이 발생한 기업 454개를 기준으로 샘플링을 수행하여 편향된 예측 모형을 방지하고, 각 표본 간 1:1 대응을 유지할 수 있도록 하였다. 혼합 샘플링 결과 30%의 언더 샘플링 상에서 적합성이 확인되어 분석을 위한 최종 표본이 구성되었다.
후속연구
이런 추세에 발맞추어 본 연구에서는 데이터마이닝 기법을 통해 기술유출 가능성이 있는 기업에 대한 프로파일링과 기술유출 기업에 대한 예측 모형을 제시하고자 한다. 구체적으로 의사결정나무를 통해 기술유출이 발생한 기업에 대한 프로파일을 구축하여 실증적인 데이터 근거를 산출하고, 앞서 구축된 프로파일에 근거하여, 판별분석과 로지스틱 회귀분석을 통해 기술유출 기업에 대한 예측 모형을 구축할 것이다.
그 외에도 기업의 기술유출에 대한 재무적 측면에서, 기업의 매출액과 보안관리 투자 간의 상관관계를 규명하거나, 보안 교육과 기업 보안역량 간의 상관관계를 도출하는 등의 연구 또한 활발히 수행되고 있는데(이강백 등, 2015; 이치석 등, 2015), 이는 통계적 분석을 통해 기술유출이 발생하는 기업을 예측하는 선행연구도 다수 수행되고 있음을 시사하고 있다(허승표 등, 2010; 홍준석 등, 2015). 다만 데이터 수집의 불균형성과 과거 기밀정보 유출 사실의 은닉, 응답 대상자의 기억에 의존한 회상 편향 문제 등의 데이터 수집에 대한 문제점이나 중소기업의 기술적, 구조적 요인을 반영하지 못하는 등의 한계점을 확인할 수 있다.
정책적으로는 첫 번째, 기업을‘개인’의 관점에서 접근하고, 다수의 요인을 모형에 포함하여 실무자의 경우 기업의 특성에 따른 기술유출 위험도를 파악할 수 있고, 유출방지에 대한 전략적인 의사결정을 지원하는데 도움을 줄 수 있을 것으로 기대된다. 두 번째, 연구의 결과로 제시한 기업 프로파일과 예측모형은 중소기업에 대한 정보보안 지침 및 정책의 수립과 이행 과정에서 실증적인 근거를 제공할 수 있으며, 향후 ICT 환경에 대한 위험 관리적 측면의 활성화에 기여할 수 있을 것으로 기대된다.
정책적으로는 첫 번째, 기업을‘개인’의 관점에서 접근하고, 다수의 요인을 모형에 포함하여 실무자의 경우 기업의 특성에 따른 기술유출 위험도를 파악할 수 있고, 유출방지에 대한 전략적인 의사결정을 지원하는데 도움을 줄 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
프로파일링이란?
본 연구에서는 ‘프로파일링(Profiling)’을 통하여 기술유출이 발생하는 기업의 프로파일을 구축하고자 한다. 프로파일링은 범죄학에서 개인의 특성을 계량화하여 분석하는 기법으로 데이터마이닝 및 분석의 관점에서는 정보 수집을 통한 서술 및 설명으로 정의된다. 따라서 중소기업을 하나의 ‘개인’으로 바라보면, 개인에게 문제가 발생하는 원인을 라이프 스타일이나 성격, 행동 등으로 설명할 수 있으며, 나아가 중소기업의 경우 기술유출이 발생한 기업이 보유한 기술적, 경영적, 조직적 특성 등으로 설명할 수 있을 것이다.
중소기업의 기술유출로 발생할 수 있는 문제는?
중소기업의 기술유출은 물질적 손실뿐만 아니라, 기업의 이미지 손상 등의 비물질적 손실과 같은 수많은 악영향을 야기하며, 나아가 산업발전과 국가 성장까지 저해할 가능성을 내포한다. 특히, 중소기업은 대기업에 비하여 핵심기술에 대한 의존도가 매우 높기 때문에 기술 유출 이슈와 그에 대한 예방책 마련은 기업의 생존에 있어서 필수불가결한 요소로 볼 수 있다.
4차 산업혁명에 대한 대응에 중소기업이 걸림돌이 되는 이유는 무엇인가?
그러나 중소기업은 다가오는 4차 산업혁명에 대한 대응에 걸림돌이 될 수 있음을 고려할 필요성이 있다. 이는 중소기업이 내외부적 지원과 성장을 통해 국내 ICT 환경의 활성화를 담당하는 한 축으로 자리매김 하는 과정을 거치고 있는 한편, 오히려 기업의 기술유출 피해에 의해 경쟁력 확보가 어려워지고, ICT 활성화를 저해하는 걸림돌이 될 수 있기 때문이다(서봉군, 박도형, 2017).
참고문헌 (35)
강태영, 박도형, "전문가 제품 후기가 소비자 제품 평가에 미치는 영향," 지능정보연구, 제22권, 제1호, 2016, pp. 63-82.
김건우, 박도형, "소비자 가치기반 디자인 평가 모형," 지능정보연구, 제23권, 제4호, 2017, pp. 57-76.
김문구, 박종현, "국내 ICT 중소기업의 성장요인과 글로벌 히든 챔피언 육성방향," Electronics and Telecommunications Trends. 제30권, 제2호, 2015, pp. 79-86.
이동원, 강태영, 박도형, "소비자 구매의사결정 단계에 따른 PC 기반 쇼핑과 모바일 기기 기반 쇼핑 행태 차이에 관한 연구: 과업 기술 적합 이론을 중심으로," Entrue Journal of Information Technology, 제13권, 제3호, 2014, pp. 107-122.
이동원, 정여진, 정재권, 박도형, "신규시장 성장모형의 모수 추정을 위한 전문가 시스템," 지능정보연구, 제21권, 제4호, 2015, pp. 17-35.
정재권, 박도형, 이동원, 정여진, "A study on the applicability of a growth curve model for the Korean theater industry: A case of 'Why? ${\pi}$ !'," 한국경영공학회지, 제19권, 제4호, 2014, pp. 95-107.
채정우, 고영희, "전문경영인의 기업정보 보호를 위한 산업기술 유출요인과 대응전략에 대한 탐색적 사례연구," 전문경영인연구, 제15권, 제1호, 2012, 87-113.
최유지, 박도형, "웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발," 지능정보연구, 제23권, 제3호, 2017, pp. 155-175.
Conklin, J. E., "Illegal but not criminal: Business crime in America," Englewood Cliffs, NJ: Prentice-Hall, 1977.
Jun, S.-P., and Park, D.-H., "Visualization of brand positioning based on consumer web search information: Using social network analysis," Internet Research, Vol. 27, No. 2, 2017, pp. 381-407.
Jun, S.-P., and Park, D.-H., "Consumer information search behavior and purchasing decisions: Empirical evidence from Korea," Technological Forecasting and Social Change, Vol. 107, 2016, pp. 97-111.
Kang, T., Park, D.-H., and Han, I. "Beyond the numbers: The effect of 10-K tone on firms' performance predictions using text analytics," Telematics and Informatics, Vol. 35, No. 2, 2018, pp. 370-381.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.