[논문]인성 데이터를 활용한 조기 퇴사자 예측

김영박; 김형중

doi:10.9728/dcs.2018.19.1.141

인성 데이터를 활용한 조기 퇴사자 예측
Predicting Early Retirees Using Personality Data 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.19 no.1, 2018년, pp.141 - 147

김영박 (고려대학교 정보보호대학원 빅데이터 응용 및 보안학과) , 김형중 (고려대학교 정보보호대학원 빅데이터 응용 및 보안학과)

초록
AI-Helper

본 연구는 기업에서 채용 전형 시 진행되는 인성시험 결과 데이터를 기반으로, 입사 3년 미만의 조기 퇴사자를 분석하였다. 예측 모형은 적합성 및 향후 활용성을 고려하여 제조(manufacture)직군과 R&D직군 2개 그룹으로 구분하여 분석하였으며, 독립변수 선택은 전진(stepwise)선택법에 따라 직군별로 유의미한 독립변수를 선택하였다. 예측 모형은 지도학습(supervised learning) 방법 중 로지스틱 회귀분석 알고리즘을 선택하였으며, 과잉적합(overfitting) 또는 과소적합(underfitting)을 방지하고자 교차 검증(cross validation)을 통해 예측 모형을 훈련시켰다. 혼동행렬(confusion matrix)을 통해 2개 그룹의 정확도(accuracy)를 확인하였으며, 조기 퇴직에 가장 영향을 많이 미치는 요인으로 제조직군에서는 '몰입', R&D직군에서는 '반사회성' 항목으로 확인되었다. 기존 퇴직 관련 연구는 설문 방식으로 데이터를 수집하고, 퇴직과 관련성이 높은 요인을 확인하는데 집중하였다면, 본 연구는 채용 전형 시 진행되는 인성 결과 분석을 통해 향후에도 지속 가능한 조기 퇴직 예측 모형을 제시했다는 면에서 의의를 갖는다.

Abstract ▼ AI-Helper

This study analyzed the early retired employees who stayed in company no longer than 3 years based on a certain company's personality evaluation result data. The predicted model was analyzed by dividing into two categories; the manufacture group and the R&D group. Independent variables were selected according to the stepwise method. A logistic regression model was selected as a prediction model among various supervised learning methods, and trained through cross-validation to prevent over-fitting or under-fitting. The accuracy of the two groups were confirmed by the confusion matrix. The most influential factor for early retirement in the manufacture group was revealed as "immersion," and for the R&D group appeared as "antisocial." In the past, people concentrated on collecting data by questionnaire and identifying factors that are highly related to the retirement, but this study suggests a sustainable early retirement prediction model in the future by analyzing the tangible outcome of the recruitment process.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

조기 퇴직에 대한 선행 연구들은 대부분 설문방식으로 데이터를 수집하였으며, 독립변수의 원인 규명을 목적으로 하여 향후 활용성에 대한 한계가 지적되었다. 본 연구는 인성결과 데이터를 기반으로 조기 퇴사자 예측모형 구축을 목적으로 한다. 인성시험은 입사 지원 시 반드시 거쳐야하는 관문으로서 매년 많은 취업 준비생들이 지원한 기업의 인성시험에 응시하고 있으며[5], 본 연구는 A社의 채용전형 시 진행되는 인성 결과 데이터를 활용하였다.
첫째, 기존 연구의 데이터 수집은 대부분 설문 방식으로 진행되었으며, 이는 수집 당시 개인별 상황에 따라 상이한 결과가 나올 수 있다. 본 연구에서는 공간 및 시간 등 모두 동일한 환경에서 데이터를 수집하여 신뢰성을 높였다. 둘째, 기존 연구는 직무만족도, 고용형태, 조직문화, 인구통계학적 데이터 등 대부분 외부환경에 해당하는 항목을 독립변수로 선정하여 조기 퇴직과 관련된 유의미한 독립변수를 확인에 집중하였으나 실제 활용성 측면에서는 제한적이었다.
본 연구에서는 인성시험 결과를 기반으로 조기 퇴직자를 예측하는 모형을 제시하는 것을 목표로 한다.

제안 방법

독립변수간 상관관계 높을 경우 발생하는 다중공선성(multicollinearity) 문제를 진단하기 위해 공차한계와 VIF(variance inflation factor) 값을 확인하였다. 다중공선성 진단은 공차한계가 0.
둘째, 기존 연구는 직무만족도, 고용형태, 조직문화, 인구통계학적 데이터 등 대부분 외부환경에 해당하는 항목을 독립변수로 선정하여 조기 퇴직과 관련된 유의미한 독립변수를 확인에 집중하였으나 실제 활용성 측면에서는 제한적이었다. 또한 개인 성향을 독립변수로 선정한 경우에도 성격의 5가지 요인(불안정성, 외향성, 개방성, 친화성, 성실성)등 개인 성향에 대한 일반적인 항목을 독립변수로 선정하였다. 본 연구는 독립 변수가 기업의 조직 생활에 특화된 항목으로 구성되었으며, 채용 전형에 포함되어 있어 향후 조기 퇴직자 예측 모형에 대한 정확도를 향상시킬 수 있다.
단계적 선택은 전진선택과 후진제거의 두 방법을 적절히 조합한단계적 방법이 가장 많이 사용되고 있다. 본 연구에서도 단계적 방법을 이용하여 로지스틱 회귀분석에서 사용할 독립변수를 선정하였다.
둘째, 제조직군을 그룹 A, R&D직군을 그룹 B로 표기하며, 세부 현황은 표 1과 같다. 셋째, 인성시험은 총 500문항으로 응시자는 동일한 문항과 제한시간에서 평가가 진행된다. 넷째, 평가항목은 총 24가지 항목으로 그 내용은표 2와 같다.
수집된 데이터에 대한 레이블(label)이 주어졌기 때문에 지도학습(supervised learning)방식으로 분석하며, 종속변수가 이분 범주형 데이터로 주어져 분류(classification)의 대표적인 머신러닝 알고리즘인 로지스틱 회귀분석을 통해 예측 모형을 제안하도록 한다. 다만 모든 데이터로 예측모형을 만들었을 경우 그림 2와 같이 과잉적합(overfitting) 또는 과소적합(underfitting)이 발생할 수 있기 때문에 예측 모형의 성능 최적화를 위해서 그림 3과 같이 K-fold 교차검증(cross validation)방식으로 훈련시키도록 한다.
조기 퇴직 예측 연구방법은 그림 1과 같은 순서로 진행토록 한다. 인성시험 데이터 결과와 구성원의 재직 여부를 매칭하여 그룹 A와 B로 나누었다.
분석 시 K값은 5로 하며, 데이터는 트레이닝 세트와 테스트 세트로 각각 6대 4대로 분리하여 진행한다. 향후 모형의 성능 평가는 표 3과 같이 혼동행렬에서 식 (4)와 같이 정확도를 산출하여 모형의 평가결과를 확인하였다. 분석 방법은 SPSS stat-istics 23과 R 3.

대상 데이터

본 연구에서는 기업에서 인재 선발의 첫 관문으로 시행하고 있는 A社의 인성시험 결과를 연구 데이터로 선정하였으며, 데이터의 세부내용은 다음과 같다.
본 연구는 인성결과 데이터를 기반으로 조기 퇴사자 예측모형 구축을 목적으로 한다. 인성시험은 입사 지원 시 반드시 거쳐야하는 관문으로서 매년 많은 취업 준비생들이 지원한 기업의 인성시험에 응시하고 있으며[5], 본 연구는 A社의 채용전형 시 진행되는 인성 결과 데이터를 활용하였다. 수집된 데이터는 향후 활용성을 위해 제조(manufacture)직군과 R&D직군으로 나눠 로지스틱 회귀분석을 통해 직군별 분석을 진행 하였으며, 추정 후 혼동행렬(confusion matrix)을 통해 정확도(accuracy)를 확인하였다.
R&D직군에서는 ‘반사회성’, ‘성취 지향성’, ‘자발성’, ’회복탄력성‘ 등 총 4가지 항목이 유의미한 항목으로 확인되었으며, 이중에서 ’반사회성‘ 항목이 가장 영향력을 많이 미치는 것으로 확인되었다. 직군별 유의미한독립변수들로 예측 모형을 제시하였으며, 데이터를 트레이닝과 테스트를 6대 4로 나눠서 훈련시켰다. 혼동행렬 및ROC 커브로 모형을 검증한 결과 제조직군의 정확도는89.
첫째, A社에서 ‘13년부터 15년까지 3년 동안 진행된 인성시험 응시자 총 1,179명을 대상으로 데이터를 수집하였다.

데이터처리

향후 모형의 성능 평가는 표 3과 같이 혼동행렬에서 식 (4)와 같이 정확도를 산출하여 모형의 평가결과를 확인하였다. 분석 방법은 SPSS stat-istics 23과 R 3.4.1를 통해 분석하였다.
수집된 데이터는 향후 활용성을 위해 제조(manufacture)직군과 R&D직군으로 나눠 로지스틱 회귀분석을 통해 직군별 분석을 진행 하였으며, 추정 후 혼동행렬(confusion matrix)을 통해 정확도(accuracy)를 확인하였다.

이론/모형

수집된 데이터에 대한 레이블(label)이 주어졌기 때문에 지도학습(supervised learning)방식으로 분석하며, 종속변수가 이분 범주형 데이터로 주어져 분류(classification)의 대표적인 머신러닝 알고리즘인 로지스틱 회귀분석을 통해 예측 모형을 제안하도록 한다. 다만 모든 데이터로 예측모형을 만들었을 경우 그림 2와 같이 과잉적합(overfitting) 또는 과소적합(underfitting)이 발생할 수 있기 때문에 예측 모형의 성능 최적화를 위해서 그림 3과 같이 K-fold 교차검증(cross validation)방식으로 훈련시키도록 한다. 분석 시 K값은 5로 하며, 데이터는 트레이닝 세트와 테스트 세트로 각각 6대 4대로 분리하여 진행한다.

성능/효과

R&D직군에서는 ‘반사회성’, ‘성취 지향성’, ‘자발성’, ’회복탄력성‘ 등 총 4가지 항목이 유의미한 항목으로 확인되었으며, 이중에서 ’반사회성‘ 항목이 가장 영향력을 많이 미치는 것으로 확인되었다.
그룹 A와 마찬가지로 전진선택법을 통해 변수선택을 하였으며, 총 24개의 독립변수 중에 반사회성, 성취지향성, 자발성, 회복탄력성 등 총 4개의 독립변수가 유의미한 것으로 나타났다. 인성시험 결과와 조기 퇴직과의 관계를 로지스틱 회귀분석으로 분석한 결과는 표 6와 같다.
인성시험 결과와 조기 퇴직과의 관계를 로지스틱 회귀분석으로 분석한 결과는 표 6와 같다. 다중공선성은 분석 결과 독립변수들의 공차한계 값이 0.466~0.689로 나타났고, VIF 값은 1.45~2.15로 나타나 변수 간 다중공선성은 없는 것으로 확인하였다. 독립변수 중에서는 반사회성이 양의 방향으로 영향력이 큰 것으로 확인되었으며, 예측 모형은 (6)과 같다.
또한 개인 성향을 독립변수로 선정한 경우에도 성격의 5가지 요인(불안정성, 외향성, 개방성, 친화성, 성실성)등 개인 성향에 대한 일반적인 항목을 독립변수로 선정하였다. 본 연구는 독립 변수가 기업의 조직 생활에 특화된 항목으로 구성되었으며, 채용 전형에 포함되어 있어 향후 조기 퇴직자 예측 모형에 대한 정확도를 향상시킬 수 있다.
7098로 확인되었다. 본 연구를 통해 제시된 조기 퇴직 예측 모형이 향후 활용성 높은 연구 모형임을 확인할 수 있었다.
전진 선택법을 통해 변수선택을 하였으며, 총 24개의 독립변수 중에 솔직성, 무책임성, 반사회성, 책임감, 몰입 등 총 5개의 독립변수가 유의미한 것으로 나타났다. 인성시험 결과와 조기 퇴직과의 관계를 로지스틱 회귀분석으로 분석한 결과는 표 4과 같다.
제조직군에서는 ‘솔직성’, ‘무책임성’, ‘반사회성’, ‘책임감’, ‘몰입’ 등 총 5가지 항목으로 확인되었으며, 이중에서 ‘몰입’ 항목이 가장 영향력이 미치는 것으로 확인되었다.
본 연구는 기존 연구와 다음의 차별성을 가지고 있다. 첫째, 기존 연구의 데이터 수집은 대부분 설문 방식으로 진행되었으며, 이는 수집 당시 개인별 상황에 따라 상이한 결과가 나올 수 있다. 본 연구에서는 공간 및 시간 등 모두 동일한 환경에서 데이터를 수집하여 신뢰성을 높였다.
특히, 향후 예측모형의 적합성 및 활용성을 고려하여, 제조(manufacture)직군과 R&D직군으로 구분하여 분석하였으며, 각각 조기 퇴직에 영향을 많이 미치는 요인을 확인할 수 있었다.
혼동행렬 및ROC 커브로 모형을 검증한 결과 제조직군의 정확도는89.0%, AUC값은 0.6837로 확인되었으며, R&D직군의 정확도는 87.9%, AUC 값은 0.7098로 확인되었다.

후속연구

그러나 이러한 인성관련 빅데이터를 일회성으로 선발여부를 판단하는 기준으로만 활용하는 아쉬움이 있었다. 본 연구는 인성 데이터를 기반으로 하여 인재관리가 필요로 하는 분야의 예측 시스템을 제시했다는 점에서 의의가 있으며, 향후 인성데이터를 활용하여 고성과자와 저성과자 예측, 제조직군과 R&D직군의 효율적인 인력 배치 등 인력관리를 위한 여러 가지 예측 시스템을 제안할 수 있을 것으로 기대 된다.
또한 임의(random)로 트레이닝과 테스트 데이터를 설정하여 모형을 제시할 때 마다 정확도에 대한 오차가 발생하였다. 이는 누적된 데이터 많지 않아서 아직은 강인(robust)하지 못한 모형이라고 판단되며, 향후 데이터가 누적될수록 강인한 모형으로 향상 될 수 있을 것이라 예상된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	반도체 분야 인력부족 현상을 위한 시스템 관리는 어떤 상황인가?	또한 구성원의 이직은 해당조직 잔류 구성원에게 부정적인 영향을 주는 것으로 나타나는데 동료의 이직으로 인해 업무량 증가와 심리적 상실감에 따른 조직 몰입의 감소로 인해 다른 조직구성원의 퇴사까지 유발할 수 있다[4]. 이렇게 구성원의 관리(retention)가 매우 중요함에도 불구하고 대부분의 기업들은 퇴직자에 대한 사전 감지 시스템이 미흡한 상황이며, 퇴직 결정 후 조치가 이뤄지고는 상황이다.
	구성원의 이직은 어떤 영향을 미치는가?	5개월이며, 이를 비용으로 환산할 경우 직접비용과 간접비용을 포함하여 신입사원 1인당 총 6,088만 4천원을 쓰고 있다[3]. 또한 구성원의 이직은 해당조직 잔류 구성원에게 부정적인 영향을 주는 것으로 나타나는데 동료의 이직으로 인해 업무량 증가와 심리적 상실감에 따른 조직 몰입의 감소로 인해 다른 조직구성원의 퇴사까지 유발할 수 있다[4]. 이렇게 구성원의 관리(retention)가 매우 중요함에도 불구하고 대부분의 기업들은 퇴직자에 대한 사전 감지 시스템이 미흡한 상황이며, 퇴직 결정 후 조치가 이뤄지고는 상황이다.
	제조직군에서는 조기 퇴직에 어떤 요인이 있는가?	특히, 향후 예측모형의 적합성 및 활용성을 고려하여, 제조(manufacture)직군과 R&D직군으로 구분하여 분석하였으며, 각각 조기 퇴직에 영향을 많이 미치는 요인을 확인할 수 있었다. 제조직군에서는 ‘솔직성’, ‘무책임성’, ‘반사회성’, ‘책임감’, ‘몰입’ 등 총 5가지 항목으로 확인되었으며, 이중에서 ‘몰입’ 항목이 가장 영향력이 미치는 것으로 확인되었다. R&D직군에서는 ‘반사회성’, ‘성취 지향성’, ‘자발성’, ’회복탄력성‘ 등 총 4가지 항목이 유의미한 항목으로 확인되었으며, 이중에서 ’반사회성‘ 항목이 가장 영향력을 많이 미치는 것으로 확인되었다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

인성 데이터를 활용한 조기 퇴사자 예측
Predicting Early Retirees Using Personality Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

인성 데이터를 활용한 조기 퇴사자 예측 Predicting Early Retirees Using Personality Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김형중 (39)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

인성 데이터를 활용한 조기 퇴사자 예측
Predicting Early Retirees Using Personality Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper