[논문]A Comparative Analysis of the Pre-Processing in the Kaggle Titanic Competition

Tai-Sung, Hur; Suyoung, Bang

doi:10.9708/jksci.2023.28.03.017

초록
AI-Helper

데이터 과학과 관련한 과제를 제시하고 참가자가 이를 해결하는 캐글(Kaggle)의 대표적인 대회인 'Tatanic - Machine Learning from Disaster' 문제를 기반으로 데이터 전처리 방식과 모델 구축이 예측 정확도와 점수에 어떤 영향을 미치는지 확인하고자 한다. 중복된 모델을 사용하였거나 앙상블 기법을 사용한 경우를 제외하고 높은 점수를 획득하여 상위 순위에 위치한 7건의 해결 방식을 선정하여 특징들을 비교 분석한다. 전처리를 진행하는 데 있어 대부분 고유하고 차별적인 특징을 가진 것을 확인하였으며, 거의 동일할 정도의 전처리 과정을 거쳤으나 모델의 종류에 따라 점수 차이가 존재하기도 하였다. 본 논문의 비교 분석 연구는 상위 점수 참가자의 전처리 방식의 특징과 분석 흐름을 이해함으로써 캐글 대회 참가자들과 데이터 과학 입문자들에게 많은 도움이 될 것으로 생각한다.

Abstract ▼ AI-Helper

Based on the problem of 'Tatanic - Machine Learning from Disaster', a representative competition of Kaggle that presents challenges related to data science and solves them, we want to see how data preprocessing and model construction affect prediction accuracy and score. We compare and analyze the f...

Based on the problem of 'Tatanic - Machine Learning from Disaster', a representative competition of Kaggle that presents challenges related to data science and solves them, we want to see how data preprocessing and model construction affect prediction accuracy and score. We compare and analyze the features by selecting seven top-ranked solutions with high scores, except when using redundant models or ensemble techniques. It was confirmed that most of the pretreatment has unique and differentiated characteristics, and although the pretreatment process was almost the same, there were differences in scores depending on the type of model. The comparative analysis study in this paper is expected to help participants in the kaggle competition and data science beginners by understanding the characteristics and analysis flow of the preprocessing methods of the top score participants.

주제어

표/그림 (13)

표 Table 1. Selected Kernel
표 Table 2. Titanic Dataset
표 Table 3. Missing values of train and test data
표 Table 4. Mapping Name title of Titanic KNN 2.0
그림 Fig. 1. Pclass distribution according to Embarked
표 Table 5. Survival rate by Length of Name
표 Table 6. Distribution of Pclass according to Fare
그림 Fig. 2. correlation coefficient between features
표 Table 7. Value and percentage of missing values for combined train and test data
표 Table 8. Features to delete
그림 Fig. 3. Results of Titanic competition public scores by algorithms
표 Table 9. Hyperparameters by algorithm
표 Table 10. Results of Titanic competition public scores by algorithms

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 타이타닉 대회의 상위 점수 참가자들이 작성한 커널을 토대로 데이터 전처리 방식과 머신러닝 모델 구축 방법을 비교하여 생존자 예측 정확도에 어떤 영향을 미치는지 확인하고자 한다. 대표 샘플을 기반으로 공개적으로 볼 수 있는 제출 점수인 public leaderboard(공개 리더 보드)의 public score(공개점수)를 기준으로 하였다.
본 논문에서는 1912년 발생한 타이타닉호 침몰 사건을 주제로 한 대회인 ‘Titanic - Machine Learning from Disaster’를 다룬다. 앙상블 기법, 중복된 모델을 제외하고 전처리와 머신러닝 모델의 기법을 달리한 상위 7건을 선택하여 각 커널들의 특징을 비교분석함으로써 캐글 타이타닉 대회에 참가하는 참가자들이 데이터 전처리의 특징과 분석 흐름을 이해하고 고득점을 취득할 수 있을 유용한 정보를 제공하는데 목적을 두었다.

제안 방법

LightBGM 모델 생성 후 존재하는 전체 데이터를 활용해 해당 feature의 결측치 값을 예측하여 대체하는 방법을 선택했다. 결측치가 존재하는 다섯 가지 feature 중 ‘Cabin’은 총 데이터 1309건 중 1014건이 결측치로, 결측치의 값이 전체의 70% 이상이기 때문에 예측값을 넣어 결측치를 대체하는 방법에는 적합하지 않다고 판단해 제외한다.
본 논문에서는 단일 모형을 사용한 경우만 비교하기 때문에 여러 모형을 복합적으로 결합하는 앙상블 기법을 사용하였거나 중복되는 머신러닝 모델을 가진 경우 또한 비교가 어려워 제외하였다. 결과적으로 1차 수집한 25팀 중 전처리와 머신러닝 모델의 기법을 달리한 7건의 커널을 선택하여 각 커널들의 특징을 비교분석하였다. 사용된 알고리즘은 랜덤포레스트(RandomForest), 의사결정나무 (Decision Tree), MLP(Multi-Layer Perceptron), Light GBM, GradientBoosting, CatBoost이다.
본 연구에서는 타이타닉 대회의 상위 점수 참가자들이 작성한 커널을 토대로 데이터 전처리 방식과 머신러닝 모델 구축 방법을 비교하여 생존자 예측 정확도에 어떤 영향을 미치는지 확인하고자 한다. 대표 샘플을 기반으로 공개적으로 볼 수 있는 제출 점수인 public leaderboard(공개 리더 보드)의 public score(공개점수)를 기준으로 하였다. 참가자가 본인의 전처리 및 모델 구축 과정을 공유한 25개의 커널을 일차적으로 수집하였다.
두 번째 커널에서는 결측치가 많은 ‘Cabin’에서 숫자만 따로 분리하여 구간을 나눈 후 평균 생존율을 확인해 생존과 Cabin과의 관계를 파악한다
부모와 자녀의 수를 나타내는 Parch와 형제와 배우자의 수를 나타내는 SipSp를 결합해 Fam_Size로 결합한 후, Fam_Size가 0이면 ‘solo’, 3보다 작거나 같으면 ‘Nuclear’, 그 이상은 ‘big’이라는 세 가지 범주로 나눠 그룹화를 진행한다.

대상 데이터

‘Titanic - Machine Learning from Disaster’는 타이타닉호 침몰 사건을 주제로 본 대회 참가자는 타이타닉호에 탑승한 승객의 이름, 나이 성별, 사회경제적 계층 등의 데이터를 활용하여 ‘어떤 부류의 사람들이 생존할 가능성이 더 높았느냐’라는 질문에 답하는 예측 모델을 구축하게 된다. 2022년 8월 10일 기준 14,398팀이 참여했으며, 이 대회의 평가 척도는 참가자가 정확하게 예측한 승객의 비율(정확도)이다.
따라서 위에서 거쳤던 과정을 동일하게 진행한다. Family_Survival의 정보를 가지고 있는 승객의 수는 총 546명이다.
train 데이터셋은 탑승한 승객에 대한 세부 정보와 생존 여부를 포함하여 총 891건의 승객 정보를 제시한다. test 데이터셋은 train 데이터셋에서 생존 여부를 제외한 418건의 데이터를 제시한다. train 데이터셋을 훈련한 모델에서 찾은 패턴을 test 데이터셋에 적용하여 승객 418명의 생존여부를 예측한다.
test 데이터셋은 train 데이터셋에서 생존 여부를 제외한 418건의 데이터를 제시한다. train 데이터셋을 훈련한 모델에서 찾은 패턴을 test 데이터셋에 적용하여 승객 418명의 생존여부를 예측한다.
결과적으로 1차 수집한 25팀 중 전처리와 머신러닝 모델의 기법을 달리한 7건의 커널을 선택하여 각 커널들의 특징을 비교분석하였다. 사용된 알고리즘은 랜덤포레스트(RandomForest), 의사결정나무 (Decision Tree), MLP(Multi-Layer Perceptron), Light GBM, GradientBoosting, CatBoost이다. 커널들의 등수분포는 2022년 8월 6일 기준 195등부터 750등까지이며, public score(공개점수)의 분포는 0.

데이터처리

최적의 하이퍼 파라미터를 찾기 위해 여러 가지 방법이 존재한다. a, b, g는 GridSearch를 통해 최적의 하이퍼 파라미터를 찾았으며 다섯 번째 커널인 e에서는 Randomized Search를 활용했다. c는 Bayesian Optimization을 통해 구했으며 나머지는 작성자가 직접 수동으로 조정하며 최적의 하이퍼파라미터를 선정했다.
제 2장에서는 타이타닉 대회에서 제공하는 데이터셋의 기본 feature에 대해 설명하고 제 3장에서는 선정한 커널별로 진행하는 데이터 시각화, feature engineering과 같은 전체적인 데이터 전처리 과정에 대해 알아본다. 제 4장에서는 7개의 노트북에서 사용한 각각 다른 알고리즘들에 대해 알아보고, 각 커널의 전처리 과정을 바탕으로 알고리즘의 생존자 예측 결과를 비교 분석한다. 마지막으로 결론을 제 5장에서 제시한다.

이론/모형

본 논문에서는 1912년 발생한 타이타닉호 침몰 사건을 주제로 한 대회인 ‘Titanic - Machine Learning from Disaster’를 다룬다

성능/효과

Age에 결측치가 있는 데이터들의 평균 생존율이 약 0.293785였으며, 결측치가 없는 데이터들과 비교 했을 때 약 10%가 낮은 생존율을 보였다. 결측치 처리를 하기 전, 이런 특성을 설명할 수 있도록 Age_null flag feature를 만들어 포함시킨다.
승객의 이름에서 title만 따로 가져온 후 각각의 수식어들을 각각 고유의 값을 갖도록 유지한다. Table 5과 같이 이름의 길이를 5개의 구간으로 나눠 이름의 길이에 따른 평균 생존 여부를 확인해 보았을 때 이름의 길이가 길수록 생존 가능성이 높아진다는 것을 확인하였다.
Fare티켓의 요금에 따라 승객의 티켓 등급이 달라질 것이기 때문에 Fare과 Pclass 데이터의 분포와 양상이 유사할 것이며 이는 곧 생존 여부와도 분명한 관계가 있다. 실제로, Fare을 네 구간으로 나눈 후 Fare별 Pclass 별 탑승객 분포인 Table 6를 확인해 봤을 때 요금이 39.688 이상 512,329 미만이면 1등급에 해당하는 승객이 146명으로 가장 많으며 요금이 10.5 미만일 때 3등급에 해당하는 승객이 총 327명으로 3등급 승객이 가장 많이 분포해 있는 것을 볼 수 있었다.
타이타닉호에 탑승한 승객 중 여성 승객은 0.352413, 남성 승객은 0.647587로 남성 승객의 수가 더 많은 것을 알 수 있었으며 성별에 따른 생존율을 확인한 결과, 여성 승객의 평균 생존율은 0.742038, 남성 승객의 평균 생존율은 0.188908이었다.

후속연구

본 논문에서 진행한 비교 분석 연구가 캐글 타이타닉 대회 참가자들과 데이터 사이언스 입문자들에게 많은 도움이 될 것으로 생각된다.

참고문헌 (18)

Kaggle, https://en.wikipedia.org/wiki/Kaggle？
How to Use Kaggle, https://www.kaggle.com/docs/competitions？
Titanic KNN 2.0, https://www.kaggle.com/code/nehalgordhan/titanic-knn-2-0/notebook?scriptVersionId97830121？
80.861% with RF+Mean encoding+BayesianOptimization, https://www.kaggle.com/code/xavier001/80-861-with-rf-mean-encoding-bayesianoptimization/notebook?scriptVersionId78369436？
Notebookd6fe1ff5cb, https://www.kaggle.com/code/rossanneadams/notebookd6fe1ff5cb/notebook?scriptVersionId97927669？
Temp_1, https://www.kaggle.com/code/quandang1210/temp-1/notebook?scriptVersionId99981538？
S. H. Oh, "Python Deep Learning Machine Learning？Introduction", Information Publishing Group, pp.90, pp.167,？2021.？
Titanic competition, https://www.kaggle.com/code/artyomkolas/titanic-competition/notebook?scriptVersionId48346776？
Titanic_1_, https://www.kaggle.com/code/akshayr009/titanic-1/notebook?scriptVersionId82013284？
Prophet Titanic, https://www.kaggle.com/code/mirfanazam/prophet-titanic/notebook?scriptVersionId98443252
S. H. Oh, "Python Deep Learning Machine Learning？Introduction", Information Publishing Group, pp.90, pp.167,？2021.
Yoo Jin Eun, "Random Forest: Data Mining Techniques as an？Alternative to Decision Trees", Journal of Educational Evaluation,？VoL 28, No. 2, pp. 427-448, June 2015.？
S. H. Oh, "Python Machine Learning Pandas Data Analysis",？Information Publishing Group, pp.323-324, 2019.？
In Gook Chun, "Deep Learning EXPRESS", Life and Power Press,？pp.183,190-191, 2021.？
Yan, J., Xu, Y., etc. "LightGBM: accelerated genomically？designed crop breeding through ensemble learning", Genome？biology, vol. 22, pp. 1-24, 2021, DOI:10.1186/s13059-021-02492-y？

상세보기
Jihye Kim, Soo Jin Lee, "Darknet Traffic Detection and？Classification Using Gradient Boosting Techniques", Journal of？the Korea Institute of Information Security & Cryptology, 32(2),？pp. 371-379, 2022.？
How training is performed, https://catboost.ai/en/docs/concepts/algorithm-main-stages？
CatBoost, https://en.wikipedia.org/wiki/Catboost？

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] A Comparative Analysis of the Pre-Processing in the Kaggle Titanic Competition 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (13)

표/그림 (13)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] A Comparative Analysis of the Pre-Processing in the Kaggle Titanic Competition 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (13) 모든 표/그림 보기

표/그림 (13) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

표/그림 (13)

표/그림 (13)

AI 본문요약
AI-Helper