[논문]차륜 및 차축베어링 고장진단을 위한 빅데이터 기반 머신러닝 기법 연구

정훈; 박문성

doi:10.5762/kais.2018.19.1.75

차륜 및 차축베어링 고장진단을 위한 빅데이터 기반 머신러닝 기법 연구
A Study of Big data-based Machine Learning Techniques for Wheel and Bearing Fault Diagnosis 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.19 no.1, 2018년, pp.75 - 84

정훈 (한국전자통신연구원 초연결통신연구소 우정기술연구센터) , 박문성 (한국전자통신연구원 초연결통신연구소 우정기술연구센터)

초록
AI-Helper

본 철도 유지보수 산업의 효율화를 위해서는 핵심부품의 적시 관리를 통한 부품 가동률 향상 및 철도 운행의 안정성 향상이 필요하다. 또한 유지보수 시스템 고속화에 따른 신뢰성 향상과 핵심부품의 유지보수 비용 절감의 두 가지 측면을 모두 만족시키기 위해, 부품 이력관리와 대규모 빅데이터의 자동화된 분석 기술을 활용한 부품 상태 진단 기술 수요가 증가하고 있다. 이 논문에서는 철도차량의 차상 및 지상 장치로부터 발생되는 실시간 빅데이터 수집, 처리, 분석을 위해서 빅데이터 플랫폼 기반의 철도차량 부품의 상태 데이터 관리시스템을 개발하였으며, 이 시스템의 활용으로 철도차량의 부품 상태정보 및 시스템 리소스에 대한 실시간 모니터링이 가능하다. 또한 빅데이터 플랫폼으로부터 수집된 상태 데이터를 기반으로 분산/병렬처리 및 자동화된 부품 고장진단이 가능한 머신러닝 기법을 제안하였다. 실험결과, 분산/병렬처리 기술이 적용된 알고리즘의 실행시간 단축을 아마존 웹서비스의 가상 인스턴스 생성 시스템을 통해 증명하였으며, random forest 머신러닝 기법을 활용한 고장 진단 모델의 베어링 및 차륜 부품에 대한 상태 예측 정확도가 83%임을 확인하였다.

Abstract ▼ AI-Helper

Increasing the operation rate of components and stabilizing the operation through timely management of the core parts are crucial for improving the efficiency of the railroad maintenance industry. The demand for diagnosis technology to assess the condition of rolling stock components, which employs history management and automated big data analysis, has increased to satisfy both aspects of increasing reliability and reducing the maintenance cost of the core components to cope with the trend of rapid maintenance. This study developed a big data platform-based system to manage the rolling stock component condition to acquire, process, and analyze the big data generated at onboard and wayside devices of railroad cars in real time. The system can monitor the conditions of the railroad car component and system resources in real time. The study also proposed a machine learning technique that enabled the distributed and parallel processing of the acquired big data and automatic component fault diagnosis. The test, which used the virtual instance generation system of the Amazon Web Service, proved that the algorithm applying the distributed and parallel technology decreased the runtime and confirmed the fault diagnosis model utilizing the random forest machine learning for predicting the condition of the bearing and wheel parts with 83% accuracy.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

6과 같다. 본 논문에서는 철도차량 부품의 상태 데이터에 대한 전처리 단계로서 [5]에서 제안한 군집화 기법을 적용하여, 부품의 특정 상태에도 포함되지 않거나 이상치 값을 포함한 데이터를 제거하는데 활용하고자 한다. 또한, 분산처리 기법을 적용함으로써 대규모 실시간 수집되는 철도차량 부품 정보인 빅데이터의 처리 능력을 기존방식과 비교하여 평가한다.
본 절에서는 대규모 철도차량 부품 상태 데이터 수집부터 관리 및 시각화 기능 제공을 위해서 빅데이터 분석 플랫폼을 활용한 상태 데이터 관리 시스템을 설계한다.

제안 방법

마지막 제안한 기법의 성능평가로서 RF 분류기를 활용한 고장진단 모델의 정확도 평가를 수행한다. 3가지 클래스 상태(Good, Need Inspection, Failure Probability)에 대한 RF 기반 고장진단 학습모델의 예측 정확성을 평가하기 위해서 총 3가가지의 평가 지표인 precision, recall, F1-value를 각 클래스 예측결과로서 평가한다. 또한 전체적인 진단 모델의 성능 평가는 정확도 지표를 통해 RF 알고리즘의 최적 성능을 제시한다.
먼저, 빅데이터 분석을 위한 분산/병렬처리를 위한 mapReduce 기반 알고리즘의 실행속도 평가를 위해서 아마존 웹서비스(AWS)의 EMR 분산/병렬처리 실험환경을 이용한다. EMR에 개발 알고리즘과 베어링 및 차륜 데이터셋(총 25개 필드를 갖는 16,000건 데이터 파일)을 업로드한 후, 가상 인스턴스(EC2)를 1에서부터 최대 16가지 생성하여 단독머신에서 실행할 때의 시간과 2, 4, 8, 16대의 머신에서 동시에 분산/병렬처리 할 때의 실행시간 비교를 수행하였다. EMR 구성도는 Fig.
대용량 빅데이터를 활용하는 머신러닝 기법의 효율적인 고장진단 모델 생성을 위해 분산/병렬처리가 가능한 아파치 Spark 및 맵 패턴을 적용한 기법을 제안한다.
3가지 클래스 상태(Good, Need Inspection, Failure Probability)에 대한 RF 기반 고장진단 학습모델의 예측 정확성을 평가하기 위해서 총 3가가지의 평가 지표인 precision, recall, F1-value를 각 클래스 예측결과로서 평가한다. 또한 전체적인 진단 모델의 성능 평가는 정확도 지표를 통해 RF 알고리즘의 최적 성능을 제시한다. RF 기반의 베어링 및 차륜 부품 대상 고장모델의 모든 평가 척도들의 식은 다음과 같다.
본 논문에서는 철도차량 부품의 상태 데이터에 대한 전처리 단계로서 [5]에서 제안한 군집화 기법을 적용하여, 부품의 특정 상태에도 포함되지 않거나 이상치 값을 포함한 데이터를 제거하는데 활용하고자 한다. 또한, 분산처리 기법을 적용함으로써 대규모 실시간 수집되는 철도차량 부품 정보인 빅데이터의 처리 능력을 기존방식과 비교하여 평가한다.
머신러닝의 분류(classification) 기법을 이용하여 고장진단 모델을 생성하고, 아직 부품상태가 대기 중인 새로운 데이터에 대해 분류(클래스 라벨 할당을 통한 고장진단)를 수행한다.
빅데이터 분석 플랫폼 기반의 철도차량(고속열차 및 물류화물차량) 핵심부품 상태정보 관리시스템을 개발한다.
빅데이터 플랫폼에 분산 저장된 물류차량 지상(way-side) 장치 및 고속열차 차상(onboard) 장치로부터 수집된 데이터에서 고장진단을 위한 인자를 추출한다.
시스템의 설계는 3계층 구조로 설계한다. 저장계층에서는 물류차량/고속열차에서 측정된 상태정보를 분산구조 형태로 저장하며, 백업을 위한 기존 DB 시스템을 이용한다.
실시간 상태정보 모니터링을 위한 관리 시스템은 철도차량의 부품 상태정보를 실시간으로 수집하여 분석할 수 있는 기능을 제공하고 웹 로그 및 서버 자원 로그를 대상으로 실시간으로 모니터링을 할 수 있는 시스템을 개발한다. 전체 시스템을 분석할 수 있는 대시보드와 개별 서비스 단위의 대시보드, 부품의 고장진단 및 시스템의 장애 사전 감지를 위한 대시보드 등으로 구성된다.
따라서, 고장진단 모델 생성 전에 이는 반드시 제거되어야 하며, 일반적으로 통계적 및 비감독학습 방법이 사용된다. 이 논문에서는 비감독학습 기법으로 밀도 기반 DBSCAN 군집화를 수행하여 이상치를 탐지한다. DBSCAN 알고리즘의 분산/병렬처리가 가능하도록 mapReduce 패턴이 적용된다[5].
이를 위해서, 본 논문에서는 차상 및 지상에 부착된 센서 장치로부터 다양한 고장진단 파라미터를 추출하여 유지보수 현장 작업자의 검수 전에 그 상태를 실시간 모니터링과 결함 상태를 예측할 수 있는 빅데이터 기반 상태데이터 관리시스템과 머신러닝 기반의 유지보수지원 시스템을 개발하였다. 또한 향후 축적될 대용량 상태정보의 효율적인 유지보수지원 시스템의 결함진단을 위해서 분산/병렬처리가 가능한 mapReduce 기반의 알고리즘을 활용하였다.
철도차량 주요부품 중 베어링 및 차륜의 상태 기반 고장진단 판별을 위해서 비감독학습을 통한 전처리를 수행한 후, 감독학습 기법인 RF를 적용하여 부품의 상태를 분류한다.
고장진단 대상은 기계적 부품인 베어링 고장, 차륜 파손의 상태에 대한 머신러닝 기반 분류이다. 총 256건의 상태 데이터에서 기계적 결함의 여부 판단 기준인 3가지 클래스에 대한 머신러닝 기법의 평가를 수행하였다. 적용된 머신러닝 기법은 데이터 전처리를 위해 DBSCAN 군집화가 사용되었으며, 고장진단을 위한 감독학습 모델로서 random forest 기법을 적용하였다.

대상 데이터

고장진단 대상은 기계적 부품인 베어링 고장, 차륜 파손의 상태에 대한 머신러닝 기반 분류이다. 총 256건의 상태 데이터에서 기계적 결함의 여부 판단 기준인 3가지 클래스에 대한 머신러닝 기법의 평가를 수행하였다.
단, 분류모델의 경우, 훈련 및 테스트 셋으로 원 데이터를 나누어 훈련셋을 이용하여 학습을 시키고 테스트 셋으로 모델의 정확도를 평가한다. 본 실험에서는 학습단계의 실행시간만을 평가하며, 원 데이터의 70%인 189건의 훈련데이터를 사용하였다. 실험결과 단독실행일 경우, 6초에 학습이 종료되며, 노드 16개를 구성하여 분산/병렬처리 할 경우 2.
실험에 사용된 데이터는 철도차량의 기계적 결함 부품인 베어링과 차륜의 상태정보를 활용한다. 총 데이터 건수는 246이며, 8개의 특징벡터와 1개의 클래스 속성필드로 구성된다.
실험에 사용된 데이터는 철도차량의 기계적 결함 부품인 베어링과 차륜의 상태정보를 활용한다. 총 데이터 건수는 246이며, 8개의 특징벡터와 1개의 클래스 속성필드로 구성된다.

데이터처리

DBSCAN과 동일하게 분류/예측 기법인 RF에 대해서도 분산/병렬처리 프로그래밍의 성능평가를 수행하였다. 단, 분류모델의 경우, 훈련 및 테스트 셋으로 원 데이터를 나누어 훈련셋을 이용하여 학습을 시키고 테스트 셋으로 모델의 정확도를 평가한다.
마지막 제안한 기법의 성능평가로서 RF 분류기를 활용한 고장진단 모델의 정확도 평가를 수행한다. 3가지 클래스 상태(Good, Need Inspection, Failure Probability)에 대한 RF 기반 고장진단 학습모델의 예측 정확성을 평가하기 위해서 총 3가가지의 평가 지표인 precision, recall, F1-value를 각 클래스 예측결과로서 평가한다.

이론/모형

고장진단 모델 생성을 위한 감독학습 기법은 논문 [6]에서 검토를 하였으며, 그 결과를 바탕으로 본 절에서는 random forest 알고리즘을 사용한다.
이를 위해서, 본 논문에서는 차상 및 지상에 부착된 센서 장치로부터 다양한 고장진단 파라미터를 추출하여 유지보수 현장 작업자의 검수 전에 그 상태를 실시간 모니터링과 결함 상태를 예측할 수 있는 빅데이터 기반 상태데이터 관리시스템과 머신러닝 기반의 유지보수지원 시스템을 개발하였다. 또한 향후 축적될 대용량 상태정보의 효율적인 유지보수지원 시스템의 결함진단을 위해서 분산/병렬처리가 가능한 mapReduce 기반의 알고리즘을 활용하였다.
먼저, 빅데이터 분석을 위한 분산/병렬처리를 위한 mapReduce 기반 알고리즘의 실행속도 평가를 위해서 아마존 웹서비스(AWS)의 EMR 분산/병렬처리 실험환경을 이용한다. EMR에 개발 알고리즘과 베어링 및 차륜 데이터셋(총 25개 필드를 갖는 16,000건 데이터 파일)을 업로드한 후, 가상 인스턴스(EC2)를 1에서부터 최대 16가지 생성하여 단독머신에서 실행할 때의 시간과 2, 4, 8, 16대의 머신에서 동시에 분산/병렬처리 할 때의 실행시간 비교를 수행하였다.
총 256건의 상태 데이터에서 기계적 결함의 여부 판단 기준인 3가지 클래스에 대한 머신러닝 기법의 평가를 수행하였다. 적용된 머신러닝 기법은 데이터 전처리를 위해 DBSCAN 군집화가 사용되었으며, 고장진단을 위한 감독학습 모델로서 random forest 기법을 적용하였다.

성능/효과

성능평가 결과 정보는 Fig 13과 같이 3개 그룹으로 개발된 프로그램의 UI로 표출된다. 먼저, 1) 평가지표 결과에서는 정확도 83%이며, 정밀도, 민감도와의 조합평가 지표인 F1-value는 81%를 보였다. 또한 3가지 클래스에 대한 테스트셋을 활용한 평가에서 2) 혼잡 매트릭스를 표출하여 특정 클래스의 오분류와 정분류된 정보를 확인할 수 있다.
먼저, 1) 평가지표 결과에서는 정확도 83%이며, 정밀도, 민감도와의 조합평가 지표인 F1-value는 81%를 보였다. 또한 3가지 클래스에 대한 테스트셋을 활용한 평가에서 2) 혼잡 매트릭스를 표출하여 특정 클래스의 오분류와 정분류된 정보를 확인할 수 있다. 3)번 영역에서는 예측된 클래스 대비 실제 클래스 매칭 정보를 보여준다(초록색으로 표시된 것이 정확히 고장상태를 예측한 것이며, 붉은색 표시된 셀은 잘못 예측된 결과이다).
또한 3가지 클래스에 대한 테스트셋을 활용한 평가에서 2) 혼잡 매트릭스를 표출하여 특정 클래스의 오분류와 정분류된 정보를 확인할 수 있다. 3)번 영역에서는 예측된 클래스 대비 실제 클래스 매칭 정보를 보여준다(초록색으로 표시된 것이 정확히 고장상태를 예측한 것이며, 붉은색 표시된 셀은 잘못 예측된 결과이다).
최소 1개의 노드인 단일 실행에서는 60초 만에 알고리즘이 종료되어 결과를 출력한다. 그러나 노드 2개 실행 시에는 약 1/2 정도로 실행시간이 줄어들며, 노드 16개 구성 시에 분산/병렬처리 되어 약 9.1초에 알고리즘이 수행됨을 확인할 수 있다.
본 실험에서는 학습단계의 실행시간만을 평가하며, 원 데이터의 70%인 189건의 훈련데이터를 사용하였다. 실험결과 단독실행일 경우, 6초에 학습이 종료되며, 노드 16개를 구성하여 분산/병렬처리 할 경우 2.3초만에 학습이 완료됨을 확인하였다(Fig. 12).

후속연구

본 연구 결과를 바탕으로 한 향후 연구로는 고속열차 및 물류차량 대상 결함 진단 부품을 확대하여 기계적 및 전기적 부품의 상태정보에 대한 최적의 고장진단 알고리즘을 개발하는 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	국내 철도 차량의 유지보수 시스템의 현황은?	국내 철도 차량의 유지보수 시스템은 정보화 시스템구축을 통해 통계에 기반한 RCM(Reliability Centered Maintenance) 기술을 활용할 수 있는 수준에 도달하였으나 우발 고장에 대한 대응이 어렵기 때문에 승객 안전과 운행지연의 직접적인 원인이 되는 모터블럭, 차축베어링, 차륜 등과 같은 핵심 장치에 대해서는 운행 중 고장 예방을 위한 지속적인 기술 개발이 필요하다[1, 2]. 이렇듯 핵심부품의 적시관리를 통한 부품 가동률 향상과 철도 운행의 안정성 향상을 위해서는 부품 이력관리와 대용량 데이터의 자동화된 분석 기술을 활용한 부품 상태진단 기술 개발이 요구되며, 실시간 빅데이터 발생, 처리 및 머신러닝 기술 발전으로 향후 철도산업 분야 4차산업혁명 출현 전망에 따라 전문가적 지능을 갖는 머신러닝 및 인공지능 엔진 원천기술 연구가 필요한 실정이다.
	RF(Random Forest)란?	RF(Random Forest)는 앙상블 학습 기법을 사용하는 대표적인 트리 구조의 감독학습 모델이다. 일반적으로 RF는 배깅(bagging) 접근방식을 사용하는 대표적인 머신러닝의 트리 구조 알고리즘이다.
	핵심 장치에 대해서는 운행 중 고장 예방을 위해 요구되는 기술 개발은?	국내 철도 차량의 유지보수 시스템은 정보화 시스템구축을 통해 통계에 기반한 RCM(Reliability Centered Maintenance) 기술을 활용할 수 있는 수준에 도달하였으나 우발 고장에 대한 대응이 어렵기 때문에 승객 안전과 운행지연의 직접적인 원인이 되는 모터블럭, 차축베어링, 차륜 등과 같은 핵심 장치에 대해서는 운행 중 고장 예방을 위한 지속적인 기술 개발이 필요하다[1, 2]. 이렇듯 핵심부품의 적시관리를 통한 부품 가동률 향상과 철도 운행의 안정성 향상을 위해서는 부품 이력관리와 대용량 데이터의 자동화된 분석 기술을 활용한 부품 상태진단 기술 개발이 요구되며, 실시간 빅데이터 발생, 처리 및 머신러닝 기술 발전으로 향후 철도산업 분야 4차산업혁명 출현 전망에 따라 전문가적 지능을 갖는 머신러닝 및 인공지능 엔진 원천기술 연구가 필요한 실정이다. 독일 지멘스, 프랑스 알스톰 등 해외 선진 기업은 빅데이터 및 인공지능을 활용한 철도 유지관리와 교통수단연계 기술 등 4차 산업혁명에 따른 혁신 기술을 개발 중에 있다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증