무기 체계(or 구성품) 개발은 한정된 개발기간과 비용 등의 제한으로 시험 횟수가 많지 않아, 고장관련 축적된 데이터의 규모도 적다. 그러나 운용 중 발생한 고장 및 정비내역은 많은 부분 전산 데이터로 관리하고 있기 때문에 이를 활용한 무기 체계(or 구성품)의 고장원인 분석은 가능하다. 다만 다양한 무기체계의 고장 및 정비내역 작성 규격이 각 군 별, 업체별 상이하고, 고장 원인의 구체적 내역은 비정형 텍스트 데이터로 기술되어 있기 때문에 이를 분석하는데 어려움이 있었다. 그러나 오늘날 빅데이터 처리 기술과 기계학습(Machine Learning) 알고리즘의 발전, HW연산 능력의 개선과 맞물려, 상기와 같은 비정형 데이터를 처리 할 수 있는 여러 가지 방법들이 시도 되고 있으며, 주요한 연구 분야로 활발히 연구되고 있다. 본 논문에서는 국방 무기 체계(or 구성품)의 고장/정비 관련 비정형 데이터를 기계학습 기법 중 하나인 doc2vec을 적용하여 고장사례 분석 방안에 대하여 제시한다.
무기 체계(or 구성품) 개발은 한정된 개발기간과 비용 등의 제한으로 시험 횟수가 많지 않아, 고장관련 축적된 데이터의 규모도 적다. 그러나 운용 중 발생한 고장 및 정비내역은 많은 부분 전산 데이터로 관리하고 있기 때문에 이를 활용한 무기 체계(or 구성품)의 고장원인 분석은 가능하다. 다만 다양한 무기체계의 고장 및 정비내역 작성 규격이 각 군 별, 업체별 상이하고, 고장 원인의 구체적 내역은 비정형 텍스트 데이터로 기술되어 있기 때문에 이를 분석하는데 어려움이 있었다. 그러나 오늘날 빅데이터 처리 기술과 기계학습(Machine Learning) 알고리즘의 발전, HW연산 능력의 개선과 맞물려, 상기와 같은 비정형 데이터를 처리 할 수 있는 여러 가지 방법들이 시도 되고 있으며, 주요한 연구 분야로 활발히 연구되고 있다. 본 논문에서는 국방 무기 체계(or 구성품)의 고장/정비 관련 비정형 데이터를 기계학습 기법 중 하나인 doc2vec을 적용하여 고장사례 분석 방안에 대하여 제시한다.
The development of weapon systems (or components) is hindered by the number of tests due to the limited development period and cost, which reduces the scale of accumulated data related to failures. Nevertheless, because a large amount of failure data and maintenance details during the operational pe...
The development of weapon systems (or components) is hindered by the number of tests due to the limited development period and cost, which reduces the scale of accumulated data related to failures. Nevertheless, because a large amount of failure data and maintenance details during the operational period are managed by computerized data, the cause of failure of weapon systems (or components) can be analyzed using the data. On the other hand, analyzing the failure and maintenance details of various weapon systems is difficult because of the variation among groups and companies, and details of the cause of failure are described as unstructured text data. Fortunately, the recent developments of big data processing technology, machine learning algorithm, and improved HW computation ability have supported major research into various methods for processing the above unstructured data. In this paper, unstructured data related to the failure / maintenance of defense weapon systems (or components) is presented by applying doc2vec, a machine learning technique, to analyze the failure cases.
The development of weapon systems (or components) is hindered by the number of tests due to the limited development period and cost, which reduces the scale of accumulated data related to failures. Nevertheless, because a large amount of failure data and maintenance details during the operational period are managed by computerized data, the cause of failure of weapon systems (or components) can be analyzed using the data. On the other hand, analyzing the failure and maintenance details of various weapon systems is difficult because of the variation among groups and companies, and details of the cause of failure are described as unstructured text data. Fortunately, the recent developments of big data processing technology, machine learning algorithm, and improved HW computation ability have supported major research into various methods for processing the above unstructured data. In this paper, unstructured data related to the failure / maintenance of defense weapon systems (or components) is presented by applying doc2vec, a machine learning technique, to analyze the failure cases.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
마지막으로 5단계에서는 학습된 무기체계 ID 벡터와 정비 문서 간 Cosine Similarity를 통해 대표 문서를 식별하였고, 고장 정비 내역 기준 무기체계 간의 유사성을 직관적으로 확인할 수 있도록 군집화 및 시각화를 수행하였다. 또한 이를 활용할 수 있는 방안을 제안 하였다.
본 논문에서는 무기체계(or 구성품) 정비 문서(Text Document Data)에 인공 신경망 기반 비정형 데이터 분석 방법인 doc2vec을 적용하여 무기체계 별 대표 고장사례를 분석하는 방법을 제시 한다. 또한, 분석 결과 학습된 무기체계 별 벡터를 기준으로 유사 무기 체계를 식별하는 무기 체계의 군집화(Clustering)/시각화(Visualization) 결과를 제시한다.
본 연구는 doc2vec 학습 결과의 타당성을 평가하기 위해 적중률(Scoring)을 산출하였다. 학습되지 않고 장비 ID가 포함되지 않은 특정 무기체계 A의 고장 정비문서를 벡터화 하여, 해당 벡터와 가장 유사한(Most Similar) 상위 장비 ID 1개 또는 3개를 각각 식별한다.
제안 방법
데이터 분석을 위해 수집된 정비 문서의 전처리 작업을 수행하였다. 전처리 작업은 특수문자, 단일 단어, 어미, 조사, 다빈도 단어를 삭제하여 진행되었다(Table 3.
또한, 본 연구는 유사장비 식별 결과를 바탕으로 총 34 개의 무기체계에 대해 시각화(Visualization) 및 군집화(Clustering)를 수행하였다. 시각화(Visualization) 와 군집화(Clustering)는 각각 t-sne (sklearn.
본 논문에서는 무기체계(or 구성품) 정비 문서(Text Document Data)에 인공 신경망 기반 비정형 데이터 분석 방법인 doc2vec을 적용하여 무기체계 별 대표 고장사례를 분석하는 방법을 제시 한다. 또한, 분석 결과 학습된 무기체계 별 벡터를 기준으로 유사 무기 체계를 식별하는 무기 체계의 군집화(Clustering)/시각화(Visualization) 결과를 제시한다.
본 논문에서는 과거 자료로만 존재 했던 무기체계의 고장 정비 문서를 doc2vec을 적용하여 기계학습하는 방법을 제시하였으며, 학습된 결과를 적중률(score) 및 유사도(similarity)를 통해 대표 고장 정비 문서 및 고장유형을 식별하는 방법을 제시하였다. 또한, 전체 무기체계 간 유사성을 식별하기 용이하도록 시각화(Visualization)과 군집화(Clustering)를 수행하였다.
4단계에서는 기계학습 결과의 타당성을 확인하기 위하여 적중률을 정의 하였으며, 이를 기준으로 학습 성능을 평가하였다. 마지막으로 5단계에서는 학습된 무기체계 ID 벡터와 정비 문서 간 Cosine Similarity를 통해 대표 문서를 식별하였고, 고장 정비 내역 기준 무기체계 간의 유사성을 직관적으로 확인할 수 있도록 군집화 및 시각화를 수행하였다. 또한 이를 활용할 수 있는 방안을 제안 하였다.
본 논문에서는 과거 자료로만 존재 했던 무기체계의 고장 정비 문서를 doc2vec을 적용하여 기계학습하는 방법을 제시하였으며, 학습된 결과를 적중률(score) 및 유사도(similarity)를 통해 대표 고장 정비 문서 및 고장유형을 식별하는 방법을 제시하였다. 또한, 전체 무기체계 간 유사성을 식별하기 용이하도록 시각화(Visualization)과 군집화(Clustering)를 수행하였다.
본 연구는 각 무기체계 ID 벡터 간 Cosine Similarity를 통해 무기체계 간 고장 정비 유형 간 유사도(Similarity)를 식별 하였다. 예를 들어, 함상 레이더 장비(ID 14)는 XXX 장비(ID 10)와 유사도가 0.
또한, 본 연구는 유사장비 식별 결과를 바탕으로 총 34 개의 무기체계에 대해 시각화(Visualization) 및 군집화(Clustering)를 수행하였다. 시각화(Visualization) 와 군집화(Clustering)는 각각 t-sne (sklearn.manifoldimport TSNE) 와 DBSCAN (sklearn.cluster import DBSCAN)를 적용하였다. 군집화 결과 34개의 무기체계(or 구성품)은 6개의 군집으로 Clustering 됨을 알 수 있다(Table 12 참조).
학습되지 않고 장비 ID가 포함되지 않은 특정 무기체계 A의 고장 정비문서를 벡터화 하여, 해당 벡터와 가장 유사한(Most Similar) 상위 장비 ID 1개 또는 3개를 각각 식별한다. 식별된 장비 ID에 무기체계 A가 포함되어 있는지를 확인하여, 이를 적중률(Scoring)로 계산하였다. 이를 Code 화하여 표현 하면 Table 8.
본 연구는 정비문서에 문장 내용과 Tag를 Table 7과같이 설정하였다. 정비문서(Document)에 문서 ID (Doc_ID)와 장비ID (Equip_ID)로 Multi Tag를 부여하여, 각 문서와 무기체계에 대한 Vector를 학습 할 수 있도록 구현하였다(Table 7. 참조).
대상 데이터
과 같다. 1단계에서는 모 방산업체에서 약 10년간 기록해온 무기체계 정비 문서를 수집하였다. 2단계에서는 수집한 정비문서를 분석하기 위하여 정비 문서에서 특수문자, 단일단어, 조사,다빈도 무의미 단어 등을 처리하는 전처리(Pre-Processing)를 수행 하였다.
본 연구는 doc2vec 적용을 위해 2007년 1월부터 2017년 12월까지 모 방산업체에서 작성된 정비문서를 수집하였으며, 해당 무기체계의 정비 빈도가 50건 이상인 32개 무기체계(or 구성품)에 대한 정비문서 6,382 건을 선별하였다. 수집된 데이터는 양산 후 운용 3년 이내(A/S 기간 내) 초기 고장 발생에 대한 원인 및 정비 내역으로서, 무기체계(or 구성품)의 초기 고장 원인 분석에 유용하게 활용 될 수 있다.
수집된 정비 문서에는 Table 1.과 같이 장비ID, 고장징후, 고장 원인, 수리 내역, 수리 부품이 포함되어 있고,자료의 형태는 비정형 텍스트 데이터이다. Table 2.
이론/모형
본 연구는 전처리 완료된 정비문서에 Python gensim 라이브러리를 활용하여 doc2vec을 적용하였다. 본 연구에서 활용된 데이터는 정비 관련 단어들로만 구성된 정비 문서이기 때문에, 분석 방법은 단어의 순서를 고려하지 않고 데이터를 수치화 하는 보다 효율적인 방식의 dbow 방식을 사용하였다.
본 연구는 전처리 완료된 정비문서에 Python gensim 라이브러리를 활용하여 doc2vec을 적용하였다. 본 연구에서 활용된 데이터는 정비 관련 단어들로만 구성된 정비 문서이기 때문에, 분석 방법은 단어의 순서를 고려하지 않고 데이터를 수치화 하는 보다 효율적인 방식의 dbow 방식을 사용하였다.
성능/효과
참고). 데이터 전처리 결과로, 정비문서에 평균 26.11 개의 단어가 포함되고, 6,732 개의 Unique words로 구성된 것으로 나타났다.
따라서 유사한 장비 군(Cluster)의 크기를 3개로 설정하여, 해당 군(Cluster)에 해당 장비(A or B)가 존재하면 학습이 잘 되어 있는 것으로 판단하였다. 적중률(Scoring) 확인 결과, 유사장비 ID 1가지를 식별한 경우의 적중률은 72%, 3가지를 식별한 경우는 87%로 나타났다(Table 9. 참조).
후속연구
본 연구는 doc2vec 적용을 위해 2007년 1월부터 2017년 12월까지 모 방산업체에서 작성된 정비문서를 수집하였으며, 해당 무기체계의 정비 빈도가 50건 이상인 32개 무기체계(or 구성품)에 대한 정비문서 6,382 건을 선별하였다. 수집된 데이터는 양산 후 운용 3년 이내(A/S 기간 내) 초기 고장 발생에 대한 원인 및 정비 내역으로서, 무기체계(or 구성품)의 초기 고장 원인 분석에 유용하게 활용 될 수 있다.
259로 가장 높은 것으로 나타났다(Table 11 참조). 함상 레이더 장비(ID 14)와 유사한 장비 개발 시 유사도가 높은 장비들의 대표 고장 정비 내역을 검토하여 보다 가용도 높은 장비 개발에 활용될 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
데이터 벡터화란 무엇인가?
기계학습을 위한 비정형 텍스트 빅데이터의 처리 기술로 텍스트 데이터의 벡터화가 많이 적용되고 있다. 데이터 벡터화란 텍스트를 구성하는 단어를 수치화하는 것으로서, BOW(Bag of Words) 기법이 주로 사용된다. BOW는 문서에 있는 단어에 정수를 할당함으로써 여러 문서의 카테고리를 나누는 데 사용되며, 대표적인 모델로 Word2Vec이 있다.
doc2vec의 종류에 따른 특징은 무엇이 있는가?
문단벡터는 Le and Mikolov (2014)에 의하여 처음 제시되었으며, doc2vec에는 dbow 방식과 dmpv 방식이 있다. dbow는 단어의 순서를 고려하지 않고 데이터를 수치화 하는 방식이며, dmpv는 단어의 순서 및 문맥을 고려하여 데이터를 수치화하는 방식이다(Le and Mikolov , 2014)[10].
DBSCAN이 다른 군집화 알고리즘과 차별되는 장점은 무엇인가?
군집화(Clustering) 알고리즘인 DBSCAN(density based spatial clustering of applications with noise)은 주요 군집화 알고리즘과 다르게 군집(Cluster)의 개수를 미리 지정 할 필요가 없다는 장점을 지닌다. DBSCAN의 두 개의 매개 변수는 최소 군집 수량 (min samples) 와 eps 거리를 설정하면, 해당 조건에 만족하는 군집의 개수를 식별하고, 어떤 군집에도 속하지 않은 포인트(Noise)도 식별해 제시 한다[7].
Establishment of follow-up support system for export of weapons system, Konkuk Univ. Industry-Academia Collaboration Foundation Military Vision Lab, pp. 114-115,2015.12
Sooyune Jeon, Donghun Lee, Manjae Bae, "Study on the Application Method of Munition's Quality Information based on Big Data", Journal of the Korea Academia-Industrial cooperation Society, Vol 17, pp.315-325, 2016
Hyun-jung Kim, "Big Data Concept and Big Data Analysis Technique", Seminar, Korean Transport Institute.
Estabilishment of follow-up support system for export of weapons system, Konkuk Univ. Industry-Academia Collaboration Foundation Military Vision Lab, p. summary-3, 2015.12
Jongmoon Rhee, Jongshin Lee, Seungryool Lee , Kyungduk Park, "A Study on FMECA based on failure rate and cost of occurrence", Korean Institute Of Industrial Engineers, pp.841-845, 2010.11
Andreas Muller, Sarah Guido(2017), Introduction to Machine Learning with Python, O'REILLY,
Gavagai, A BRIEF HISTORY OF WORD EMBEDDINGS (AND SOME CLARIFICATIONS), Gavagai, 2015.9.30., Available From: https://www.gavagai.se/blog/2015/09/30/a-brief-history-of-word-embeddings (accessed Mar., 30, 2018)
Mikolov Tomas, Sutskerver Ilya, Chen Kai, Corrado Greg, Dean Jeffrey. "Distributed Representations of Words and Phrases and their Compositionality", In Advances on Neural Information Processing System, pp.3111-3119, 2013
Lau, Baldwin, An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation, arXiv.org, 2016.7.19.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.