[논문]텍스트 마이닝을 통한 건설 생산성 분야의 연구동향 분석 - KSCE 저널을 중심으로 -

구본길; 허영기

doi:10.6106/kjcem.2020.21.2.015

텍스트 마이닝을 통한 건설 생산성 분야의 연구동향 분석 - KSCE 저널을 중심으로 -
Analysis on Research Trend of Productivity Using Text Mining - Focusing on KSCE Journal - 원문보기

한국건설관리학회논문집 = Korean journal of construction engineering and management, v.21 no.2, 2020년, pp.15 - 21

초록
AI-Helper

국토교통부가 2017년 12월에 발표한 제6차 건설기술진흥기본계획에 따르면, 건설기술혁신 등을 통해 2022년까지 건설 노동생산성을 40% 향상하는 것을 주요 목표로 하고 있다. 또한, 건설업계 및 학계에서는 건설 생산성 향상을 위해 지속적으로 다양한 연구 및 개발을 해오고 있다. 본 연구에서는 과거 15년간 대한토목학회 영문논문집에 발표된 생산성(Productivity) 관련 논문을 대상으로 어 프라이오리(A Priori) 알고리즘을 활용하여 키워드(Keyword) 간의 상관관계를 분석하였다. 분석 결과, 생산성 연구 키워드는 '작업(Work)' 및 '노무 인력(Labor)' 단어와 연관성이 매우 높은 것으로 나타났으며 생산성 영향요소, 생산성 모델과 시뮬레이션, 그리고 작업 시간에 따른 생산성 등이 키워드로 주로 연구되고 있음이 밝혀졌다. 또한, 건설기계(Machine) 혹은 장비(Equipment)와의 상관성은 낮은 것으로 분석되었다. 본 연구는 텍스트 마이닝(Text Mining)을 활용하여 국내 토목 분야에서 이루어진 생산성 관련 연구들의 개략적인 상관성과 경향을 분석하였으며, 특정 분야에서 이루어지고 있는 연구 동향 분석의 새로운 방안을 제시하였다.

Abstract ▼ AI-Helper

The relationship between keywords, found in all productivity related papers published in the KSCE journal for last 15 years, were analyzed in order to reveal a research trend in the area using text mining and A-Priori algorithm. As the results, it is found that the word of 'productivity' is most closely related to the words of 'work' and 'labor'. Futhermore, the word is somewhat related to those of 'factor', 'model', simulation', and 'work time'. It is also revealed that, on the other hand, the words of 'machine' and 'equipment' have little relationships with the keyword. This research will be a great help for academia to understand a research trend in the area of construction productivity.

주제어

표/그림 (10)

그림 Fig. 1. Research methdology
그림 Fig. 2. Frequency diagram
표 Table 1. Keyword list found, in all productivity related papers published in the KSCE journal for last 15 years, using text mining
그림 Fig. 3. Support-Lift graph of the word of ‘productivity’
그림 Fig. 4. Network of ‘productivity’ Rhs
표 Table 2. Transaction combination having higher than 15% of lift with Rhs of the word of ‘productivity’
그림 Fig. 5. Network of ‘time’ Rhs
그림 Fig. 6. Network of ‘cost’ Rhs
표 Table 3. Transaction combination having higher than 10% of lift with Rhs of the word of ‘time’
표 Table 4. Transaction combination having higher than 8% of lift with Rhs of the word of ‘cost’

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 국내 유명학회지에 발표된 생산성(Productivity) 관련 논문들을 대상으로 텍스트 마이닝 기법을 활용하여 키워드(Keyword) 간의 상관관계를 밝히고 관련 분야 연구들의 개략적인 상관성과 경향을 분석하고자 한다. 분석된 결과는 국내 생산성 관련 주제 연구 동향을 나타내어 국내 생산성 관련 연구 방향을 파악하고 후속연구 주제 결정에 기여할 수 있을 것으로 예상된다.

제안 방법

이를 확인하기 위해 Rhs를 Productivity가 아닌, Time. Cost, Quality로 가지는 각각의 상관성을 분석하였다.
해당 연구는 웹크롤링이 용이한 SBS뉴스 웹페이지에서 2011년부터 2017년까지의 387건의 추락사고 뉴스를 대상으로 하였고, 웹 데이터 형식의 데이터를 전처리하는 과정을 위해 형태소 분석을 실시해 분석에 불필요한 제거를 제거하여 진행하였다. 각 계절별 추락사고의 직, 간접적 요인을 분석한 결과로 장비와 기계 운전미숙, 건물현장, 차량이 추락 사고를 주로 유발하며 계절별 요인으로 봄철 크레인, 안전수칙 미 준수, 붕괴, 여름철 비계작업, 리프트, 점검미비 등을 도출해 내었다.
1]과 같은 방법론을 통해 진행하였다. 대상 논문을 데이터 마이닝을 통해 지정 후 텍스트 마이닝을 통해 명사를 추출한다.
해당 연구는 인공 신경 네트워크, 논 파라매트릭 부트스트래핑을 활용하여 프로젝트의 최종 공사비 에측모델을 1600개의 사례를 통해 개발하였다. 데이터 마이닝 시 카테고리를 프로젝트 유형, 규모, 발주처 유형, 공사비 범위, 공사기간, 공사 년도로 분할 해 특정 공사에 대한 결과만을 도출하는 것이 아닌 더 넓은 범위를 포함시켰다. 해당 연구의 결론으로 100개의 사전예측 결과 중 92%가 최종 공사비의 ±10%, 77%가 ± 5%의 값을 도출해 내어 산업계와 연구자들에게 초기공사비 산정 시 신뢰성과 정확성이 높은 산정방법을 제시하였다.
본 연구에서는 이러한 텍스트 구조화를 위한 데이터 분석 프로그램으로 R Studio를 활용하여 자연어 처리를 거친 뒤, ExtractNoun Function 기능을 사용해 대상 논문들의 본문 에서 명사들만을 추출하였다.
세부 범위로서는 해당 논문들의 제목과 초록을 제외한 전체 본문을 텍스트 마이닝을 대상으로 하여 키워드를 도출하여 상관성을 분석하였다.
앞선 방법을 통해 건설 생산성 분야의 개략적 연구 동향을 파악하고, 각 논문별 키워드의 상관성을 알아보기 위해 R studio 프로그램의 어 프라이오리(A Priori) 알고리즘을 통해 상관성 분석 알고리즘을 실행하였다. 데이터 트렌지션 묶음의 개수는 최대 5개로 제한하였다.
어 프라이오리 알고리즘을 실행하기 위해서 필요한 데이터는 행렬의 형태로 입력되어, 한 개의 행에서의 키워드 간의 상관관계를 분석한다. 이후 모든 데이터를 분석하여 상관성이 높은 데이터의 조합인 트렌지션을 구성해 다른 행에서 나타난 트랜지션과 대조하여 전체 중 높은 빈도의 트랜지션을 내림차순으로 정렬하는 식으로 진행된다.
해당 연구의 결론으로 산업계는 건설자동화로 인한 이윤과 목적물의 결과에 미치는 영향에 큰 관심도가 있으나 활성화에 소모되는 비용과 업무의 복잡함을 주요 단점으로 생각하는 것으로 나타났다. 이를 해결하기 위해 의사결정 지원 도구를 활용한 산업발전 방향으로 비즈니스 모델과 전반적 산업 프로세스를 재조정, 건물정보 프로토콜 개발, 제도적 지원 등을 제안하였다.
3단계로 추출 키워드를 명사의 빈도를 측정해, 해당 논문에서 빈번하게 언급되는 단어에 대한 키워드를 빈도수 상위 30개로 정의한다. 이와 같은 3단계의 데이터 마이닝 프로세스를 연구 대상 논문 전체로 확장해 진행하였다.
텍스트 마이닝 프로세스로 먼저 웹 크롤링을 통한 텍스트 마이닝을 진행하여 소셜미디어와 논문의 키워드를 빈도수 상위 항목을 통해 도출해 내었다. 이후 FP-tree Structure를 구성해 단어의 형태소를 구분하여 데이터에 대한 최적화를 실시하였다. 이후 보스뷰어(Vosviewer)를 통한 언어네트워크를 작성하여 연도별, 키워드별, 산업계와 학군별 건설자동화 분야의 문제점을 도출해내었다.
이후 논문별 최소 10회 이상 언급된 상위빈도 30개의 키워드를 지정해 논문 별 상위 키워드 간의 연관성 분석을 어 프라이오리(A Priori) 알고리즘을 통해 실시하였으며, 동일 키워드의 반복에 따른 식(1)의 지지도(Support) 값과 식(2) 의 향상도(Lift) 값(McNicholas, 2008)을 통해 키워드 간의 상관성을 분석하였다.
이후 FP-tree Structure를 구성해 단어의 형태소를 구분하여 데이터에 대한 최적화를 실시하였다. 이후 보스뷰어(Vosviewer)를 통한 언어네트워크를 작성하여 연도별, 키워드별, 산업계와 학군별 건설자동화 분야의 문제점을 도출해내었다. 해당 연구의 결론으로 산업계는 건설자동화로 인한 이윤과 목적물의 결과에 미치는 영향에 큰 관심도가 있으나 활성화에 소모되는 비용과 업무의 복잡함을 주요 단점으로 생각하는 것으로 나타났다.
해당 연구는 건설자동화 분야의 144개의 논문집을 대상으로 761편의 논문과 ENR, Redit 등 50개의 소셜미디어 웹페이지를 대상으로 텍스트 마이닝을 실시하였다. 텍스트 마이닝 프로세스로 먼저 웹 크롤링을 통한 텍스트 마이닝을 진행하여 소셜미디어와 논문의 키워드를 빈도수 상위 항목을 통해 도출해 내었다. 이후 FP-tree Structure를 구성해 단어의 형태소를 구분하여 데이터에 대한 최적화를 실시하였다.
Lee (2018)는 Vosviewer를 이용한 네트워크 작성방법을 활용해 국내 기후변화 적응대책을 분석하였다. 해당 논문은 중앙정부와 지자체 단위의 기후변화 적응대책과 전략에 대하여 데이터 마이닝을 실시한 후, 언어네트워크 상관도를 작성하여 핵심어 간의 관계연결을 측정하여 적응대책의 연결망을 분석하였다. 해당 연구의 결과로 분석 형태로 만들어지지 않은 기후변화 적응대책과 그 영향을 정량적으로 평가하여 정책비전 수립 과정에서 빅데이터 분석을 활용하는 방법을 제시하였다.
Kim and Kim (2019)는 계절별 건설현장 추락사고의 특징을 분석하기 위해서 텍스트 마이닝을 실시 후 주성분 분석과 군집 분석을 실시하였다. 해당 연구는 웹크롤링이 용이한 SBS뉴스 웹페이지에서 2011년부터 2017년까지의 387건의 추락사고 뉴스를 대상으로 하였고, 웹 데이터 형식의 데이터를 전처리하는 과정을 위해 형태소 분석을 실시해 분석에 불필요한 제거를 제거하여 진행하였다. 각 계절별 추락사고의 직, 간접적 요인을 분석한 결과로 장비와 기계 운전미숙, 건물현장, 차량이 추락 사고를 주로 유발하며 계절별 요인으로 봄철 크레인, 안전수칙 미 준수, 붕괴, 여름철 비계작업, 리프트, 점검미비 등을 도출해 내었다.
분석 대상 논문은 총 1186편을 대상으로 하였고, 데이터 정제과정을 거쳐 2050개의 키워드를 도출해 내었다. 해당 연구의 결과로 건설자동화 분야에서의 신규 상승키워드 그룹 내 주요기술을 Computer Vision, BIM, UAV로 정의하고 해당 기술의 주요 활용 분야를 제시하여 건설자동화 기술 관련 연구 동향 및 주요기술의 추이 분석을 실행하였다.
해당 논문은 중앙정부와 지자체 단위의 기후변화 적응대책과 전략에 대하여 데이터 마이닝을 실시한 후, 언어네트워크 상관도를 작성하여 핵심어 간의 관계연결을 측정하여 적응대책의 연결망을 분석하였다. 해당 연구의 결과로 분석 형태로 만들어지지 않은 기후변화 적응대책과 그 영향을 정량적으로 평가하여 정책비전 수립 과정에서 빅데이터 분석을 활용하는 방법을 제시하였다.
(2017)은 건설자동화 관련 연구 동향을 분석하기 위해서 키워드를 추출해서 Netminer를 활용해 네트워크를 작성하고 분석해서 연구동향을 파악하였다. 해당 연구의 프로세스는 국제건설자동화 및 로봇학회(IAARC)의 국제 심포지움에 게제된 논문을 대상으로 키워드 빈도에 따른 기초 연구 동향을 파악하고 연결중심성과 매개중심성의 형태로 키워드간의 상관성을 분석하는 형태로 구성되었다. 분석 대상 논문은 총 1186편을 대상으로 하였고, 데이터 정제과정을 거쳐 2050개의 키워드를 도출해 내었다.

대상 데이터

도출된 데이터 중에서 중복되는 데이터와 불필요한 데이터를 전문가와의 브레인스토밍을 통해 제거하였으며, 최종 적으로 644개의 데이터가 선택되었다.
본 연구는 대한토목학회 영문논문집에 발표된 과거 15년간의 생산성(Productivity) 관련 논문 45편을 대상으로 키워드(Keyword) 간의 상관관계를 분석하였다.
본 연구의 범위로는 전문가 자문을 통해 국내 유명학회지인 대한토목학회의 영문 논문집(KSCE Journal of Civil Engineering)에 발표된 논문 중 2003년 이후 자료를 바탕으로 초록 또는 제목에 ‘생산성(Productivity)’ 단어가 포함된 것들로 한정하였다.
해당 연구의 프로세스는 국제건설자동화 및 로봇학회(IAARC)의 국제 심포지움에 게제된 논문을 대상으로 키워드 빈도에 따른 기초 연구 동향을 파악하고 연결중심성과 매개중심성의 형태로 키워드간의 상관성을 분석하는 형태로 구성되었다. 분석 대상 논문은 총 1186편을 대상으로 하였고, 데이터 정제과정을 거쳐 2050개의 키워드를 도출해 내었다. 해당 연구의 결과로 건설자동화 분야에서의 신규 상승키워드 그룹 내 주요기술을 Computer Vision, BIM, UAV로 정의하고 해당 기술의 주요 활용 분야를 제시하여 건설자동화 기술 관련 연구 동향 및 주요기술의 추이 분석을 실행하였다.
본 연구의 범위로는 전문가 자문을 통해 국내 유명학회지인 대한토목학회의 영문 논문집(KSCE Journal of Civil Engineering)에 발표된 논문 중 2003년 이후 자료를 바탕으로 초록 또는 제목에 ‘생산성(Productivity)’ 단어가 포함된 것들로 한정하였다. 텍스트 마이닝을 위해 진행되는 자연어 처리 과정 중 불용어(Boolean) 처리에 사용되는 한글 형태소 패키지(KONLP)가 사전에 등록된 단어만 인식하는 문제로 인해 영문학회지를 대상으로 하였다.
(2018)은 랩마이너(Rapidminer)를 활용하여 웹 크롤링(Crawling)을 통해 데이터를 수집하고 작성한 네트워크의 클러스터 간의 연관성 분석을 통한 건설자동화 분야에 대한 학계와 산업계의 발전 저해요소에 대한 의견을 각각 분석하여 건설자동화 분야의 해결방안을 제시하였다. 해당 연구는 건설자동화 분야의 144개의 논문집을 대상으로 761편의 논문과 ENR, Redit 등 50개의 소셜미디어 웹페이지를 대상으로 텍스트 마이닝을 실시하였다. 텍스트 마이닝 프로세스로 먼저 웹 크롤링을 통한 텍스트 마이닝을 진행하여 소셜미디어와 논문의 키워드를 빈도수 상위 항목을 통해 도출해 내었다.
(2014)은 데이터 마이닝을 통해 공사비 초과를 방지하는 방안에 대한 연구를 진행하였다. 해당 연구는 인공 신경 네트워크, 논 파라매트릭 부트스트래핑을 활용하여 프로젝트의 최종 공사비 에측모델을 1600개의 사례를 통해 개발하였다. 데이터 마이닝 시 카테고리를 프로젝트 유형, 규모, 발주처 유형, 공사비 범위, 공사기간, 공사 년도로 분할 해 특정 공사에 대한 결과만을 도출하는 것이 아닌 더 넓은 범위를 포함시켰다.

데이터처리

이러한 데이터의 오버플로우(Overflow)를 방지하고 연구 동향분석의 신뢰성을 높이기 위하여 지지도 15% 이상의 데이터 트렌젝션 21쌍을 추출하여 이를 대표 데이터 조합으로 가정해 결과분석에 사용하며 결과값은 [Table 2]와 같다.

이론/모형

데이터 마이닝 프로세스 중 사용되는 처리 과정은 기존 Chen et al. (2018)의 연구에 Rapidminer와 VOSviewer를 통해 사용된 텍스트 마이닝 프로세스 을 R Studio를 통해 진행 하였다. 해당 프로세스는 웹페이지와 발간물을 홈페이지에서 텍스트 마이닝 알고리즘을 거쳐 진행하는 웹 크롤링 방식을 사용한다.
(2018)의 연구에 Rapidminer와 VOSviewer를 통해 사용된 텍스트 마이닝 프로세스 을 R Studio를 통해 진행 하였다. 해당 프로세스는 웹페이지와 발간물을 홈페이지에서 텍스트 마이닝 알고리즘을 거쳐 진행하는 웹 크롤링 방식을 사용한다. 해당 방식은 웹페이지의 모든 텍스트 데이터를 가져오기 때문에 별도 데이터 선별 과정을 거치는데, 이를 데이터 정렬(Data Allocation)이라고 한다.

성능/효과

그리고 ‘simulation’, ‘model, simulation’의 빈도도 높아 시뮬레이션을 통한 연구 개발과 개발된 모델 및 결과를 시뮬레이션을 통해 검증한 연구들의 빈도가 높은 것을 알 수 있다.
다음으로 상관도가 높은 그룹은 ‘factor’, ‘fator, model’ 로 나타나, 생산성 관련 영향요소 및 모델의 개발과 관련된 연구 빈도가 높은 것으로 나타났다.
또한, 생산성 관련 건설기계(Machine) 혹은 장비 (Equipment)와의 상관성은 상위 21개 트렌젝션에서 등장하지 않아 낮은 것으로 분석되었다.
분석 대상 논문들의 생산성 연구 키워드는 ‘작업(Work)’ 및 ‘노무 인력(Labor)’ 단어와 연관성이 매우 높은 것으로 나타났다.
해당 연구의 결론으로 100개의 사전예측 결과 중 92%가 최종 공사비의 ±10%, 77%가 ± 5%의 값을 도출해 내어 산업계와 연구자들에게 초기공사비 산정 시 신뢰성과 정확성이 높은 산정방법을 제시하였다.
이후 보스뷰어(Vosviewer)를 통한 언어네트워크를 작성하여 연도별, 키워드별, 산업계와 학군별 건설자동화 분야의 문제점을 도출해내었다. 해당 연구의 결론으로 산업계는 건설자동화로 인한 이윤과 목적물의 결과에 미치는 영향에 큰 관심도가 있으나 활성화에 소모되는 비용과 업무의 복잡함을 주요 단점으로 생각하는 것으로 나타났다. 이를 해결하기 위해 의사결정 지원 도구를 활용한 산업발전 방향으로 비즈니스 모델과 전반적 산업 프로세스를 재조정, 건물정보 프로토콜 개발, 제도적 지원 등을 제안하였다.

후속연구

본 연구는 특정 분야에서 이루어지고 있는 연구 동향 분석의 새로운 방안을 제시하고, 더 광범위한 연구 대상을 통한 추가 연구로 국내 생산성 연구 동향에 대한 개략적 상관성과 경향을 알 수 있다는 점에서 유용하게 사용될 수 있을 것으로 사료된다.
본 연구에서는 국내 유명학회지에 발표된 생산성(Productivity) 관련 논문들을 대상으로 텍스트 마이닝 기법을 활용하여 키워드(Keyword) 간의 상관관계를 밝히고 관련 분야 연구들의 개략적인 상관성과 경향을 분석하고자 한다. 분석된 결과는 국내 생산성 관련 주제 연구 동향을 나타내어 국내 생산성 관련 연구 방향을 파악하고 후속연구 주제 결정에 기여할 수 있을 것으로 예상된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	텍스트 마이닝이란 무엇인가?	텍스트 마이닝은 언어들의 연결, 개념들의 연결망을 추출해내어 의미를 찾는 것을 말한다. 이는 데이터 마이닝과는 달리 대상을 구조화하는 과정이 필요하다(Jo, 2001).
	프라이오리 알고리즘과 다른 상관성 분석방법과의 차이점은 무엇인가?	어 프라이오리 알고리즘이 가진 다른 상관성 분석방법과의 차이점은 데이터베이스에서 내재된 특성에 좌우되지 않고 데이터 간의 상호 연계성에만 집중하여 상관성을 분석할 수 있다는 점이다.
	텍스트 마이닝이 데이터 마이닝과는 다르게 별도로 필요한 과정은 무엇인가?	텍스트 마이닝은 언어들의 연결, 개념들의 연결망을 추출해내어 의미를 찾는 것을 말한다. 이는 데이터 마이닝과는 달리 대상을 구조화하는 과정이 필요하다(Jo, 2001).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증