텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 - Construction Bid Data Analysis for Overseas Projects Based on Text Mining - Focusing on Overseas Construction Project's Bidder Inquiry원문보기
건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다. 이에 본 연구에서는 과거에 수행되었던 해외건설공사 프로젝트의 입찰 관련 문서들을 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어의 유형, 단어들 간의 연관관계, 문서들의 토픽 유형들에 대한 파악이 가능하였다. 본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 비정형 텍스트 데이터를 효과적으로 분석할 수 있는 방안을 제시하였다는 점에서 의의가 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것이라 기대한다.
건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다. 이에 본 연구에서는 과거에 수행되었던 해외건설공사 프로젝트의 입찰 관련 문서들을 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어의 유형, 단어들 간의 연관관계, 문서들의 토픽 유형들에 대한 파악이 가능하였다. 본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 비정형 텍스트 데이터를 효과적으로 분석할 수 있는 방안을 제시하였다는 점에서 의의가 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것이라 기대한다.
Most data generated in construction projects is unstructured text data. Unstructured data analysis is very needed in order for effective analysis on large amounts of text-based documents, such as contracts, specifications, and RFI. This study analysed previously performed project's bid related docum...
Most data generated in construction projects is unstructured text data. Unstructured data analysis is very needed in order for effective analysis on large amounts of text-based documents, such as contracts, specifications, and RFI. This study analysed previously performed project's bid related documents (bidder inquiry) in overseas construction projects; as a results of the analysis frequent words in documents, association rules among the words, and various document topics were derived. This study suggests effective text analysis approach for massive documents with short time using text mining technique, and this approach is expected to extend the unstructured text data analysis in construction industry.
Most data generated in construction projects is unstructured text data. Unstructured data analysis is very needed in order for effective analysis on large amounts of text-based documents, such as contracts, specifications, and RFI. This study analysed previously performed project's bid related documents (bidder inquiry) in overseas construction projects; as a results of the analysis frequent words in documents, association rules among the words, and various document topics were derived. This study suggests effective text analysis approach for massive documents with short time using text mining technique, and this approach is expected to extend the unstructured text data analysis in construction industry.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
2) 또한 불용어는 아니지만 ‘inquiry’,‘response’, ‘contractor’등과 같이 입찰자 질의서에 반복적으로 등장하는 단어들은 그 자체가 분석에 있어 특정한 의미를 갖지 못하기 때문에 효과적인 분석 및 작업 속도의 향상을 위해 제거하였다.
예를 들어,‘specification’이라는 단어가 문서 내에서 어떠한 의미로 쓰였는지 이해하기 위해 연관규칙 분석을 실시함으로써 문장 내 의미를 보다 정확히 파악하고자 하였다.
이에 본 연구에서는 방대한 양의 문서를 단시간 안에 효과적으로 분석할 수 있는 텍스트 마이닝(text mining)을 비롯한 비정형 텍스트 데이터 분석 방법 기술을 활용하여 해외건설공사의 입찰정보를 분석하고, 시사성 있는 정보를 도출하여 향후 활용방안을 모색하고자 한다. 이를 위해 입찰문서 내 불확실한 정보 및 누락사항 등을 사전에 검토하여 입찰 전 발주자에게 질의하는 ‘입찰자 질의(bidder inquiry)’ 정보를 대상으로 텍스트 분석을 실시함으로써 어떤 유형의 리스크 요인이 입찰문서에 존재하고, 입찰문서에서 어떤 부분을 사전에 검토하여 발주자에게 질의하여야 하는지에 대한 전반적인 이해를 돕고자 한다.
연관규칙 분석은 장바구니 분석 사례로도 알려져 있는 데이터 마이닝 기법으로 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다(Yu and Hong, 2015). 입찰 질의서에 대한 연관규칙 분석은 동일한 입찰 질의서 내에 특정 단어가 등장할 때 공통적으로 발견되는 단어들이 무엇인지를 파악하기 위한 목적으로 실시하였다. 예를 들어,‘specification’이라는 단어가 문서 내에서 어떠한 의미로 쓰였는지 이해하기 위해 연관규칙 분석을 실시함으로써 문장 내 의미를 보다 정확히 파악하고자 하였다.
제안 방법
R 프로그래밍을 통해 토픽 모델링을 수행한 결과 Table 4와 같이 총 5가지의 토픽을 찾을 수 있었다. 1,054건의 입찰 질의 문서에 대한 5가지의 토픽을 선정하기 위해 여러 번의 시행착오(trial and error)를 거쳤으며, 가장 유사한 단어들이 하나의 토픽으로 선정된 경우를 최종적으로 선정하였다. 각 토픽에 명시된 단어는 해당 토픽에 대한 설명력이 높은 것으로 선정된 단어들이다.
1,054건의 입찰자 질의 문서에 대한 불필요한 정보 제거의 일환으로서 대문자와 소문자의 구분을 없애기 위해 모든 단어를 소문자로 변환하는 작업을 우선 실시하였다.1) 그런 후 문서 내 모든 구두점(마침표, 콤마, 세미콜론, 콜론 등)을 제거하고, 관사, 전치사, 조사, 접속사 등 문장에서 내용을 설명함에 있어 큰 비중을 차지하지 않는 단어들을 불용어로 정의하여 제거하였다.
단어 사이의 관계분석에 대한 이해를 바탕으로 본 절에서는 입찰 질의서에 대한 텍스트 마이닝을 통해 각 문서들이 어떤 주제(토픽)들로 묶일 수 있는지, 문서들에 대한 토픽 모델링을 실시하였다. 앞 절에서 실시한 빈출단어 분석, 단어 간 군집분석, 연관규칙 분석이 개별 단어들 간의 관계를 파악하기 위한 작업이었다면 토픽 모델링 분석은 문서 내에 어떠한 주제의 내용들이 포함되어 있는지를 파악할 수 있는 방법으로, 하나의 문서에 두 개 이상의 주제가 포함될 수 있음을 전제로 한다는 점에서 텍스트 클러스터링과는 차이가 있다.
단어들 간의 보다 유기적 관계를 살펴보기 위해 연관규칙(association rules) 분석을 함께 실시하였다. 연관규칙 분석은 장바구니 분석 사례로도 알려져 있는 데이터 마이닝 기법으로 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다(Yu and Hong, 2015).
첫째, 텍스트 마이닝 및 비정형 데이터 분석 방법에 대한 이론적 고찰을 바탕으로 해외건설공사 입찰정보 분석을 위한 방향을 수립한다. 둘째, 텍스트 마이닝 분석을 위한 입찰 질의 문서를 수집하되, 유의미한 분석 결과를 제시할 수 있도록 여러 프로젝트의 충분한 양의 데이터를 확보한다. 셋째, 텍스트 데이터를 구조화된 형태로 전환시키기 위해 텍스트 데이터 전처리(pre-processing) 과정을 거친다.
빈출 단어 분석을 통해 입찰 질의서에서 반복적으로 사용되고 있는 단어들에 대한 전반적인 파악은 가능하지만, 각 단어들이 문장 내에서 어떠한 의미로 사용되었는지를 알기 위해서는 빈도수 분석만으로는 이해가 어렵다. 따라서 단어들 간의 공통된 관계를 파악하기 위해 빈출 상위단어들에 대한 클러스터링을 실시하였으며, 그 결과 Fig. 2와 같은 덴드로그램을 얻을 수 있었다. Fig.
본 연구에서는 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트 마이닝, 정보 검색(Information Retrieval, IR), 자연어 처리(Natural Language Processing, NLP) 방법 등과 같은 비정형 데이터분석 방법을 활용하였다. 또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다. R은 패키지뿐만 아니라 일종의 프로그래밍 언어로서 기본적인 통계 기법부터 모델링, 데이터 마이닝 기법까지 구현이 가능하며, 구현한 결과는 그래프 등으로 시각화할 수 있다.
본 연구에서는 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트 마이닝, 정보 검색(Information Retrieval, IR), 자연어 처리(Natural Language Processing, NLP) 방법 등과 같은 비정형 데이터분석 방법을 활용하였다. 또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다.
본 장에서는 앞서 실시한 텍스트 데이터 전처리 과정을 통해 정제되고 구조화된 데이터를 바탕으로 빈출 단어 분석, 단어 간 연관규칙 분석 및 토픽 분석을 실시하였다.
이를 위해 입찰문서 내 불확실한 정보 및 누락사항 등을 사전에 검토하여 입찰 전 발주자에게 질의하는 ‘입찰자 질의(bidder inquiry)’ 정보를 대상으로 텍스트 분석을 실시함으로써 어떤 유형의 리스크 요인이 입찰문서에 존재하고, 입찰문서에서 어떤 부분을 사전에 검토하여 발주자에게 질의하여야 하는지에 대한 전반적인 이해를 돕고자 한다.
첫째, 텍스트 마이닝 및 비정형 데이터 분석 방법에 대한 이론적 고찰을 바탕으로 해외건설공사 입찰정보 분석을 위한 방향을 수립한다. 둘째, 텍스트 마이닝 분석을 위한 입찰 질의 문서를 수집하되, 유의미한 분석 결과를 제시할 수 있도록 여러 프로젝트의 충분한 양의 데이터를 확보한다.
대상 데이터
분석 데이터는 211개의 도로 인프라 공공 프로젝트에서 발생한 총 1,054건의 입찰 질의 문서로서, 텍스트 데이터 전처리 과정을 거쳐 분석을 실시하였다. Table 1은 입찰 질의 문서의 일부로서, 개별 문서들은 시공사의 질의문(inquiry)과 발주자/엔지니어의 답변문(response)로 구성되어 있다.
해외건설공사 입찰 질의정보에 대한 분석을 실시하기 위해 본 연구에서는 미국 캘리포니아 주정부 교통국(California Department of Transportation, Caltrans)에서 최근 3년 내에 발주한 공공 건설프로젝트를 대상으로 입찰 질의서 데이터를 수집하였다. 미국 공공 건설프로젝트를 텍스트 분석의 데이터로 선정한 이유는 국내 기업들이 많이 진출한 아시아나 중동지역의 경우 공공프로젝트의 입찰문서 및 계약사항, 입찰 질의서 등과 같은 상세 정보를 공개하고 있지 않을 뿐만 아니라 미국 캘리포니아 주정부 교통국에서는 매년 다수의 건설 사업을 발주하고 있기 때문에 보다 효과적인 분석이 가능하다고 판단하였기 때문이다.
성능/효과
2) 또한 불용어는 아니지만 ‘inquiry’,‘response’, ‘contractor’등과 같이 입찰자 질의서에 반복적으로 등장하는 단어들은 그 자체가 분석에 있어 특정한 의미를 갖지 못하기 때문에 효과적인 분석 및 작업 속도의 향상을 위해 제거하였다.3) 그 결과 당초 11,874개의 단어로 구성되었던 문서들이 불필요한 정보 제거 이후 5,196개의 단어로 50% 정도 감소한 것을 확인할 수 있었다(Table 2).
2와 같은 덴드로그램을 얻을 수 있었다. Fig. 2의 결과를 살펴보면, 단일 단어로 군집화된 경우를 제외한 나머지 세 가지 군집의 단어들의 조합에서 계약서에 언급된 공사 관련 기한(공기, 서류 제출 기한 등)에 대한 군집과 설계도서에 대한 군집, 시방서 및 특수계약조건과 관련된 군집으로 단어들이 조합된 것을 확인할 수 있었다.
그 결과를 살펴보면 ‘bid (1,693건)’, ‘submitted (1,198건)’와 같이 입찰문서의 제출과 관련한 단어들이 가장 빈번히 등장한 것을 알 수 있으며, ‘contract (1,014건)’, ‘section (904건)’과 같이 계약문서 및 문서 내 세부 절을 의미하는 단어들도 많이 발견되었다.
본 연구는 건설 분야의 비정형 텍스트 데이터 분석을 위하여 해외건설공사의 입찰자 질의 정보를 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어 유형, 단어들 간의 연관관계, 문서의 주제 유형 등을 파악할 수 있었다. 다시 말해, 과거에 수행되었던 건설공사에서 입찰 참여자들이 입찰문서를 검토할 때 어떤 부분을 중점적으로 검토하고 질의하였는지를 이해할 수 있었다.
따라서 본 연구에서는 설명력이 높은 몇 가지 규칙들만을 일부 추출하였고, 그 일부를 Table 3에 정리하였다. 분석 결과 제시된 규칙들을 살펴보면 문서 내에서 단어들이 등장할 때 어떤 단어들과 함께 사용되고 있는지에 대한 전반적인 파악이 가능하다.
분석 데이터를 토대로 연관규칙 분석을 실시한 결과 총 5,167개의 연관규칙이 생성되었다. Fig.
뿐만 아니라‘specification (283건)’, ‘plan (272건)’, ‘sheet (318건)’와 같이 설계도서에서 문제가 발생하여 질의서를 작성하였음을 추측할 수 있는 단어들도 다수 등장하고 있는 것을 확인하였다.
후속연구
그러나 본 연구에서 실시한 텍스트 마이닝의 결과는 데이터 전처리 및 정제과정에 크게 영향을 받기 때문에 연구자의 주관적인 판단이 개입될 여지가 있다는 부분에서 한계를 갖고 있으며, 향후 이를 보완할 수 있는 전문가 검토 등의 추가연구가 이루어질 수 있을 것이라 판단된다. 또한 정보 수집의 어려움으로 인해 미국 건설시장에서 발생한 해외건설공사의 입찰 정보만을 대상으로 분석을 실시한 것이기 때문에 추후 국내 기업들의 진출한 지역의 사례 데이터가 확보된다면 보다 다양한 분석 결과를 제시할 수 있을 것이라 판단된다.
뿐만 아니라 입찰자 질의 자료는 추후에 입찰서에 첨부되어 계약의 일부가 되기 때문에 입찰단계에서 발생하는 중요한 정보 중 하나라 볼 수 있다. 따라서 입찰자 질의서에는 입찰문서에서 발생할 수 있는 다양한 유형의 잠재 리스크 요인들이 포함될 가능성이 높으며, 이러한 문서들을 분석함으로써 입찰문서에서 공통적으로 지적되는 주요 리스크 요인들을 추출할 수 있을 것이라 판단되다.
물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다. 또한 관련 분야연구가 보다 확장된다면 과거에 수행되었던 프로젝트들의 텍스트 데이터를 확보하여 비정형 텍스트 분석을 실시함으로써 과거 수행 프로젝트로부터 중요한 노하우를 획득할 수 있을 것이며, 실패사례에 대한 학습도 가능할 것이라 판단된다.
그러나 본 연구에서 실시한 텍스트 마이닝의 결과는 데이터 전처리 및 정제과정에 크게 영향을 받기 때문에 연구자의 주관적인 판단이 개입될 여지가 있다는 부분에서 한계를 갖고 있으며, 향후 이를 보완할 수 있는 전문가 검토 등의 추가연구가 이루어질 수 있을 것이라 판단된다. 또한 정보 수집의 어려움으로 인해 미국 건설시장에서 발생한 해외건설공사의 입찰 정보만을 대상으로 분석을 실시한 것이기 때문에 추후 국내 기업들의 진출한 지역의 사례 데이터가 확보된다면 보다 다양한 분석 결과를 제시할 수 있을 것이라 판단된다.
본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 직접 개별 문서의 내용을 확인하지 않고도 1,054건이라는 많은 양의 문서들을 종합적으로 파악할 수 있는 방안을 제시했다는 점에서 의미를 찾을 수 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것으로 판단된다. 물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다. 또한 관련 분야연구가 보다 확장된다면 과거에 수행되었던 프로젝트들의 텍스트 데이터를 확보하여 비정형 텍스트 분석을 실시함으로써 과거 수행 프로젝트로부터 중요한 노하우를 획득할 수 있을 것이며, 실패사례에 대한 학습도 가능할 것이라 판단된다.
본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 직접 개별 문서의 내용을 확인하지 않고도 1,054건이라는 많은 양의 문서들을 종합적으로 파악할 수 있는 방안을 제시했다는 점에서 의미를 찾을 수 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것으로 판단된다. 물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다.
질의응답
핵심어
질문
논문에서 추출한 답변
건설 프로젝트에서 생산되는 대부분의 데이터는 어떤 데이터인가?
건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다.
비정형 텍스트 데이터 분석 방법이 건설공사에서 필요한 이유는?
건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다. 이에 본 연구에서는 과거에 수행되었던 해외건설공사 프로젝트의 입찰 관련 문서들을 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어의 유형, 단어들 간의 연관관계, 문서들의 토픽 유형들에 대한 파악이 가능하였다.
본 연구에서 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트마이닝 분석툴로 R 프로그래밍을 사용하였는데, 어떤 특징이 있는가?
또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다. R은 패키지뿐만 아니라 일종의 프로그래밍 언어로서 기본적인 통계 기법부터 모델링, 데이터 마이닝 기법까지 구현이 가능하며, 구현한 결과는 그래프 등으로 시각화할 수 있다. 또한 Java나 C,Python 등 다른 프로그래밍 언어와 연결이 용이하여 프로젝트 특성에 맞는 독창적인 통계기법의 사용이 가능하다(Yim,2015)는 장점이 있어 본 연구의 텍스트 마이닝을 위한 분석툴로 선정하였다.
참고문헌 (10)
Caldas, C., Soibelman, L., and Han, J. (2002). "Automated Classification of Construction Project Documents." Journal of Computing in Civil Engineering, pp. 234-243.
Kim, J. H., and Kim, Y. S. (2014). "An Analysis of Concentrate Competency in Bidding Process for Overseas Project of Domestic Construction Companies." Korean Journal of Construction Engineering and Management, KICEM, 15(3), pp. 23-30.
Lee, J. H., Yi, J. S, and Son, J. W. (2016). "Unstructured Construction Data Analytics Using R Programming - Focused on Overseas Construction Adjudication Cases." Journal of the Architectural Institute of Korea, AIK, 32(5), pp. 37-44.
Mao, W., Zhu, Y., and Ahmad, I. (2007). "Applying metadata models to unstructured content of construction documents: A view-based approach. Automation in Construction." 16(2), pp. 242-252.
Seo, J. P., Ryu, H. G., Son, B. S., and Choi, Y. K. (2016). "The Development of Risk Management Process Model during Bidding Phase for Success of Oversea." Korean Journal of Construction Engineering and Management, KICEM, 17(4), pp. 76-86.
Simoff, S. J., and Maher, M. L. (1998). "Ontology-based multimedia data mining for design information retrieval." Computing in Civil Engineering, K. C. P. Wang, T. Adams, M. L. Maher, and A. Songer, eds., ASCE, Reston, Va., pp. 212-223.
Tanaka, T. (1988). "Analysis of claims in U.S. construction projects." Master thesis, Massachusetts Institute of Technology, Boston.
Yim, D. (2015). Big data analysis using R, Free academy, pp. 21-50.
Yu, C. H., and Hong, S. H. (2015). R Visualization, Insight.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.