[논문]텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 -

이지희; 이준성; 손정욱

doi:10.6106/kjcem.2016.17.5.089

문제 정의

2) 또한 불용어는 아니지만 ‘inquiry’,‘response’, ‘contractor’등과 같이 입찰자 질의서에 반복적으로 등장하는 단어들은 그 자체가 분석에 있어 특정한 의미를 갖지 못하기 때문에 효과적인 분석 및 작업 속도의 향상을 위해 제거하였다.
예를 들어,‘specification’이라는 단어가 문서 내에서 어떠한 의미로 쓰였는지 이해하기 위해 연관규칙 분석을 실시함으로써 문장 내 의미를 보다 정확히 파악하고자 하였다.
이에 본 연구에서는 방대한 양의 문서를 단시간 안에 효과적으로 분석할 수 있는 텍스트 마이닝(text mining)을 비롯한 비정형 텍스트 데이터 분석 방법 기술을 활용하여 해외건설공사의 입찰정보를 분석하고, 시사성 있는 정보를 도출하여 향후 활용방안을 모색하고자 한다. 이를 위해 입찰문서 내 불확실한 정보 및 누락사항 등을 사전에 검토하여 입찰 전 발주자에게 질의하는 ‘입찰자 질의(bidder inquiry)’ 정보를 대상으로 텍스트 분석을 실시함으로써 어떤 유형의 리스크 요인이 입찰문서에 존재하고, 입찰문서에서 어떤 부분을 사전에 검토하여 발주자에게 질의하여야 하는지에 대한 전반적인 이해를 돕고자 한다.
연관규칙 분석은 장바구니 분석 사례로도 알려져 있는 데이터 마이닝 기법으로 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다(Yu and Hong, 2015). 입찰 질의서에 대한 연관규칙 분석은 동일한 입찰 질의서 내에 특정 단어가 등장할 때 공통적으로 발견되는 단어들이 무엇인지를 파악하기 위한 목적으로 실시하였다. 예를 들어,‘specification’이라는 단어가 문서 내에서 어떠한 의미로 쓰였는지 이해하기 위해 연관규칙 분석을 실시함으로써 문장 내 의미를 보다 정확히 파악하고자 하였다.

제안 방법

R 프로그래밍을 통해 토픽 모델링을 수행한 결과 Table 4와 같이 총 5가지의 토픽을 찾을 수 있었다. 1,054건의 입찰 질의 문서에 대한 5가지의 토픽을 선정하기 위해 여러 번의 시행착오(trial and error)를 거쳤으며, 가장 유사한 단어들이 하나의 토픽으로 선정된 경우를 최종적으로 선정하였다. 각 토픽에 명시된 단어는 해당 토픽에 대한 설명력이 높은 것으로 선정된 단어들이다.
1,054건의 입찰자 질의 문서에 대한 불필요한 정보 제거의 일환으로서 대문자와 소문자의 구분을 없애기 위해 모든 단어를 소문자로 변환하는 작업을 우선 실시하였다.¹⁾ 그런 후 문서 내 모든 구두점(마침표, 콤마, 세미콜론, 콜론 등)을 제거하고, 관사, 전치사, 조사, 접속사 등 문장에서 내용을 설명함에 있어 큰 비중을 차지하지 않는 단어들을 불용어로 정의하여 제거하였다.
단어 사이의 관계분석에 대한 이해를 바탕으로 본 절에서는 입찰 질의서에 대한 텍스트 마이닝을 통해 각 문서들이 어떤 주제(토픽)들로 묶일 수 있는지, 문서들에 대한 토픽 모델링을 실시하였다. 앞 절에서 실시한 빈출단어 분석, 단어 간 군집분석, 연관규칙 분석이 개별 단어들 간의 관계를 파악하기 위한 작업이었다면 토픽 모델링 분석은 문서 내에 어떠한 주제의 내용들이 포함되어 있는지를 파악할 수 있는 방법으로, 하나의 문서에 두 개 이상의 주제가 포함될 수 있음을 전제로 한다는 점에서 텍스트 클러스터링과는 차이가 있다.
단어들 간의 보다 유기적 관계를 살펴보기 위해 연관규칙(association rules) 분석을 함께 실시하였다. 연관규칙 분석은 장바구니 분석 사례로도 알려져 있는 데이터 마이닝 기법으로 어떤 사건이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다(Yu and Hong, 2015).
첫째, 텍스트 마이닝 및 비정형 데이터 분석 방법에 대한 이론적 고찰을 바탕으로 해외건설공사 입찰정보 분석을 위한 방향을 수립한다. 둘째, 텍스트 마이닝 분석을 위한 입찰 질의 문서를 수집하되, 유의미한 분석 결과를 제시할 수 있도록 여러 프로젝트의 충분한 양의 데이터를 확보한다. 셋째, 텍스트 데이터를 구조화된 형태로 전환시키기 위해 텍스트 데이터 전처리(pre-processing) 과정을 거친다.
빈출 단어 분석을 통해 입찰 질의서에서 반복적으로 사용되고 있는 단어들에 대한 전반적인 파악은 가능하지만, 각 단어들이 문장 내에서 어떠한 의미로 사용되었는지를 알기 위해서는 빈도수 분석만으로는 이해가 어렵다. 따라서 단어들 간의 공통된 관계를 파악하기 위해 빈출 상위단어들에 대한 클러스터링을 실시하였으며, 그 결과 Fig. 2와 같은 덴드로그램을 얻을 수 있었다. Fig.
본 연구에서는 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트 마이닝, 정보 검색(Information Retrieval, IR), 자연어 처리(Natural Language Processing, NLP) 방법 등과 같은 비정형 데이터분석 방법을 활용하였다. 또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다. R은 패키지뿐만 아니라 일종의 프로그래밍 언어로서 기본적인 통계 기법부터 모델링, 데이터 마이닝 기법까지 구현이 가능하며, 구현한 결과는 그래프 등으로 시각화할 수 있다.
본 연구에서는 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트 마이닝, 정보 검색(Information Retrieval, IR), 자연어 처리(Natural Language Processing, NLP) 방법 등과 같은 비정형 데이터분석 방법을 활용하였다. 또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다.
본 장에서는 앞서 실시한 텍스트 데이터 전처리 과정을 통해 정제되고 구조화된 데이터를 바탕으로 빈출 단어 분석, 단어 간 연관규칙 분석 및 토픽 분석을 실시하였다.
이를 위해 입찰문서 내 불확실한 정보 및 누락사항 등을 사전에 검토하여 입찰 전 발주자에게 질의하는 ‘입찰자 질의(bidder inquiry)’ 정보를 대상으로 텍스트 분석을 실시함으로써 어떤 유형의 리스크 요인이 입찰문서에 존재하고, 입찰문서에서 어떤 부분을 사전에 검토하여 발주자에게 질의하여야 하는지에 대한 전반적인 이해를 돕고자 한다.
첫째, 텍스트 마이닝 및 비정형 데이터 분석 방법에 대한 이론적 고찰을 바탕으로 해외건설공사 입찰정보 분석을 위한 방향을 수립한다. 둘째, 텍스트 마이닝 분석을 위한 입찰 질의 문서를 수집하되, 유의미한 분석 결과를 제시할 수 있도록 여러 프로젝트의 충분한 양의 데이터를 확보한다.

대상 데이터

분석 데이터는 211개의 도로 인프라 공공 프로젝트에서 발생한 총 1,054건의 입찰 질의 문서로서, 텍스트 데이터 전처리 과정을 거쳐 분석을 실시하였다. Table 1은 입찰 질의 문서의 일부로서, 개별 문서들은 시공사의 질의문(inquiry)과 발주자/엔지니어의 답변문(response)로 구성되어 있다.
해외건설공사 입찰 질의정보에 대한 분석을 실시하기 위해 본 연구에서는 미국 캘리포니아 주정부 교통국(California Department of Transportation, Caltrans)에서 최근 3년 내에 발주한 공공 건설프로젝트를 대상으로 입찰 질의서 데이터를 수집하였다. 미국 공공 건설프로젝트를 텍스트 분석의 데이터로 선정한 이유는 국내 기업들이 많이 진출한 아시아나 중동지역의 경우 공공프로젝트의 입찰문서 및 계약사항, 입찰 질의서 등과 같은 상세 정보를 공개하고 있지 않을 뿐만 아니라 미국 캘리포니아 주정부 교통국에서는 매년 다수의 건설 사업을 발주하고 있기 때문에 보다 효과적인 분석이 가능하다고 판단하였기 때문이다.

성능/효과

²⁾ 또한 불용어는 아니지만 ‘inquiry’,‘response’, ‘contractor’등과 같이 입찰자 질의서에 반복적으로 등장하는 단어들은 그 자체가 분석에 있어 특정한 의미를 갖지 못하기 때문에 효과적인 분석 및 작업 속도의 향상을 위해 제거하였다.³⁾ 그 결과 당초 11,874개의 단어로 구성되었던 문서들이 불필요한 정보 제거 이후 5,196개의 단어로 50% 정도 감소한 것을 확인할 수 있었다(Table 2).
2와 같은 덴드로그램을 얻을 수 있었다. Fig. 2의 결과를 살펴보면, 단일 단어로 군집화된 경우를 제외한 나머지 세 가지 군집의 단어들의 조합에서 계약서에 언급된 공사 관련 기한(공기, 서류 제출 기한 등)에 대한 군집과 설계도서에 대한 군집, 시방서 및 특수계약조건과 관련된 군집으로 단어들이 조합된 것을 확인할 수 있었다.
그 결과를 살펴보면 ‘bid (1,693건)’, ‘submitted (1,198건)’와 같이 입찰문서의 제출과 관련한 단어들이 가장 빈번히 등장한 것을 알 수 있으며, ‘contract (1,014건)’, ‘section (904건)’과 같이 계약문서 및 문서 내 세부 절을 의미하는 단어들도 많이 발견되었다.
본 연구는 건설 분야의 비정형 텍스트 데이터 분석을 위하여 해외건설공사의 입찰자 질의 정보를 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어 유형, 단어들 간의 연관관계, 문서의 주제 유형 등을 파악할 수 있었다. 다시 말해, 과거에 수행되었던 건설공사에서 입찰 참여자들이 입찰문서를 검토할 때 어떤 부분을 중점적으로 검토하고 질의하였는지를 이해할 수 있었다.
따라서 본 연구에서는 설명력이 높은 몇 가지 규칙들만을 일부 추출하였고, 그 일부를 Table 3에 정리하였다. 분석 결과 제시된 규칙들을 살펴보면 문서 내에서 단어들이 등장할 때 어떤 단어들과 함께 사용되고 있는지에 대한 전반적인 파악이 가능하다.
분석 데이터를 토대로 연관규칙 분석을 실시한 결과 총 5,167개의 연관규칙이 생성되었다. Fig.
뿐만 아니라‘specification (283건)’, ‘plan (272건)’, ‘sheet (318건)’와 같이 설계도서에서 문제가 발생하여 질의서를 작성하였음을 추측할 수 있는 단어들도 다수 등장하고 있는 것을 확인하였다.

후속연구

그러나 본 연구에서 실시한 텍스트 마이닝의 결과는 데이터 전처리 및 정제과정에 크게 영향을 받기 때문에 연구자의 주관적인 판단이 개입될 여지가 있다는 부분에서 한계를 갖고 있으며, 향후 이를 보완할 수 있는 전문가 검토 등의 추가연구가 이루어질 수 있을 것이라 판단된다. 또한 정보 수집의 어려움으로 인해 미국 건설시장에서 발생한 해외건설공사의 입찰 정보만을 대상으로 분석을 실시한 것이기 때문에 추후 국내 기업들의 진출한 지역의 사례 데이터가 확보된다면 보다 다양한 분석 결과를 제시할 수 있을 것이라 판단된다.
뿐만 아니라 입찰자 질의 자료는 추후에 입찰서에 첨부되어 계약의 일부가 되기 때문에 입찰단계에서 발생하는 중요한 정보 중 하나라 볼 수 있다. 따라서 입찰자 질의서에는 입찰문서에서 발생할 수 있는 다양한 유형의 잠재 리스크 요인들이 포함될 가능성이 높으며, 이러한 문서들을 분석함으로써 입찰문서에서 공통적으로 지적되는 주요 리스크 요인들을 추출할 수 있을 것이라 판단되다.
물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다. 또한 관련 분야연구가 보다 확장된다면 과거에 수행되었던 프로젝트들의 텍스트 데이터를 확보하여 비정형 텍스트 분석을 실시함으로써 과거 수행 프로젝트로부터 중요한 노하우를 획득할 수 있을 것이며, 실패사례에 대한 학습도 가능할 것이라 판단된다.
그러나 본 연구에서 실시한 텍스트 마이닝의 결과는 데이터 전처리 및 정제과정에 크게 영향을 받기 때문에 연구자의 주관적인 판단이 개입될 여지가 있다는 부분에서 한계를 갖고 있으며, 향후 이를 보완할 수 있는 전문가 검토 등의 추가연구가 이루어질 수 있을 것이라 판단된다. 또한 정보 수집의 어려움으로 인해 미국 건설시장에서 발생한 해외건설공사의 입찰 정보만을 대상으로 분석을 실시한 것이기 때문에 추후 국내 기업들의 진출한 지역의 사례 데이터가 확보된다면 보다 다양한 분석 결과를 제시할 수 있을 것이라 판단된다.
본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 직접 개별 문서의 내용을 확인하지 않고도 1,054건이라는 많은 양의 문서들을 종합적으로 파악할 수 있는 방안을 제시했다는 점에서 의미를 찾을 수 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것으로 판단된다. 물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다. 또한 관련 분야연구가 보다 확장된다면 과거에 수행되었던 프로젝트들의 텍스트 데이터를 확보하여 비정형 텍스트 분석을 실시함으로써 과거 수행 프로젝트로부터 중요한 노하우를 획득할 수 있을 것이며, 실패사례에 대한 학습도 가능할 것이라 판단된다.
본 연구는 텍스트 마이닝을 활용한 해외건설공사 입찰 정보 분석을 통해 직접 개별 문서의 내용을 확인하지 않고도 1,054건이라는 많은 양의 문서들을 종합적으로 파악할 수 있는 방안을 제시했다는 점에서 의미를 찾을 수 있으며, 향후 관련 분야 연구를 확장시킬 수 있는 기반을 마련할 수 있을 것으로 판단된다. 물론, 아직까지 컴퓨터의 자연어 처리 기술이 완벽하지 못하기 때문에 텍스트 분석으로 문맥상의 미세한 의미까지 파악하지는 못하지만 짧은 시간 내에 많은 양의 정보를 효과적으로 분석할 수 있다는 점에서 향후 적용분야가 보다 확대될 수 있을 것이라 생각한다.

핵심어	질문	논문에서 추출한 답변
	건설 프로젝트에서 생산되는 대부분의 데이터는 어떤 데이터인가?	건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다.
	비정형 텍스트 데이터 분석 방법이 건설공사에서 필요한 이유는?	건설 프로젝트에서 생산되는 대부분의 데이터는 텍스트 기반의 비정형 데이터이다. 계약서, 시방서, RFi 등 수많은 텍스트 문서들을 효과적으로 분석하기 위해서는 텍스트 마이닝과 같은 비정형 텍스트 데이터 분석 방법이 필요하다. 이에 본 연구에서는 과거에 수행되었던 해외건설공사 프로젝트의 입찰 관련 문서들을 대상으로 텍스트 마이닝을 실시하였으며, 그 결과 빈출단어의 유형, 단어들 간의 연관관계, 문서들의 토픽 유형들에 대한 파악이 가능하였다.
	본 연구에서 텍스트 기반의 해외건설공사 입찰문서 내 정보를 효과적으로 분석하기 위해 텍스트마이닝 분석툴로 R 프로그래밍을 사용하였는데, 어떤 특징이 있는가?	또한 통계분석용 오픈 소스 소프트웨어인 R 프로그래밍을 통하여 비정형 텍스트 문서를 구조화하고, 분석 및 시각화하는 작업을 실시하였다. R은 패키지뿐만 아니라 일종의 프로그래밍 언어로서 기본적인 통계 기법부터 모델링, 데이터 마이닝 기법까지 구현이 가능하며, 구현한 결과는 그래프 등으로 시각화할 수 있다. 또한 Java나 C,Python 등 다른 프로그래밍 언어와 연결이 용이하여 프로젝트 특성에 맞는 독창적인 통계기법의 사용이 가능하다(Yim,2015)는 장점이 있어 본 연구의 텍스트 마이닝을 위한 분석툴로 선정하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 -
Construction Bid Data Analysis for Overseas Projects Based on Text Mining - Focusing on Overseas Construction Project's Bidder Inquiry 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 - Construction Bid Data Analysis for Overseas Projects Based on Text Mining - Focusing on Overseas Construction Project's Bidder Inquiry 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

이지희 (6) 이준성 (25) 손정욱 (17)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 -
Construction Bid Data Analysis for Overseas Projects Based on Text Mining - Focusing on Overseas Construction Project's Bidder Inquiry 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper