텍스트 마이닝을 적용한 한국교통방송제보 비정형데이터의 분석 Analysis of the Unstructured Traffic Report from Traffic Broadcasting Network by Adapting the Text Mining Methodology원문보기
교통사고 관련 제보는 비정형 데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보의 가치를 가지고 있다. 그러나, 비정형 데이터인 교통제보가 빅 데이터로서 교통사고 통계나 교통관련 연구에 활용되지 못하였으나, 텍스트 마이닝 기법을 활용한 본 연구를 통해 비정형의 빅 데이터를 시각화하고 해석하여, 기존의 정형 데이터에서 분석하지 못한 정보를 도출할 수 있었다. 그리고 교통사고 발생으로 인한 도로상 영향을 파악할 수 있었다. 이러한 분석으로 교통제보의 트랜드를 파악하고, 운전자가 제보하는 "도로명", "지점명", "시간대"를 추출하였으며, 교통사고 발생으로 다른 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다. 향후 실제 교통사고 데이터와 결합하여 교통제보와의 상관성 분석 등을 통해 비정형 데이터의 활용방안을 모색할 계획이다.
교통사고 관련 제보는 비정형 데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보의 가치를 가지고 있다. 그러나, 비정형 데이터인 교통제보가 빅 데이터로서 교통사고 통계나 교통관련 연구에 활용되지 못하였으나, 텍스트 마이닝 기법을 활용한 본 연구를 통해 비정형의 빅 데이터를 시각화하고 해석하여, 기존의 정형 데이터에서 분석하지 못한 정보를 도출할 수 있었다. 그리고 교통사고 발생으로 인한 도로상 영향을 파악할 수 있었다. 이러한 분석으로 교통제보의 트랜드를 파악하고, 운전자가 제보하는 "도로명", "지점명", "시간대"를 추출하였으며, 교통사고 발생으로 다른 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다. 향후 실제 교통사고 데이터와 결합하여 교통제보와의 상관성 분석 등을 통해 비정형 데이터의 활용방안을 모색할 계획이다.
The traffic accident reports that are generated by the Traffic Broadcasting Networks(TBN) are unstructured data. It, however, has the value as some sort of real-time traffic information generated by the viewpoint of the drives and/or pedestrians that were on the roads, the time and spots, not the of...
The traffic accident reports that are generated by the Traffic Broadcasting Networks(TBN) are unstructured data. It, however, has the value as some sort of real-time traffic information generated by the viewpoint of the drives and/or pedestrians that were on the roads, the time and spots, not the offender or the victim who caused the traffic accidents. However, the traffic accident reports, which are big data, were not applied to traffic accident analysis and traffic related research commonly. This study adopting text-mining technique was able to provide a clue for utilizing it for the impacts of traffic accidents. Seven years of traffic reports were grasped by this analysis. By analyzing the reports, it was possible to identify the road names, accident spot names, time, and to identify factors that have the greatest influence on other drivers due to traffic accidents. Authors plan to combine unstructured accident data with traffic reports for further study.
The traffic accident reports that are generated by the Traffic Broadcasting Networks(TBN) are unstructured data. It, however, has the value as some sort of real-time traffic information generated by the viewpoint of the drives and/or pedestrians that were on the roads, the time and spots, not the offender or the victim who caused the traffic accidents. However, the traffic accident reports, which are big data, were not applied to traffic accident analysis and traffic related research commonly. This study adopting text-mining technique was able to provide a clue for utilizing it for the impacts of traffic accidents. Seven years of traffic reports were grasped by this analysis. By analyzing the reports, it was possible to identify the road names, accident spot names, time, and to identify factors that have the greatest influence on other drivers due to traffic accidents. Authors plan to combine unstructured accident data with traffic reports for further study.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 대부분 교통제보가 비정형형태로 구성되어 있는 텍스트 기반의 자료로서, 기존의 통계분석이나 데이터 마이닝(Date Mining) 기법을 적용하기에는 부적합하다. 따라서 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝(Text Mining)기법으로 TBN 한국교통방송의 교통제보 자료를 분석하여 부산시내 교통사고와 연관된 단어들을 추출하여 사용빈도가 높은 단어들을 찾아내고 그 단어들을 이용하여 각 단어들 간의 특성을 파악하고자 하였다. 본 연구로 텍스트 형식으로 구성되어 있는 교통제보를 정보로서의 활용 방안을 찾아보고 교통사고 예방과 교통정체 해소에 도움을 줄 수 있는 방법을 모색하였다.
따라서 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝(Text Mining)기법으로 TBN 한국교통방송의 교통제보 자료를 분석하여 부산시내 교통사고와 연관된 단어들을 추출하여 사용빈도가 높은 단어들을 찾아내고 그 단어들을 이용하여 각 단어들 간의 특성을 파악하고자 하였다. 본 연구로 텍스트 형식으로 구성되어 있는 교통제보를 정보로서의 활용 방안을 찾아보고 교통사고 예방과 교통정체 해소에 도움을 줄 수 있는 방법을 모색하였다.
이러한 교통 제보를 바탕으로 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다. 본 연구를 통해 교통사고 분석 및 교통정보의 질적 제고에 도움을 주고 부산시 교통정책에 반영할 수 있는 유용한 정보를 도출하고자 하였다.
이를 위하여 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다. 본 연구를 통해 교통사고 분석 및 교통정보의 효율화에 도움을 주고 부산시 교통정책에 반영할 수 있는 유용한 정보를 도출하고자 하였다.
또한, 일반 명사와 고유 명사의 혼동 문제는 형태소 분석기의 세종말뭉치를 교정하거나 예를 들어 시청을 부산시청으로 직접 교정하는 방법을 적용하였다. 본 연구에서는 상기와 같은 전처리 과정을 거쳐 텍스트 마이닝 방법론으로 교통사고와 연관되는 주요 키워드를 도출하고 분석하였다. 이를 위하여 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다.
제안 방법
이러한 분석으로 TBN 한국교통방송국 부산본부에 제보되는 교통정보의 트랜드를 파악하고, 이를 통해 교통운전자가 제보하는 도로명, 교차로명, 시간대를 추출하였다. 그리고 그 내용들 간의 연관성을 파악하여 교통사고 발생으로 운전자에게 가장 많은 영향을 미치는 시간대와 지점과 구간 등을 도출하였다.
먼저 전처리 과정은 일반적인 텍스트 테이터들을 컴퓨터가 처리하기 쉽도록 변화하는 작업으로써, 특정 단어와 관련된 문서들을 신속하게 검색할 수 있도록 인덱스 파일을 만드는 것이라고 설명하고 있다. 그리고 인덱스를 만드는 방법으로 FB(Frequency-Based), IDF(Inverse Documnent Frequency), LSI(Latent Semantic Indexing) 등의 대표적인 방법을 열거하였다. FB는 문서 안에서 빈번히 나타나는 단어들을 그 문서를 대표하는 중요한 단어로 파악하고 가중치를 높게 주는 개념이며, IDF는 특정문서에서 중요한 단어가 무엇인지 뿐만 아니라 다른 문서와 구분을 해주는 단어가 무엇인지에 대한 정보를 포함하기 위한 계산을 한다는 것이다.
이러한 경우 형태소 인식기가 각 어절에 대해 품사 태깅(Tagging)3)을 제대로 하지 못하여 자료 인식에 문제가 발생하는 경우가 많아 일반 텍스트 에디터의 정규표현식4) 기술을 활용하여 교정하여야 한다. 또한, 일반 명사와 고유 명사의 혼동 문제는 형태소 분석기의 세종말뭉치를 교정하거나 예를 들어 시청을 부산시청으로 직접 교정하는 방법을 적용하였다. 본 연구에서는 상기와 같은 전처리 과정을 거쳐 텍스트 마이닝 방법론으로 교통사고와 연관되는 주요 키워드를 도출하고 분석하였다.
이후 추출한 단어를 mecab6) 패키지를 이용하여 말뭉치로 만들고 분석에 쓰이지 않을 단어를 제거하였으며, 변환된 결과를 원래의 자료와 비교하여 분석의 목적에 맞게 단어가 추출되었는지 확인하였다. 또한, 정제된 말뭉치를 기반으로 용어-문서 행렬을 만들어 빈도표를 작성하고 이를 이용하여 단어의 출현빈도를 파악하였다. 이 과정에서 분석 결과를 효과적으로 나타내기 위하여 단어 빈도표를 바탕으로 wordcloud7)를 이용하여, 단어들을 구름모양으로 나타내어 빈도가 높고 핵심어일수록 큰 글씨로 중심부에 표현하여 분석 결과를 시각화하였다.
본 연구에서는 TBN 한국교통방송 부산본부에서 2007년부터 2012년까지 6년간 수집된 199,996건의 교통사고 관련 제보를 확보하여, 텍스트 마이닝 방법론으로 교통사고와 연관되는 주요 키워드를 도출하고 분석하였다. 교통방송 교통사고 관련 제보는 1997년부터 현재까지 20년 이상의 교통제보 데이터로서, TBN 한국교통방송 부산본부 편성제작국에 의뢰하여 수집되었으며 이 중에서 시간적 경제적 비용 부담으로 인해 TBN 한국교통방송 부산본부 개국 10년 후인 2007년부터 2012년까지의 교통사고 관련 교통제보를 추출하여 분석하였다.
본 연구에서는 TBN 한국교통방송국 부산본부 교통제보를 교통사고 발생 시간, 사고, 방향, 내용으로 나누어 각 항목에 대하여 다음 분석 절차에 따라 텍스트 마이닝 기법을 각각 수행하였다.
본 연구에서 사용된 자료는 TBN 한국교통방송국 부산본부에서 2007년부터 2012년까지 6년간 수집된 199,996건의 교통사고 관련 제보이다. 부산본부가 1997년 개국한 이후 교통통신원 및 일반 운전자들에게 부산시내 교통상황을 제보 받아 교통정보로 활용하여 오고 있으며, 그 중 교통사고와 연관된 교통제보를 분석하였다. 교통제보는 사고 시간, 장소, 방향, 그리고 내용을 교통통신원이 제보 전화나 SNS로 실시간 전달하면 방송모니터요원이 접수받아 방송하는 구조이다.
이 과정에 따라 분석의 토대가 되는 단어 추출 결과가 달라지기 때문에 전처리 과정에서 사전 구축과 띄어쓰기 수정 및 용어 통일 과정이 필요하다. 사전을 구축하기 위해 오픈소스로 제공되는 세종 말뭉치를 기본으로 부산 지역의 지명이나 교통용어 등 세종 사전에 등록되지 않은 단어들을 추출해 텍스트 내 단어들을 사전에 추가하였다.
또한, 정제된 말뭉치를 기반으로 용어-문서 행렬을 만들어 빈도표를 작성하고 이를 이용하여 단어의 출현빈도를 파악하였다. 이 과정에서 분석 결과를 효과적으로 나타내기 위하여 단어 빈도표를 바탕으로 wordcloud7)를 이용하여, 단어들을 구름모양으로 나타내어 빈도가 높고 핵심어일수록 큰 글씨로 중심부에 표현하여 분석 결과를 시각화하였다. 이후 구체적인 수치를 통해 단어의 흐름을 파악하고, 특정 단어가 출현한 횟수를 비교하기 위하여 단어가 출현한 절대 도수가 아닌 상대도수를 계산하여 분석하였다.
초창기 교통제보는 교차로 및 가로명 등 지명의 통일 되지 않고 교통 용어도 정리되지 않아, 비교적 교통제보의 단어가 안정적인 방송국 개국 10년 후인 2007년을 시점으로 교통제보 데이터의 연구의 효율성과 경제성을 위하여, 균일성, 통일성이 확보되는 2012년까지 6년간의 데이터를 선택하였다. 이러한 교통 제보를 바탕으로 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다. 본 연구를 통해 교통사고 분석 및 교통정보의 질적 제고에 도움을 주고 부산시 교통정책에 반영할 수 있는 유용한 정보를 도출하고자 하였다.
이러한 분석으로 TBN 한국교통방송국 부산본부에 제보되는 교통정보의 트랜드를 파악하고, 이를 통해 교통운전자가 제보하는 도로명, 교차로명, 시간대를 추출하였다. 그리고 그 내용들 간의 연관성을 파악하여 교통사고 발생으로 운전자에게 가장 많은 영향을 미치는 시간대와 지점과 구간 등을 도출하였다.
본 연구에서는 상기와 같은 전처리 과정을 거쳐 텍스트 마이닝 방법론으로 교통사고와 연관되는 주요 키워드를 도출하고 분석하였다. 이를 위하여 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다. 본 연구를 통해 교통사고 분석 및 교통정보의 효율화에 도움을 주고 부산시 교통정책에 반영할 수 있는 유용한 정보를 도출하고자 하였다.
이 과정에서 분석 결과를 효과적으로 나타내기 위하여 단어 빈도표를 바탕으로 wordcloud7)를 이용하여, 단어들을 구름모양으로 나타내어 빈도가 높고 핵심어일수록 큰 글씨로 중심부에 표현하여 분석 결과를 시각화하였다. 이후 구체적인 수치를 통해 단어의 흐름을 파악하고, 특정 단어가 출현한 횟수를 비교하기 위하여 단어가 출현한 절대 도수가 아닌 상대도수를 계산하여 분석하였다. 특정단어의 출현 횟수와 총 단어의 출현 횟수 합계를 이용하여 단어들의 상대도수를 구하고 상대도수 그래프를 그려서 분석결과를 나타내었다.
에서 형태소 분석기를 활용하여 사전에 등록된 단어를 태깅된 품사에 따라 단어를 추출하였다. 이후 추출한 단어를 mecab6) 패키지를 이용하여 말뭉치로 만들고 분석에 쓰이지 않을 단어를 제거하였으며, 변환된 결과를 원래의 자료와 비교하여 분석의 목적에 맞게 단어가 추출되었는지 확인하였다. 또한, 정제된 말뭉치를 기반으로 용어-문서 행렬을 만들어 빈도표를 작성하고 이를 이용하여 단어의 출현빈도를 파악하였다.
(2003)은 텍스트 마이닝을 문서 수집, 문서 전처리, 텍스트 분석, 그리고 결과 해석 및 정제 단계 등 4단계로 나누었는데, 전처리과정은 다시 필요 없는 단어 또는 기호를 정제하는 정제 과정과 문장의 정확한 의미 파악을 위해서 각 단어의 어간을 파악하고 동의어를 할당하는 정규화 과정으로 나누었다. 정규화 과정은 또 다시 한글 처리를 위해서 문장에서 최소의 의미단위를 추출해 내는 형태소 분석 단계와 통사구조를 파악하는 구문 구조 분석 단계, 의미 구조를 추출하는 의미 분석 단계, 그리고 문장들 사이의 관계를 분석하는 문맥 분석 단계로 나누었다. 텍스트 분석과정은 텍스트 군집화, 텍스트 분류, 그리고 텍스트 요약으로 나누어 설명하였다.
이후 구체적인 수치를 통해 단어의 흐름을 파악하고, 특정 단어가 출현한 횟수를 비교하기 위하여 단어가 출현한 절대 도수가 아닌 상대도수를 계산하여 분석하였다. 특정단어의 출현 횟수와 총 단어의 출현 횟수 합계를 이용하여 단어들의 상대도수를 구하고 상대도수 그래프를 그려서 분석결과를 나타내었다.
대상 데이터
본 연구에서는 TBN 한국교통방송 부산본부에서 2007년부터 2012년까지 6년간 수집된 199,996건의 교통사고 관련 제보를 확보하여, 텍스트 마이닝 방법론으로 교통사고와 연관되는 주요 키워드를 도출하고 분석하였다. 교통방송 교통사고 관련 제보는 1997년부터 현재까지 20년 이상의 교통제보 데이터로서, TBN 한국교통방송 부산본부 편성제작국에 의뢰하여 수집되었으며 이 중에서 시간적 경제적 비용 부담으로 인해 TBN 한국교통방송 부산본부 개국 10년 후인 2007년부터 2012년까지의 교통사고 관련 교통제보를 추출하여 분석하였다. 초창기 교통제보는 교차로 및 가로명 등 지명의 통일 되지 않고 교통 용어도 정리되지 않아, 비교적 교통제보의 단어가 안정적인 방송국 개국 10년 후인 2007년을 시점으로 교통제보 데이터의 연구의 효율성과 경제성을 위하여, 균일성, 통일성이 확보되는 2012년까지 6년간의 데이터를 선택하였다.
본 연구에서 사용된 자료는 TBN 한국교통방송국 부산본부에서 2007년부터 2012년까지 6년간 수집된 199,996건의 교통사고 관련 제보이다. 부산본부가 1997년 개국한 이후 교통통신원 및 일반 운전자들에게 부산시내 교통상황을 제보 받아 교통정보로 활용하여 오고 있으며, 그 중 교통사고와 연관된 교통제보를 분석하였다.
교통방송 교통사고 관련 제보는 1997년부터 현재까지 20년 이상의 교통제보 데이터로서, TBN 한국교통방송 부산본부 편성제작국에 의뢰하여 수집되었으며 이 중에서 시간적 경제적 비용 부담으로 인해 TBN 한국교통방송 부산본부 개국 10년 후인 2007년부터 2012년까지의 교통사고 관련 교통제보를 추출하여 분석하였다. 초창기 교통제보는 교차로 및 가로명 등 지명의 통일 되지 않고 교통 용어도 정리되지 않아, 비교적 교통제보의 단어가 안정적인 방송국 개국 10년 후인 2007년을 시점으로 교통제보 데이터의 연구의 효율성과 경제성을 위하여, 균일성, 통일성이 확보되는 2012년까지 6년간의 데이터를 선택하였다. 이러한 교통 제보를 바탕으로 교통사고가 발생하는 도로명과 교차로명의 제보 키워드의 빈도 분석과 연관성 분석을 수행하여 교통사고가 발생하는 구간과 지점의 특성을 분석하고 운전자가 제보하는 교통사고 현황과 트렌드를 파악하였다.
데이터처리
전처리 과정이후 통계 프로그램인 KNIME5)에서 형태소 분석기를 활용하여 사전에 등록된 단어를 태깅된 품사에 따라 단어를 추출하였다. 이후 추출한 단어를 mecab6) 패키지를 이용하여 말뭉치로 만들고 분석에 쓰이지 않을 단어를 제거하였으며, 변환된 결과를 원래의 자료와 비교하여 분석의 목적에 맞게 단어가 추출되었는지 확인하였다.
성능/효과
교량에서는 동서고가도로와 남해지선고속도로를 연결하는 “낙동대교”의 관심 빈도수가 높은 것으로 나타나, 부산 시민들의 통행패턴에 대한 이해도 제고에도 도움이 될 수 있음을 알 수 있었다.
교통제보 내용 중 도로별, 시간대별 분석 결과 “중앙대로”에서 출퇴근시간대에 가장 교통제보가 많은 것으로 나타났다.
교통제보 내용 중 도로별로 분석하여 보면, 상위 20개 도로가 68%를 차지하고 있으며 “중앙대로”가 12,031건 15.3%로 압도적으로 많은 것으로 나타났다.
교통제보 내용을 도로별, 지점별로 분석한 결과, 상위 20개 방향이 4%를 차지하여 편중된 결과는 보이지 않았다. 가장 빈도가 높은 지점은 만덕대로의 “만덕2터널”로 719건의 제보가 있었다.
교통제보 내용을 방향별로 분석한 결과, 상위 20개 방향이 8%를 차지하여 방향별로 편중된 결과는 보이지 않았다. 빈도가 가장 높은 구간이 중앙대로의 서면교차로에서 범냇골 교차로 구간으로 486건의 교통제보가 있었다.
TBN 한국교통방송 부산본부의 교통사고 관련 제보는 비정형 데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보의 가치를 가지고 있다. 그러나 이러한 교통방송국의 교통제보 비정형 데이터가 교통사고 통계나 교통관련 연구에 활용되지 못하였으나, 텍스트 마이닝 기법을 활용한 본 연구를 통해 교통사고 발생으로 인한 도로상 영향을 파악할 수 있었다. 이러한 분석으로 TBN 한국교통방송 부산본부에 제보되는 교통제보의 트랜드를 파악하고, 이를 통해 운전자가 제보하는 “도로명”, “지점명”, “시간대”를 추출하였으며, 교통사고 발생으로 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다.
제보 빈도수가 가장 높은 도로는 주간선도로인 “중앙대로”이며, 중앙대로에서 교통사고가 발생할 경우 그 영향력이 매우 크다는 것을 알 수 있었다. 또한, 퇴근시간대 발생한 교통사고의 여파에 대한 관심사가 높다는 것을 분석을 통해 알 수 있었다. 특히, 부산의 경우 대부분 터널에서 사고가 발생할 경우 교통제보가 많으며, “백양터널”, “만덕2터널”, “황령터널” 순으로 교통사고 발생에 따른 여파가 큰 것으로 분석되었다.
그러나 그 활용이 아직 다른 분야에서와 같이 활발하게 연구되지 않아 빅데이터로서 교통사고 예방이나, 교통정체 해소 등 무한한 잠재력을 발휘하지 못하고 있는 실정이다. 본 연구에서는 비정형화된 빅 데이터를 시각화하고 해석하여 기존의 정형화된 통계분석에서 찾아내지 못했던 정보를 도출할 수 있었다. 앞으로 교통 분야에서는 이러한 빅 데이트를 통해 새로운 정보를 습득하기 위한 인공지능 머신러닝과 같은 기계학습 기법을 활용하는 것이 강조될 것으로 예상된다.
이러한 분석으로 TBN 한국교통방송 부산본부에 제보되는 교통제보의 트랜드를 파악하고, 이를 통해 운전자가 제보하는 “도로명”, “지점명”, “시간대”를 추출하였으며, 교통사고 발생으로 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다.
제보 빈도수가 가장 높은 도로는 주간선도로인 “중앙대로”이며, 중앙대로에서 교통사고가 발생할 경우 그 영향력이 매우 크다는 것을 알 수 있었다.
후속연구
앞으로 교통 분야에서는 이러한 빅 데이트를 통해 새로운 정보를 습득하기 위한 인공지능 머신러닝과 같은 기계학습 기법을 활용하는 것이 강조될 것으로 예상된다. 나아가 정형화된 도로교통공단의 TASS 자료와의 결합을 통해 추가적인 분석을 수행한다면, 고부가 가치의 정보 활용이 가능할 것으로 사료된다.
본 연구에서는 비정형화된 빅 데이터를 시각화하고 해석하여 기존의 정형화된 통계분석에서 찾아내지 못했던 정보를 도출할 수 있었다. 앞으로 교통 분야에서는 이러한 빅 데이트를 통해 새로운 정보를 습득하기 위한 인공지능 머신러닝과 같은 기계학습 기법을 활용하는 것이 강조될 것으로 예상된다. 나아가 정형화된 도로교통공단의 TASS 자료와의 결합을 통해 추가적인 분석을 수행한다면, 고부가 가치의 정보 활용이 가능할 것으로 사료된다.
교통사고는 부산시내 어디에서나 발생하지만, 특히 교통사고로 인해 다른 운전자들이 반응하는 지점과 구간은 한정되어 있음을 알 수 있었다. 향후 실제 교통사고 발생 데이터, 당시의 기상 데이터 등 정형 데이터와 결합하여 교통사고 발생이 교통제보에 어떠한 영향을 끼치는지, 교통사고 결과가 교통제보로 전달되는지에 대한 추가적인 연구가 수행되어야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
텍스트 마이닝 방법론이란?
텍스트 마이닝 방법론은 최근 발전된 정보처리 기술과 인프라를 활용하여 뉴스, 인터넷 등의 텍스트 문서로부터 정보를 획득, 키워드의 패턴을 분석하고 이를 토대로 예측을 수행하는 방법론으로서 최근 그 활용 영역을 확장해 나가고 있다. 텍스트 마이닝은 데이터 마이닝과 유사한 개념이지만, 기존의 데이터 마이닝이 관계형 데이터베이스나 XML과 같은 구조화된 데이터들만을 처리할 수 있는 반면, 텍스트 문서, e-메일, HTML파일과 같은 비정형 또는 반 정형화된 데이터를 일정한 형식과 조건을 만족하는 자료로 가공하여 분석하는 방법론을 텍스트 마이닝으로 별도 구분하고 있다.
텍스트 분석과정을 텍스트 군집화, 텍스트 분류, 그리고 텍스트 요약으로 나누어 설명하라.
텍스트 분석과정은 텍스트 군집화, 텍스트 분류, 그리고 텍스트 요약으로 나누어 설명하였다. 텍스트 군집화는 텍스트의 집단을 내용의 유사도에 따라 여러 개의 소집단으로 분할하는 과정으로서 데이터에 대한 지식 없이 분석 초기에 행하여 결과를 분석할 수 있다는 장점이 있으며, 중복 혹은 유사한 문서를 제거하고, 다른 문서의 주제와 다른 주제를 가진 문서를 구별하고, 대량의 문서집합의 개요를 획득하는데 적용할 수 있다고 한다. 텍스트 분류란 텍스트의 내용에 따라 미리 정해해 놓은 범주를 부여하는 과정인데, 군집과 같이 분류를 수행하기 위해서는 각 항목을 위한 학습데이터를 사용자가 선정하여 훈련시키는 과정이 필요하다고 정의하였다. 텍스트 요약은 문서의 전체 내용을 반영할 수 있는 일부 내용을 추출하는 과정으로 표면수준접근, 개체수준접근, 그리고 화법수준접근의 3가지 기법이 사용되는데 일반적으로 3가지 중 2가지 이상의 기법을 조합해서 이용한다.
텍스트 마이닝은 데이터 마이닝과 어떻게 구분되는가?
텍스트 마이닝 방법론은 최근 발전된 정보처리 기술과 인프라를 활용하여 뉴스, 인터넷 등의 텍스트 문서로부터 정보를 획득, 키워드의 패턴을 분석하고 이를 토대로 예측을 수행하는 방법론으로서 최근 그 활용 영역을 확장해 나가고 있다. 텍스트 마이닝은 데이터 마이닝과 유사한 개념이지만, 기존의 데이터 마이닝이 관계형 데이터베이스나 XML과 같은 구조화된 데이터들만을 처리할 수 있는 반면, 텍스트 문서, e-메일, HTML파일과 같은 비정형 또는 반 정형화된 데이터를 일정한 형식과 조건을 만족하는 자료로 가공하여 분석하는 방법론을 텍스트 마이닝으로 별도 구분하고 있다.
참고문헌 (11)
Ahn S. and Cho S.(2010), "Stock prediction using news text mining and time series analysis," In 2010 Conference Proceedings of Korean Institute of Information Scientists and Engineers, 37, pp.364-369.
Bae S. and Park C.(2003), "A Study on the Application of Text Mining to the Analysis of Technical Information," Korea Technology Innovation Society, pp.79-83.
Chen P., Ponocko J., Milosevic N., Nenadic G. and Milosevic J.(2016), "Towards application of text mining for enhanced power network data analytics-part i; retrieval and ranking of textual data from the internet," Mediterranean Conference on Power Generation, Transmission Distribution and Energy Conversion (medpower 2016), pp.1-8.
Choi J., Han H., Lee M. and Ahn J.(2015), "The prediction of Corporate Bankruptcy Using text-mining Methodology," Productivity Review, vol. 29, no. 1, pp.203-206.
Choi Y. and Park S.(2002), "Interplay of Text Mining and Data Mining for Classifying Web Contents," Korean Journal of cognitive science, vol. 13, no. 3, pp.33-35.
Jung C. W.(2016), "A Study on Traffic Accident Investigation Satisfaction Factors," Journal of Transport Research, vol. 23, no. 4, pp.73-84.
Kim K. and Oh S.(2009), "Methodology for Applying Text Mining Techniques to Analyzing Online Customer Reviews for Market Segmentation," The Journal of the Korea Contents Association, vol. 9, no. 8, pp.272-284.
Kim Y., Heo J. and Kang K.(2015), "Overview of cargo accident using text mining," 2015 Conference of Korea Transportation Research Society, pp.338-343.
Lee K., Roh Y., Yoon S. and Cho Y.(2014), "Structuring of unstructured big data and visual interpretation," Journal of the Korean & Information Science Society, vol. 25, no. 6, pp.1436-1437.
Lee Y., Lim C., Heo M. and Kim H.(2016), "Text-mining technique for Weather call center data analysis," In 2016 Spring Conference Proceedings of Korean Meteorological Society, pp.153-154.
Sun H., Lim C. and Lee Y.(2017), "Analysis of the Yearbook from the korea Meteorological Administration Using a text-mining agorithm," The Korean Journal of Applied Statistics, vol. 30, no. 4, pp.603-613.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.