차량항법시스템(CNS : Car Navigation System, 내비게이션)은 차량 운전자들이 원하는 목적지를 찾아 갈 때 필요한 장치로, 초행길 운전자에겐 없어서는 안 되는 필수품이다. 이 내비게이션 데이터베이스에 목적지 데이터가 없거나, 최신 데이터가 반영되어 있지 않다면 사용자는 목적지 검색에 실패하고 원하는 목적지로 이동할 수 없다. 따라서, 내비게이션의 검색 실패율을 낮추기 위해 POI(Point of Interest) 데이터 개수를 증가시켜야 한다. 최근 모바일 내비게이션 사용량이 증가하면서 ...
차량항법시스템(CNS : Car Navigation System, 내비게이션)은 차량 운전자들이 원하는 목적지를 찾아 갈 때 필요한 장치로, 초행길 운전자에겐 없어서는 안 되는 필수품이다. 이 내비게이션 데이터베이스에 목적지 데이터가 없거나, 최신 데이터가 반영되어 있지 않다면 사용자는 목적지 검색에 실패하고 원하는 목적지로 이동할 수 없다. 따라서, 내비게이션의 검색 실패율을 낮추기 위해 POI(Point of Interest) 데이터 개수를 증가시켜야 한다. 최근 모바일 내비게이션 사용량이 증가하면서 POI 갱신주기도 짧아지고 있다. 1년 미만의 개인사업자 휴/폐업(11~26%) 데이터를 내비게이션에 반영하기 위해서는 POI 갱신주기는 최소 1년 미만이여야 한다. 하지만, POI 데이터 수집자는 개/폐업 시점을 알 수 없기 때문에 수집주기는 더 짧아야 한다. POI 갱신 수량 증가와 주기 단축은 갱신 프로세스(수집, 정제, 차분추출)에도 영향을 미친다. 기존 갱신 프로세스에는 데이터 오류나 누락을 발생시킬 수 있는데, 이 과정이 반복될 경우 오류가 누적되어 생산성과 품질을 저하시킨다. 따라서 본 연구에서는 웹사이트 POI 데이터를 주기적으로 수집하여, 변경(신규, 삭제)된 최소 데이터만 자동으로 추출하는 웹크롤러 개발을 목적으로 하며, 이를 위해서는 POI 데이터의 수집, 정제/변환, 차분추출, 지오코딩 단계를 수행하였다. POI 데이터 수집 단계에서는 웹사이트 내 POI위치(목록페이지, 다음페이지, 상세페이지)와 웹페이지 호출(URL, 이벤트) 방식을 분석한 후 웹페이지 호출 유형을 도출하여 웹크롤링 대상 사이트에 적용하였다. 이때, URL방식 웹페이지 호출보다 이벤트 방식의 호출이 많음을 확인 할 수 있었다. 정제 단계에서는 명칭정제, 전화번호정제, 주소정제로 나누어 수집데이터의 문자열을 파싱하고 정형화된 데이터로 저장한다. 이 과정에서 명칭, 전화번호, 주소 순으로 작업 성공률이 감소하는 것을 확인 할 수 있고 파싱 조건이 증가함에 따라 성공률이 감소하는 것이 확인되었다. 수집된 주소데이터가 지번주소와 도로명주소 중 1개로 수집이 된 경우에는 상호 변환하는 과정을 수행하였다. 차분추출 단계에서는 통합 데이터베이스에 저장된 기 구축 데이터와 최근 수집/정제된 데이터의 비교를 수행하여 신규, 삭제, 중복 건으로 분류하였다. 신규 건은 다시 통합 데이터베이스에 추가하고, 중복 건은 최근 수집한 데이터를 무시하고, 삭제 건은 기 구축 데이터에서 삭제작업을 수행하였다. 마지막으로, 지오코딩 단계에서는 수집된 POI 데이터에 좌표 정보가 없기 때문에 전자지도에 반영할 수 있도록 주소를 좌표로 변환하는 과정을 수행하였다. 실제 개발된 웹크롤러를 100개의 사이트에 적용한 결과 수집 단계에서는 웹페이지 호출 유형에 따라 18개의 유형으로 분류되었고, URL 방식(32.6%)보다 이벤트 방식의 호출이 많음을 확인할 수 있었다. 정제 단계에서는 명칭(100%), 전화번호(99.7%), 주소(96.7%) 순으로 정제 성공률이 감소하는 것으로 나타났으며, 이는 파싱의 조건이 증가함에 따라 성공률이 감소하는 것으로 확인되었다. 수집된 주소 데이터가 지번주소와 도로명 주소 중 1가지 경우만 수집이 된 경우 상호 변환하는 과정을 수행하였다. 차분추출 단계는 기 구축 데이터베이스와의 비교를 거처 신규, 중복, 삭제건으로 분류를 수행했다. 그 결과 88.0%의 중복률을 보였으며, 본 연구의 목적인 최소 변경데이터 추출률은 12% (신규 6.5%, 삭제 5.5%)의 결과를 보였다. 지오코딩 단계는 수집된 데이터에 좌표정보가 없기 때문에 수집/정제/변환된 주소데이터를 이용하여 좌표를 추출하는 과정을 수행했는데, 100% 성공률을 보였다. 본 연구에서 개발한 웹크롤러를 통하여 웹사이트의 POI 데이터를 주기적 수집할 수 있고, 최소 변경(신규, 삭제) 데이터만 추출이 가능한 것으로 분석되었다.
차량항법시스템(CNS : Car Navigation System, 내비게이션)은 차량 운전자들이 원하는 목적지를 찾아 갈 때 필요한 장치로, 초행길 운전자에겐 없어서는 안 되는 필수품이다. 이 내비게이션 데이터베이스에 목적지 데이터가 없거나, 최신 데이터가 반영되어 있지 않다면 사용자는 목적지 검색에 실패하고 원하는 목적지로 이동할 수 없다. 따라서, 내비게이션의 검색 실패율을 낮추기 위해 POI(Point of Interest) 데이터 개수를 증가시켜야 한다. 최근 모바일 내비게이션 사용량이 증가하면서 POI 갱신주기도 짧아지고 있다. 1년 미만의 개인사업자 휴/폐업(11~26%) 데이터를 내비게이션에 반영하기 위해서는 POI 갱신주기는 최소 1년 미만이여야 한다. 하지만, POI 데이터 수집자는 개/폐업 시점을 알 수 없기 때문에 수집주기는 더 짧아야 한다. POI 갱신 수량 증가와 주기 단축은 갱신 프로세스(수집, 정제, 차분추출)에도 영향을 미친다. 기존 갱신 프로세스에는 데이터 오류나 누락을 발생시킬 수 있는데, 이 과정이 반복될 경우 오류가 누적되어 생산성과 품질을 저하시킨다. 따라서 본 연구에서는 웹사이트 POI 데이터를 주기적으로 수집하여, 변경(신규, 삭제)된 최소 데이터만 자동으로 추출하는 웹크롤러 개발을 목적으로 하며, 이를 위해서는 POI 데이터의 수집, 정제/변환, 차분추출, 지오코딩 단계를 수행하였다. POI 데이터 수집 단계에서는 웹사이트 내 POI위치(목록페이지, 다음페이지, 상세페이지)와 웹페이지 호출(URL, 이벤트) 방식을 분석한 후 웹페이지 호출 유형을 도출하여 웹크롤링 대상 사이트에 적용하였다. 이때, URL방식 웹페이지 호출보다 이벤트 방식의 호출이 많음을 확인 할 수 있었다. 정제 단계에서는 명칭정제, 전화번호정제, 주소정제로 나누어 수집데이터의 문자열을 파싱하고 정형화된 데이터로 저장한다. 이 과정에서 명칭, 전화번호, 주소 순으로 작업 성공률이 감소하는 것을 확인 할 수 있고 파싱 조건이 증가함에 따라 성공률이 감소하는 것이 확인되었다. 수집된 주소데이터가 지번주소와 도로명주소 중 1개로 수집이 된 경우에는 상호 변환하는 과정을 수행하였다. 차분추출 단계에서는 통합 데이터베이스에 저장된 기 구축 데이터와 최근 수집/정제된 데이터의 비교를 수행하여 신규, 삭제, 중복 건으로 분류하였다. 신규 건은 다시 통합 데이터베이스에 추가하고, 중복 건은 최근 수집한 데이터를 무시하고, 삭제 건은 기 구축 데이터에서 삭제작업을 수행하였다. 마지막으로, 지오코딩 단계에서는 수집된 POI 데이터에 좌표 정보가 없기 때문에 전자지도에 반영할 수 있도록 주소를 좌표로 변환하는 과정을 수행하였다. 실제 개발된 웹크롤러를 100개의 사이트에 적용한 결과 수집 단계에서는 웹페이지 호출 유형에 따라 18개의 유형으로 분류되었고, URL 방식(32.6%)보다 이벤트 방식의 호출이 많음을 확인할 수 있었다. 정제 단계에서는 명칭(100%), 전화번호(99.7%), 주소(96.7%) 순으로 정제 성공률이 감소하는 것으로 나타났으며, 이는 파싱의 조건이 증가함에 따라 성공률이 감소하는 것으로 확인되었다. 수집된 주소 데이터가 지번주소와 도로명 주소 중 1가지 경우만 수집이 된 경우 상호 변환하는 과정을 수행하였다. 차분추출 단계는 기 구축 데이터베이스와의 비교를 거처 신규, 중복, 삭제건으로 분류를 수행했다. 그 결과 88.0%의 중복률을 보였으며, 본 연구의 목적인 최소 변경데이터 추출률은 12% (신규 6.5%, 삭제 5.5%)의 결과를 보였다. 지오코딩 단계는 수집된 데이터에 좌표정보가 없기 때문에 수집/정제/변환된 주소데이터를 이용하여 좌표를 추출하는 과정을 수행했는데, 100% 성공률을 보였다. 본 연구에서 개발한 웹크롤러를 통하여 웹사이트의 POI 데이터를 주기적 수집할 수 있고, 최소 변경(신규, 삭제) 데이터만 추출이 가능한 것으로 분석되었다.
A Study on the Development of a Web Crawler for the Automatic Extraction of POI Change Data
Car navigation systems(CNSs) are essential devices for drivers drive on a road new to them. If the navigation to database contains no data about a destination or reflects the latest data, users ...
A Study on the Development of a Web Crawler for the Automatic Extraction of POI Change Data
Car navigation systems(CNSs) are essential devices for drivers drive on a road new to them. If the navigation to database contains no data about a destination or reflects the latest data, users will fail in destination searches and not be able to arrive at the destination. The number of Point of Interest(POI) data should be increased to decrease the failure rate of navigation searches. As the uses of mobile navigation increase in recent years, the renewal cycle of POI becomes shorter and shorter. The renewal cycle of POI should be under a year in order to reflect the data of individual businesses that were established less than a year ago and have closed temporarily or permanently (11~26%). There is no way that POI data collectors can anticipate the time of opening and closure, which raises a need for a short collection cycle. The increasing volume and decreasing cycle of POI renewal have impacts on the renewal process(collection, refinement and extraction of differences). The old renewal process causes data error or omission. When the process repeats, it deteriorates productivity and quality due to the accumulation of errors. This study thus set out to develop a web crawler to collect web site POI data periodically and extract only the altered(new and deleted) minimum data automatically. For these purposes, the study went through the stages of POI data collection, refinement/conversion, extraction of differences, and geocoding. The stage of POI data collection analyzes the POI locations(list, next, and detailed pages) within a web site and the web page call(URL and events) modes, identifies the types of web page calls, and applies them to the sites of web crawling. In this case, there are more web page calls in the event mode than those in the URL mode. The stage of refinement parses the character strings of collected data according to name, phone number, and address refinement and saves them as standardized data, in which process the success rate of operation dropped in the order of name, phone number, and address. The success rate also dropped according to the increasing parsing conditions. When one of land lot- and road name-based addresses was collected as part of address data, a process of mutual conversion followed. The stage of extraction of differences compares the old data stored in the integrated database with newly collected/refined data and categorizes them into new, deletion, and overlapping cases. The new cases were added to the integrated database again; the overlapping ones ignored the data collected recently; the deletion ones performed the operation of deletion in the old data. The final stage of geocoding converted addresses into coordinates to be reflected on digital maps since the collected POI data contained no coordinate information. The investigator set an actual web crawling site, implemented the web crawler, and found the minimum of new and deleted data were extracted. The analysis results demonstrate that the web crawler developed in this study contributes to collect the POI data of web sites periodically and extract only the data of minimum alteration(new and deleted).
A Study on the Development of a Web Crawler for the Automatic Extraction of POI Change Data
Car navigation systems(CNSs) are essential devices for drivers drive on a road new to them. If the navigation to database contains no data about a destination or reflects the latest data, users will fail in destination searches and not be able to arrive at the destination. The number of Point of Interest(POI) data should be increased to decrease the failure rate of navigation searches. As the uses of mobile navigation increase in recent years, the renewal cycle of POI becomes shorter and shorter. The renewal cycle of POI should be under a year in order to reflect the data of individual businesses that were established less than a year ago and have closed temporarily or permanently (11~26%). There is no way that POI data collectors can anticipate the time of opening and closure, which raises a need for a short collection cycle. The increasing volume and decreasing cycle of POI renewal have impacts on the renewal process(collection, refinement and extraction of differences). The old renewal process causes data error or omission. When the process repeats, it deteriorates productivity and quality due to the accumulation of errors. This study thus set out to develop a web crawler to collect web site POI data periodically and extract only the altered(new and deleted) minimum data automatically. For these purposes, the study went through the stages of POI data collection, refinement/conversion, extraction of differences, and geocoding. The stage of POI data collection analyzes the POI locations(list, next, and detailed pages) within a web site and the web page call(URL and events) modes, identifies the types of web page calls, and applies them to the sites of web crawling. In this case, there are more web page calls in the event mode than those in the URL mode. The stage of refinement parses the character strings of collected data according to name, phone number, and address refinement and saves them as standardized data, in which process the success rate of operation dropped in the order of name, phone number, and address. The success rate also dropped according to the increasing parsing conditions. When one of land lot- and road name-based addresses was collected as part of address data, a process of mutual conversion followed. The stage of extraction of differences compares the old data stored in the integrated database with newly collected/refined data and categorizes them into new, deletion, and overlapping cases. The new cases were added to the integrated database again; the overlapping ones ignored the data collected recently; the deletion ones performed the operation of deletion in the old data. The final stage of geocoding converted addresses into coordinates to be reflected on digital maps since the collected POI data contained no coordinate information. The investigator set an actual web crawling site, implemented the web crawler, and found the minimum of new and deleted data were extracted. The analysis results demonstrate that the web crawler developed in this study contributes to collect the POI data of web sites periodically and extract only the data of minimum alteration(new and deleted).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.