인터넷 문서빈도를 통해 본 도시순위규모에 관한 연구 -미국 10만 이상의 인구를 갖는 도시들을 사례로- Rank-Size Distribution with Web Document Frequency of City Name : Case study with U.S incorporated places of 100,000 or more population원문보기
본 연구는 인터넷 문서상에 나타나는 도시 지명의 문서 빈도를 통계량으로 도시규모에 대한 분석을 실시하였다. 검색어가 갖는 의미상의 차이에 따른 조건과 검색의 범위를 제약하면서 나타나는 유의적인 차이점들에 대해 분석하였고, 도시규모분포의 상관계수에 대한 분석을 통해 인구와 문서빈도와의 차이점을 분석하였다. 각 도시의 인구와 문서빈도와 상관관계 분석에서는 검색어의 종류를 보다 공간적의 의미로 제약할수록 더 높은 상관관계가 나타났고, 문서의 종류는 상용, 네트워크, 기관의 경우에 있어서 높은 상관관계가 나타났다. 그리고 인구와 문서빈도의 통계량을 이용한 군집분석을 통해서, 인구에 비해 더 많은 혹은 낮은 문서빈도를 보이는 도시들을 파악하였다. 이와 같은 분석은 웹 문서라는 정보통신사회 속에서 반영되는 각 도시의 특성을 분석하는 새로운 방안을 제시한다는 점에서 큰 의미를 갖는다고 할 수 있다.
본 연구는 인터넷 문서상에 나타나는 도시 지명의 문서 빈도를 통계량으로 도시규모에 대한 분석을 실시하였다. 검색어가 갖는 의미상의 차이에 따른 조건과 검색의 범위를 제약하면서 나타나는 유의적인 차이점들에 대해 분석하였고, 도시규모분포의 상관계수에 대한 분석을 통해 인구와 문서빈도와의 차이점을 분석하였다. 각 도시의 인구와 문서빈도와 상관관계 분석에서는 검색어의 종류를 보다 공간적의 의미로 제약할수록 더 높은 상관관계가 나타났고, 문서의 종류는 상용, 네트워크, 기관의 경우에 있어서 높은 상관관계가 나타났다. 그리고 인구와 문서빈도의 통계량을 이용한 군집분석을 통해서, 인구에 비해 더 많은 혹은 낮은 문서빈도를 보이는 도시들을 파악하였다. 이와 같은 분석은 웹 문서라는 정보통신사회 속에서 반영되는 각 도시의 특성을 분석하는 새로운 방안을 제시한다는 점에서 큰 의미를 갖는다고 할 수 있다.
In this study, web document frequency of city place name is analyzed and it is used as the dataset for rank-size analysis. The search keywords are compared in the context of spatial meaning and the different domain corpus is applied. The acquired search results are applied for the further analysis. ...
In this study, web document frequency of city place name is analyzed and it is used as the dataset for rank-size analysis. The search keywords are compared in the context of spatial meaning and the different domain corpus is applied. The acquired search results are applied for the further analysis. Firstly, the rank-size analysis is applied to compare the result between population and document frequency. Secondly, in case of correlation analysis, the significant changes are revealed when the spatial criteria for search keywords are increased. In case of corpus, COM, NET, and ORG shows the higher coefficient values. Lastly, the cluster analysis is applied to classify the list of cities that shows the similarity and difference. These analyses have a significant role in representing the rank-size distribution of city names that are reflected on the web documents in the information society.
In this study, web document frequency of city place name is analyzed and it is used as the dataset for rank-size analysis. The search keywords are compared in the context of spatial meaning and the different domain corpus is applied. The acquired search results are applied for the further analysis. Firstly, the rank-size analysis is applied to compare the result between population and document frequency. Secondly, in case of correlation analysis, the significant changes are revealed when the spatial criteria for search keywords are increased. In case of corpus, COM, NET, and ORG shows the higher coefficient values. Lastly, the cluster analysis is applied to classify the list of cities that shows the similarity and difference. These analyses have a significant role in representing the rank-size distribution of city names that are reflected on the web documents in the information society.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 인터넷 문서상에서 나타나는 도시지명의 빈도라는 통계치를 데이터베이스로 변환하여 인구를 이용한 도시순위규모와의 상관관계를 분석하였다. 첫째^, 순위상관계수의 분석에 있어서 인구의 경우 1 보다 낮은 값을 보인 반면, 상업, 네트워크, 비영리기관 등의 도메인들에서 1 보다 큰 값이 나타났고, 교육, 관공서 등의 도메인에서 1에 가까운 수치를 보여주었다.
제안 방법
각 도시들에 대한 인구자료는 2000년 인구센서스 자료를 사용하였고, 각 도시 지명의 도시빈도는 가장 많이 활용되는 2개의 검색사이트인 야후와 구글에서 제공하는 검색엔진을 사용하였다. 각 도시 지명의 빈도추출을 위해서는 검색엔진에서 제공하는 API> 사용하여, 입력된 도시명에 대한 빈도를 자동 추출할 수 있는 프로그램을 펄 (Perl)언어"로 작성하여 추출하였다(Calishain and Domfest, 2003). 엄격한 의미에서 각 도시의 인구와 문서빈도 간의 상관관계는 동일한 시점에서 얻어낸 자료를 사용해야하지만 미국통계청에서 일반인에게 공개하는 자료는 10년간의 주기로 제공하기에 인구는 2000년 센서스 자료를 활용하고 문서빈도의 경우 2007년 4월 12일의 결과를 이용하였다.
각 도시들이 지니고 있는 다양한 특성의 유사성을 바탕으로 동질적인 집단으로 구분하기 위해 군집 분석을 실행하였다. 유사성의 측정방법을 위해서는 가장 일반적으로 사용되는 유클리디안 거리 (Euclidean distance)# 사용하였으며, 거리 계산 시 변수 값을 표준화여 분석하였다.
분석은 우선 지프의 도시순위 규모 분석을 위한 계수。를 추출함으로써 각 항목별 계수치가 어떻게 나타나는 지를 분석하였다. 다음으로는 각 도시의 인구변수와 각 변수 별로 추출한 변수와의 상관관계를 추출하였고, 인구와 문서간에 상대적 비율에 따라 달라지는 도시들의 그룹을 비교하기 위해 군집분석을 실행하였다.
분석을 위한 계수。를 추출함으로써 각 항목별 계수치가 어떻게 나타나는 지를 분석하였다. 다음으로는 각 도시의 인구변수와 각 변수 별로 추출한 변수와의 상관관계를 추출하였고, 인구와 문서간에 상대적 비율에 따라 달라지는 도시들의 그룹을 비교하기 위해 군집분석을 실행하였다.
본 연구는 웹마이닝의 분석방법들 중에서 웹 내용을 분석하는 방법을 통해, 웹 페이지에 나타나는 각 도시지명의 문서빈도라는 통계적 자료를 기초로 하여, 지리학의 도시순위규모를 분석하는 방법론을 적용한 결과와의 상관관계를 비교함으로써 인터넷 웹 문서 속에 반영된 도시들의 특성을 분석하였다. 분석을 위한 자료는 가장 대중적인 검색엔진의 데이터베이스를 대상으로 하였고 이들이 제공하는 API(Application Programming Interface)11 및 검색 방식을 이용하여 미국내 10만 이상의 인구를 갖는 254개의 도시들 a 에 대한 검색결과를 도시순위분석에 적용하여 인구를 기초로 하는 도시 규모 분석과 어떠한 상관관계를 보여주는가를 분석하였다.
분석을 위한 자료는 가장 대중적인 검색엔진의 데이터베이스를 대상으로 하였고 이들이 제공하는 API(Application Programming Interface)11 및 검색 방식을 이용하여 미국내 10만 이상의 인구를 갖는 254개의 도시들 a 에 대한 검색결과를 도시순위분석에 적용하여 인구를 기초로 하는 도시 규모 분석과 어떠한 상관관계를 보여주는가를 분석하였다. 이와 함께, 빈도분석을 위한 문서의 집합인 코퍼스 (corpus)를 상이한 성격을 갖는 도메인으로 구별하고 검색이 발생할 수 있는 단어의 의미에 따른 특성을 구분하여 각각의 상이한 경우에따라서 나타나는 도시인구규모의 특징과 인구와의 상관관계 그리고 도시들간의 유사성과 차이점을 군집 분석을 통해 검토하였다.
둘째는 도시명에 “city” 라는 검색어를 추가하여 검색하려는 범위를 “city” 라는 도시의 의미를 포함할 수 있는 검색어로 제한하는 방식이다. 셋째는 각 도시명과 그 도시가 포함된 주(State)를 합성한 검색어로서 지리적으로 인접한 지명을 추가함으로써 공간적인 의미적 맥락을 주가하였다.
위에서 서술한 것과 같이 각각의 검색을 위해 코퍼스 별, 검색어의 의미 별 그리고 두가지의 검색엔진별로 구분된 검색어를 통해 획득한 자료를 이용하여 분석을 시행하였다. 분석은 우선 지프의 도시순위 규모 분석을 위한 계수。를 추출함으로써 각 항목별 계수치가 어떻게 나타나는 지를 분석하였다.
실행하였다. 유사성의 측정방법을 위해서는 가장 일반적으로 사용되는 유클리디안 거리 (Euclidean distance)# 사용하였으며, 거리 계산 시 변수 값을 표준화여 분석하였다. 각 도시 별 인구와 야후 검색엔진의 결과 중 근린지역용어와의 동시 발생 빈도(RF) 검색의 대한 전체 문서빈도를 표준화한 Z-Score점수를 사용하였다.
분석을 위한 자료는 가장 대중적인 검색엔진의 데이터베이스를 대상으로 하였고 이들이 제공하는 API(Application Programming Interface)11 및 검색 방식을 이용하여 미국내 10만 이상의 인구를 갖는 254개의 도시들 a 에 대한 검색결과를 도시순위분석에 적용하여 인구를 기초로 하는 도시 규모 분석과 어떠한 상관관계를 보여주는가를 분석하였다. 이와 함께, 빈도분석을 위한 문서의 집합인 코퍼스 (corpus)를 상이한 성격을 갖는 도메인으로 구별하고 검색이 발생할 수 있는 단어의 의미에 따른 특성을 구분하여 각각의 상이한 경우에따라서 나타나는 도시인구규모의 특징과 인구와의 상관관계 그리고 도시들간의 유사성과 차이점을 군집 분석을 통해 검토하였다.
각 도메인에 대한 검색은 Tezuka and Tanaka(2005)가 제시한 5가지 검색방식 중 3가지의 검색방식을 채택하여 각각 실행하였다. 첫째는 도시명 그 자체를 이용하는 방식으로서 도시명이 갖은 광범위한 의미를 모두 포괄하는 분석을 실행하였다. 둘째는 도시명에 “city” 라는 검색어를 추가하여 검색하려는 범위를 “city” 라는 도시의 의미를 포함할 수 있는 검색어로 제한하는 방식이다.
판별분석의 결과를 반영하여 4개의 군집유형을 따라서 도시들을 유형화하여 분류하였다. 각 군집에 해당하는 도시들과 인구 및 문서빈도의 평균값은 다음의<표 6>을 통해 확인할 수 있다.
대상 데이터
각 도시들에 대한 인구자료는 2000년 인구센서스 자료를 사용하였고, 각 도시 지명의 도시빈도는 가장 많이 활용되는 2개의 검색사이트인 야후와 구글에서 제공하는 검색엔진을 사용하였다. 각 도시 지명의 빈도추출을 위해서는 검색엔진에서 제공하는 API> 사용하여, 입력된 도시명에 대한 빈도를 자동 추출할 수 있는 프로그램을 펄 (Perl)언어"로 작성하여 추출하였다(Calishain and Domfest, 2003).
각 지명에 대한 코퍼스는 국제적으로 많이 활용되는 5가지의 도메인으로 분류하여 254개의 도시들에 대한 검색결과를 취득하였다. 국제 도메인으로서 가장 대표적인 도메인은 COM, NET, ORG, EDU, GOV 등의 5가지 종류이다.
본 연구에서는 미국의 도시들 중 10만 이상의 인구를 갖는 254개의 도시를 분석의 대상으로 선정하였다. 각 도시들에 대한 인구자료는 2000년 인구센서스 자료를 사용하였고, 각 도시 지명의 도시빈도는 가장 많이 활용되는 2개의 검색사이트인 야후와 구글에서 제공하는 검색엔진을 사용하였다.
데이터처리
유사성의 측정방법을 위해서는 가장 일반적으로 사용되는 유클리디안 거리 (Euclidean distance)# 사용하였으며, 거리 계산 시 변수 값을 표준화여 분석하였다. 각 도시 별 인구와 야후 검색엔진의 결과 중 근린지역용어와의 동시 발생 빈도(RF) 검색의 대한 전체 문서빈도를 표준화한 Z-Score점수를 사용하였다. New York City의 경우 유사성의 정도가 월등하게 떨어져 나타나기에 제외하고 분석하였다.
New York City의 경우 유사성의 정도가 월등하게 떨어져 나타나기에 제외하고 분석하였다. 군집화는 가장 보편적으로 사용되는 agglomerative clustering에 의한 계층적 군집 방법을 사용하였고 가장 적절한 군집 수의 적합성을 파악하기 위해서는 판별분석을 실행하였다. 판별 분석의 결과 다음의<표 4>과같이 군집 수가 3개 일 때 정확성은 97%로 오류율은 3%이고 군집수가 4개일때는 각각 96.
이론/모형
그러나 이들은 모두 인터넷 문서에서 가장 많이 활용하는 대표적인 도메인들이다. 각 도메인에 대한 검색은 Tezuka and Tanaka(2005)가 제시한 5가지 검색방식 중 3가지의 검색방식을 채택하여 각각 실행하였다. 첫째는 도시명 그 자체를 이용하는 방식으로서 도시명이 갖은 광범위한 의미를 모두 포괄하는 분석을 실행하였다.
성능/효과
다음으로는 검색도 메인에 대한 제약에 있어서는 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계를 보여주었고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다. 검색엔진 간에 차이에 있어서는 야후의 결과가 구글의 결과보다 상대적으로 높은 상관관계를 보이고 있었다.
특히, 각 도시지명에 지역적으로 관계된 지명(각 도시가 속해있는 주의 이름)을 부가해서 검색했을 경우에는 높은 상관관계가 나타나고 있음을 확인할 수 있었다. 다음으로는 검색도 메인에 대한 제약에 있어서 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계가 나타났고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다. 셋째로, 군집분석에 있어서는 크게 4가지의 군집으로 분류되었는데 San Francisco, Austin, Seattle, Oklahoma 등의 도시들이 인구에 비해 문서빈도가 크게 나타나는 특징적인 도시들로 나타났다.
특히, 각 도시지명에 지역적으로 관계된 지명(각 도시가 속해있는 주의 이름)을 부가해서 검색했을 때는 아주 높은 상관관계를 보여주고 있음을 확인할 수 있었다. 다음으로는 검색도 메인에 대한 제약에 있어서는 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계를 보여주었고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다. 검색엔진 간에 차이에 있어서는 야후의 결과가 구글의 결과보다 상대적으로 높은 상관관계를 보이고 있었다.
또한, 공간적 의미를 갖는 검색어를 사용할 수록 1의 값에 가까워지는 변화를 볼 수 있었다. 둘째로 상관관계 분석에 있어서는 전체적으로 도시명의 빈도와 인구와는 비교적 높은 상관관계를 보여주었고, 상관계수는 검색어에 대해 공간적인 제약을 부가할 수록 증가하고 있는 것이 특징적이었다. 특히, 각 도시지명에 지역적으로 관계된 지명(각 도시가 속해있는 주의 이름)을 부가해서 검색했을 경우에는 높은 상관관계가 나타나고 있음을 확인할 수 있었다.
이에 비해, 문서빈도를 통해 얻어진 수치를 통해본 도시간의 분포의 경우는 1 보다 큰 값을 보여줌으로써 비교적 상위에 위치한 도시명으로의 집중도가 높게 나타나고 있음을 알 수 있다. 또한 상관계수의 변화는 공간적 검색어를 추가할 수록 낮아지는 경향을 보이고 았고, 상업, 네트워크, 비영리기관과 같은 도메인이 교육, 정부기관의 계수보다 높은 경향을 보여주고 있다.
나타났다. 또한 지리개념용어와의 동시발생빈도(GF)의 분석에 있어서는 주(State)는 다른데 도시명이 같아서 인구수에 상관없이 결과가 같아지는 문제점(콜롬부스:오하이오, 콜롬부스:조지아)을 발견할 수 있었다. 마지막으로, 인지도가 낮은 도시들에 있어서 검색어가 두 단어 이상으로 길게 이루어진 지명의 경우 상대적으로 빈도가 낮아지는 문제점 등이 발생하였다.
또한 지리개념용어와의 동시발생빈도(GF)의 분석에 있어서는 주(State)는 다른데 도시명이 같아서 인구수에 상관없이 결과가 같아지는 문제점(콜롬부스:오하이오, 콜롬부스:조지아)을 발견할 수 있었다. 마지막으로, 인지도가 낮은 도시들에 있어서 검색어가 두 단어 이상으로 길게 이루어진 지명의 경우 상대적으로 빈도가 낮아지는 문제점 등이 발생하였다.
분석의 과정에서 나타나는 문제점으로는 장소명만으로 분석을 했을 경우, 공간적 의미 외에 다양한 여러가지 의미를 갖는 장소명의 경우(예를 들어, New York, Mobile) 등의 도시명에 있어서 인구수에 비해 높은 빈도를 보이는 경우도 나타났다. 또한 지리개념용어와의 동시발생빈도(GF)의 분석에 있어서는 주(State)는 다른데 도시명이 같아서 인구수에 상관없이 결과가 같아지는 문제점(콜롬부스:오하이오, 콜롬부스:조지아)을 발견할 수 있었다.
다음으로는 검색도 메인에 대한 제약에 있어서 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계가 나타났고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다. 셋째로, 군집분석에 있어서는 크게 4가지의 군집으로 분류되었는데 San Francisco, Austin, Seattle, Oklahoma 등의 도시들이 인구에 비해 문서빈도가 크게 나타나는 특징적인 도시들로 나타났다.
우선, 가장 특징적인 것으로는 전반적으로 인구와 문서빈도간에 높은 상관관계를 보인다는 점을 들 수 있고, 둘째로, 검색어에 공간적 맥락을 주어질 수록 상관관계가 높아진다는 점, 마지막으로 코퍼스의 변화에 있어서는 상업, 네트워크, 비영리기관 등의 도메인에서 비교적 높은 상관관계를 보여주고, 교육과 정부기관의 경우 낮은 상관관계를 보이고 있다는 점을 들 수 있다. 전제적으로 도시명의 빈도와 인구와는 비교적 높은 상관관계를 보여주고 있고, 상관계수는 검색어에 대해 공간적인 특성을 부가할 수록 증가하고 있는 것이 특징적이다.
첫째^, 순위상관계수의 분석에 있어서 인구의 경우 1 보다 낮은 값을 보인 반면, 상업, 네트워크, 비영리기관 등의 도메인들에서 1 보다 큰 값이 나타났고, 교육, 관공서 등의 도메인에서 1에 가까운 수치를 보여주었다. 또한, 공간적 의미를 갖는 검색어를 사용할 수록 1의 값에 가까워지는 변화를 볼 수 있었다.
둘째로 상관관계 분석에 있어서는 전체적으로 도시명의 빈도와 인구와는 비교적 높은 상관관계를 보여주었고, 상관계수는 검색어에 대해 공간적인 제약을 부가할 수록 증가하고 있는 것이 특징적이었다. 특히, 각 도시지명에 지역적으로 관계된 지명(각 도시가 속해있는 주의 이름)을 부가해서 검색했을 경우에는 높은 상관관계가 나타나고 있음을 확인할 수 있었다. 다음으로는 검색도 메인에 대한 제약에 있어서 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계가 나타났고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다.
전제적으로 도시명의 빈도와 인구와는 비교적 높은 상관관계를 보여주고 있고, 상관계수는 검색어에 대해 공간적인 특성을 부가할 수록 증가하고 있는 것이 특징적이다. 특히, 각 도시지명에 지역적으로 관계된 지명(각 도시가 속해있는 주의 이름)을 부가해서 검색했을 때는 아주 높은 상관관계를 보여주고 있음을 확인할 수 있었다. 다음으로는 검색도 메인에 대한 제약에 있어서는 상업, 네트워크, 기관 등과 같은 도메인에 있어서 비교적 높은 상관관계를 보여주었고, 교육, 정부기관 등의 도메인 문서는 상대적으로 낮은 상관관계를 보여주었다.
판별 분석의 결과 다음의과같이 군집 수가 3개 일 때 정확성은 97%로 오류율은 3%이고 군집수가 4개일때는 각각 96.2%와 3.8%로 나타났다.
후속연구
우선, 영문 문서에 대한 미국 도시명에 대한 분석이기는 했으나, 상업, 네트워크 기관 등의 경우 미국이 아닌 다른 나라의 문서를 포함할 가능성을 배제하지 못한 점 등의 문제점을 갖는다. 다음으로, Tezuka and Tanaka (2005)가 제안한 5가지 방식 중 공간적 문장빈도 (SF)와 주제어빈도(CF)에 대한 분석이 이루어지지 못한 점, 각 도시가 갖는 경제 교육, 정부 기관에 따른 외부적인 변수들과 각 도메인에 따르는 변이에 대한 추가적인 연관관계에 대한 분석 등은 본 논문에서 미처 논의하지 못한 것으로, 향후의 연구과제라 할 수 있다. 끝으로 본 연구는 인터넷이라는 사이버 공간에서 공간에서 투영된 지리적 특징에 대해 지리학의 분석기법을 적용하여 분석을 했다는 점 그리고 자동화된 방식을 통해 빠르게 접근할 수 있는 방안을 제시한다는 점 등에서 연구의 의미를 갖는다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.