[논문]빅데이터와 텍스트마이닝을 이용한 부동산시장 동향분석

전해정

doi:10.14400/jdc.2019.17.4.049

빅데이터와 텍스트마이닝을 이용한 부동산시장 동향분석
Analysis of Real Estate Market Trend Using Text Mining and Big Data 원문보기

디지털융복합연구 = Journal of digital convergence, v.17 no.4, 2019년, pp.49 - 55

전해정 (상명대학교 경영대학원 글로벌부동산학과)

초록
AI-Helper

본 연구는 빅데이터 분석방법인 텍스트마이닝을 이용한 부동산시장 동향분석에 관한 연구로 자료는 2016년 8월부터 2017년 8월까지의 포털사이트인 네이버에 게시된 인터넷 뉴스를 통해 수집하였다. TF-IDF 분석결과, 주택, 분양, 가구, 시장, 지역 순으로 빈도가 높게 나타났고 대출, 정부, 대책, 규제 등 정책과 관련된 단어들도 많이 추출되었으며 지역관련 단어는 서울의 출현빈도가 가장 많은 것으로 나타났다. 지역과 관련된 단어 조합은 '서울-강남', '서울-수도권', '강남-재건축', '서울-재건축'의 출현빈도가 많은 것으로 나타나 강남지역 재건축에 대한 사람들의 관심과 기대가 높은 것을 알 수 있다.

Abstract ▼ AI-Helper

This study is on the trend of real estate market using text mining and big data. The data were collected through internet news posted on Naver from August 2016 to August 2017. As a result of TF-IDF analysis, the frequency was high in the order of housing, sale, household, real estate market, and region. Many words related to policies such as loan, government, countermeasures, and regulations were extracted, and the region - related words appeared the most frequently in Seoul. The combination of the words related to the region showed that the frequencies of 'Seoul - Gangnam', 'Seoul - Metropolitan area', 'Gangnam - reconstruction' and 'Seoul - reconstruction' appeared frequently. It can be seen that the people's interest and expectation about the reconstruction of Gangnam area is high.

주제어

표/그림 (6)

그림 Fig. 1. Flow Chart of Analysis
표 Table 1. Frequency of Articles by Media
그림 Fig. 2. Trend of Real Estate Articles
그림 Fig. 3. Analysis of Word Cloud
표 Table 2. TF-IDF Weights
표 Table 3. Key Word N-gram

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

앞서 원 자료에서 추출해온 단어들은 순서와 단어들의 연결 구조를 알 수 없기 때문에 단어 자체가 문장 중에서 가지는 의미를 제대로 보여주지 못한다. 따라서 본 연구에서는 N-gram기법을 통해 문서에서 인접한 단어들을 묶어서 추출된 단어가 표현하고자 하는 의미를 파악하였다.
본격적으로 분석하기 전에 어떠한 단어가 많이 노출되고, 서로 어떤 관계성을 가지고 있는지 살펴보고자 원자료에 대해 시각화를 시도해 보았다. 먼저 전체적으로 어떤 단어들이 보여지는지 확인하고자 워드 클라우드(word cloud)를 그렸다.
이에 본 연구는 비정형데이터인 부동산 관련 인터넷 뉴스기사를 중심으로 빅데이터 분석방법인 텍스트마이닝을 이용해 부동산시장의 동향을 분석하고자 한다. 시간적 범위는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 뉴스를 통해 478,731건의 자료를 수집해 분석하였다.

제안 방법

본 연구의 구성은 다음과 같다. 2장은 분석방법으로 자료수집, TF-IDF(term frequency-inverse document frequency) 분석과 N-gram 순열에 대해 알아본다. 3장은 분석결과로 데이터의 워드 클라우드(word cloud)를 시각화하고 TF-IDF 분석과 N-gram 순열결과를 비교 분석한다.
그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다. 둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다. 텍스트에 TF-IDF 분석으로 가중치를 산출하고 N-gram 순열을 이용하여 단어-단어 구조로 연결하여 추출된 단어가 표현하고자 하는 의미를 명확하게 파악한다.
본격적으로 분석하기 전에 어떠한 단어가 많이 노출되고, 서로 어떤 관계성을 가지고 있는지 살펴보고자 원자료에 대해 시각화를 시도해 보았다. 먼저 전체적으로 어떤 단어들이 보여지는지 확인하고자 워드 클라우드(word cloud)를 그렸다. Fig.
본 연구의 차별성은 수도권 지역의 주택가격이 상승하던 시기였던 2016-2017년까지 비정형데이터인 부동산 관련 뉴스기사를 수집해 빅데이터 분석기법인 텍스트마이닝을 적용해 부동산시장의 동향을 실증적으로 분석함에 있다.
과 같다. 온라인 기사에서 수집된 비정형데이터에서 높은 단어빈도수를 가지는 단어들을 추출하였으며 조사, 접속사, 문장의 의미, 의미 없는 숫자, 특수 문자 등은 제거하여 데이터 전처리 과정(preprocessing process)을 거쳤다.
본 연구의 데이터 분석을 위해 자료는 포털사이트 네이버에 게시된 부동산 관련 인터넷 뉴스로 선정하였다. 자료 분석을 위해 주제 분야는 경제 분야를 선택하였으며 불필요한 기사들을 키워드를 통해 필터링하였다. 필터링 단어들로는 아파트, 부동산, 분양, 주택 등으로 해당 단어가 포함한 기사들만 데이터 수집대상으로 간주하였으며 반면 분양정보와 같은 기사와 중복된 내용이 담긴 기사들은 수집대상에서 제외하였다.
연구의 순서와 방법은 아래와 같다. 첫째, 부동산 관련 대상을 알아보고 검색 키워드를 선정한다. 그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다.
출현빈도 높은 상위 20개의 단어를 대상으로 TF-IDF 분석을 활용하여 단어의 가중치를 도출하고 부동산·주택과의 연관성을 분석하였다.
둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다. 텍스트에 TF-IDF 분석으로 가중치를 산출하고 N-gram 순열을 이용하여 단어-단어 구조로 연결하여 추출된 단어가 표현하고자 하는 의미를 명확하게 파악한다.

대상 데이터

첫째, 부동산 관련 대상을 알아보고 검색 키워드를 선정한다. 그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다. 둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다.
본 연구는 텍스트마이닝을 이용한 부동산시장 동향분석에 관한 연구로 자료는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷 기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다.
본 연구의 데이터 분석을 위해 자료는 포털사이트 네이버에 게시된 부동산 관련 인터넷 뉴스로 선정하였다. 자료 분석을 위해 주제 분야는 경제 분야를 선택하였으며 불필요한 기사들을 키워드를 통해 필터링하였다.
이에 본 연구는 비정형데이터인 부동산 관련 인터넷 뉴스기사를 중심으로 빅데이터 분석방법인 텍스트마이닝을 이용해 부동산시장의 동향을 분석하고자 한다. 시간적 범위는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 뉴스를 통해 478,731건의 자료를 수집해 분석하였다.

이론/모형

빈도분석을 통해 나온 단어들은 원래의 자기 자리에 있던 순서를 완전히 무시하고 처리되므로 단어 자체가 가지는 의미를 제대로 표현하지 못할 수 있다. 이를 보완하기 위해 문서에서 인접한 단어들을 쌍으로 묶어 표현하는 N-순열 기법을 적용한다[5]. n=1의 N-gram은 일반적으로 “Unigram”이라고 하며 n=2는“Bigram”(또는“Digram”)이며, n=3은 “Trigram” 라고 한다.

성능/효과

N-gram 분석결과, 출현빈도가 높은 단어조합을 살펴보면 ‘전매-제한’, ‘대출-규제’, ‘정부-대책’, ‘대책-발표’, ‘금리-인상’과 같은 정책관련 내용들이 많은 것을 알 수 있으며, ‘과열-지구’, ‘규제-강화’, ‘시장-과열’과 같은 우려를 담은 내용들의 출현빈도도 높은 것으로 알 수 있다.
2.를 보면 부동산 관련 인터넷 기사 수집 추이는 2016년 10월에서 2017년 4월까지 기사 양이 감소하기 시작하여 2017년 6월부터 다시 증가하는 것으로 나타났다. 아파트·주택에 대하여 게시된 기사가 증가하는 것으로 나타난 시점은 여름철인 2017년 6월1일부터 6월30일까지로 1167건이었으며, 상대적으로 감소하는 경향을 나타난 시점은 2017년 4월1일에서 4월30일까지로 400건이다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다. Table 1은 각 언론사별 기사빈도를 보여주고 있다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다. Table 1은 각 언론사별 기사빈도를 보여주고 있다.
지역과 관련된 단어조합은 ‘서울-강남’, ‘서울-수도권’, ‘강남-재건축’, ‘서울재건축’의 출현빈도가 많은 것으로 나타나 서울과 수도권, 특히 강남지역 재건축에 대한 관심과 기대가 많다는 것을 알 수 있다.

후속연구

본 연구결과에 따르는 정책적 시사점은 빅데이터를 이용해 부동산시장의 동향을 파악하면 부동산시장의 움직임을 신속하게 포착할 수 있으므로 정부정책당국자는 부동산 빅데이터와 관련된 기술개발과 이를 정책적으로 응용할 수 있는 다양한 지원책을 수립·집행해야 한다. 이를 통해 부동산정보 선진화에 기여할 수 있고 부동산 시장을 좀 더 체계적이고 신속하게 알 수 있을 것으로 기대된다.
본 연구결과에 따르는 정책적 시사점은 빅데이터를 이용해 부동산시장의 동향을 파악하면 부동산시장의 움직임을 신속하게 포착할 수 있으므로 정부정책당국자는 부동산 빅데이터와 관련된 기술개발과 이를 정책적으로 응용할 수 있는 다양한 지원책을 수립·집행해야 한다. 이를 통해 부동산정보 선진화에 기여할 수 있고 부동산 시장을 좀 더 체계적이고 신속하게 알 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빅데이터의 분석기법의 종류에는 무엇이 있는가?	빅데이터의 분석기법은 텍스트마이닝(text mining), 데이터마이닝(data mining), 사회네트워크분석(social network analysis), 시스템다이나믹스(system dynamics) 등이 있다. 이 중에서 텍스트마이닝은 많은 정보 중에서 가치를 추출하는 방법이며, 이를 통해 관련된 키워드의 사회적 동향과 이슈를 파악하는데 이용되고 있다.
	빈도분석이 아닌 N-순열 기법을 적용한 이유는 무엇인가?	N-gram의 두 가지 이점은 단순성과 확장성입니다. 빈도분석을 통해 나온 단어들은 원래의 자기 자리에 있던 순서를 완전히 무시하고 처리되므로 단어 자체가 가지는 의미를 제대로 표현하지 못할 수 있다. 이를 보완하기 위해 문서에서 인접한 단어들을 쌍으로 묶어 표현하는 N-순열 기법을 적용한다[5].
	텍스트마이닝이란 무엇인가?	텍스트마이닝이란, 비정형화된 대규모 문서에서 필요한 정보를 찾아내는 방법으로 자연어 처리기술을 바탕으로 하고 있으며 컴퓨터 언어학과 통계학, 정보학, 대용량 데이터에서 규칙이나 패턴 등을 찾아내는 데이터마이닝 등이 결합된 연구 분야이다[12].

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증