본 연구는 빅데이터 분석방법인 텍스트마이닝을 이용한 부동산시장 동향분석에 관한 연구로 자료는 2016년 8월부터 2017년 8월까지의 포털사이트인 네이버에 게시된 인터넷 뉴스를 통해 수집하였다. TF-IDF 분석결과, 주택, 분양, 가구, 시장, 지역 순으로 빈도가 높게 나타났고 대출, 정부, 대책, 규제 등 정책과 관련된 단어들도 많이 추출되었으며 지역관련 단어는 서울의 출현빈도가 가장 많은 것으로 나타났다. 지역과 관련된 단어 조합은 '서울-강남', '서울-수도권', '강남-재건축', '서울-재건축'의 출현빈도가 많은 것으로 나타나 강남지역 재건축에 대한 사람들의 관심과 기대가 높은 것을 알 수 있다.
본 연구는 빅데이터 분석방법인 텍스트마이닝을 이용한 부동산시장 동향분석에 관한 연구로 자료는 2016년 8월부터 2017년 8월까지의 포털사이트인 네이버에 게시된 인터넷 뉴스를 통해 수집하였다. TF-IDF 분석결과, 주택, 분양, 가구, 시장, 지역 순으로 빈도가 높게 나타났고 대출, 정부, 대책, 규제 등 정책과 관련된 단어들도 많이 추출되었으며 지역관련 단어는 서울의 출현빈도가 가장 많은 것으로 나타났다. 지역과 관련된 단어 조합은 '서울-강남', '서울-수도권', '강남-재건축', '서울-재건축'의 출현빈도가 많은 것으로 나타나 강남지역 재건축에 대한 사람들의 관심과 기대가 높은 것을 알 수 있다.
This study is on the trend of real estate market using text mining and big data. The data were collected through internet news posted on Naver from August 2016 to August 2017. As a result of TF-IDF analysis, the frequency was high in the order of housing, sale, household, real estate market, and reg...
This study is on the trend of real estate market using text mining and big data. The data were collected through internet news posted on Naver from August 2016 to August 2017. As a result of TF-IDF analysis, the frequency was high in the order of housing, sale, household, real estate market, and region. Many words related to policies such as loan, government, countermeasures, and regulations were extracted, and the region - related words appeared the most frequently in Seoul. The combination of the words related to the region showed that the frequencies of 'Seoul - Gangnam', 'Seoul - Metropolitan area', 'Gangnam - reconstruction' and 'Seoul - reconstruction' appeared frequently. It can be seen that the people's interest and expectation about the reconstruction of Gangnam area is high.
This study is on the trend of real estate market using text mining and big data. The data were collected through internet news posted on Naver from August 2016 to August 2017. As a result of TF-IDF analysis, the frequency was high in the order of housing, sale, household, real estate market, and region. Many words related to policies such as loan, government, countermeasures, and regulations were extracted, and the region - related words appeared the most frequently in Seoul. The combination of the words related to the region showed that the frequencies of 'Seoul - Gangnam', 'Seoul - Metropolitan area', 'Gangnam - reconstruction' and 'Seoul - reconstruction' appeared frequently. It can be seen that the people's interest and expectation about the reconstruction of Gangnam area is high.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
앞서 원 자료에서 추출해온 단어들은 순서와 단어들의 연결 구조를 알 수 없기 때문에 단어 자체가 문장 중에서 가지는 의미를 제대로 보여주지 못한다. 따라서 본 연구에서는 N-gram기법을 통해 문서에서 인접한 단어들을 묶어서 추출된 단어가 표현하고자 하는 의미를 파악하였다.
본격적으로 분석하기 전에 어떠한 단어가 많이 노출되고, 서로 어떤 관계성을 가지고 있는지 살펴보고자 원자료에 대해 시각화를 시도해 보았다. 먼저 전체적으로 어떤 단어들이 보여지는지 확인하고자 워드 클라우드(word cloud)를 그렸다.
이에 본 연구는 비정형데이터인 부동산 관련 인터넷 뉴스기사를 중심으로 빅데이터 분석방법인 텍스트마이닝을 이용해 부동산시장의 동향을 분석하고자 한다. 시간적 범위는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 뉴스를 통해 478,731건의 자료를 수집해 분석하였다.
제안 방법
본 연구의 구성은 다음과 같다. 2장은 분석방법으로 자료수집, TF-IDF(term frequency-inverse document frequency) 분석과 N-gram 순열에 대해 알아본다. 3장은 분석결과로 데이터의 워드 클라우드(word cloud)를 시각화하고 TF-IDF 분석과 N-gram 순열결과를 비교 분석한다.
그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다. 둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다. 텍스트에 TF-IDF 분석으로 가중치를 산출하고 N-gram 순열을 이용하여 단어-단어 구조로 연결하여 추출된 단어가 표현하고자 하는 의미를 명확하게 파악한다.
본격적으로 분석하기 전에 어떠한 단어가 많이 노출되고, 서로 어떤 관계성을 가지고 있는지 살펴보고자 원자료에 대해 시각화를 시도해 보았다. 먼저 전체적으로 어떤 단어들이 보여지는지 확인하고자 워드 클라우드(word cloud)를 그렸다. Fig.
본 연구의 차별성은 수도권 지역의 주택가격이 상승하던 시기였던 2016-2017년까지 비정형데이터인 부동산 관련 뉴스기사를 수집해 빅데이터 분석기법인 텍스트마이닝을 적용해 부동산시장의 동향을 실증적으로 분석함에 있다.
과 같다. 온라인 기사에서 수집된 비정형데이터에서 높은 단어빈도수를 가지는 단어들을 추출하였으며 조사, 접속사, 문장의 의미, 의미 없는 숫자, 특수 문자 등은 제거하여 데이터 전처리 과정(preprocessing process)을 거쳤다.
본 연구의 데이터 분석을 위해 자료는 포털사이트 네이버에 게시된 부동산 관련 인터넷 뉴스로 선정하였다. 자료 분석을 위해 주제 분야는 경제 분야를 선택하였으며 불필요한 기사들을 키워드를 통해 필터링하였다. 필터링 단어들로는 아파트, 부동산, 분양, 주택 등으로 해당 단어가 포함한 기사들만 데이터 수집대상으로 간주하였으며 반면 분양정보와 같은 기사와 중복된 내용이 담긴 기사들은 수집대상에서 제외하였다.
연구의 순서와 방법은 아래와 같다. 첫째, 부동산 관련 대상을 알아보고 검색 키워드를 선정한다. 그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다.
출현빈도 높은 상위 20개의 단어를 대상으로 TF-IDF 분석을 활용하여 단어의 가중치를 도출하고 부동산·주택과의 연관성을 분석하였다.
둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다. 텍스트에 TF-IDF 분석으로 가중치를 산출하고 N-gram 순열을 이용하여 단어-단어 구조로 연결하여 추출된 단어가 표현하고자 하는 의미를 명확하게 파악한다.
대상 데이터
첫째, 부동산 관련 대상을 알아보고 검색 키워드를 선정한다. 그리고 네이버에서 나타난 인터넷 뉴스를 R통계패키지를 이용해 수집한다. 둘째, KoNLP 텍스트마이닝 패키지를 활용하여 형태소 분석 및 자연어 처리를 실시한다.
본 연구는 텍스트마이닝을 이용한 부동산시장 동향분석에 관한 연구로 자료는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷 기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다.
본 연구의 데이터 분석을 위해 자료는 포털사이트 네이버에 게시된 부동산 관련 인터넷 뉴스로 선정하였다. 자료 분석을 위해 주제 분야는 경제 분야를 선택하였으며 불필요한 기사들을 키워드를 통해 필터링하였다.
이에 본 연구는 비정형데이터인 부동산 관련 인터넷 뉴스기사를 중심으로 빅데이터 분석방법인 텍스트마이닝을 이용해 부동산시장의 동향을 분석하고자 한다. 시간적 범위는 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버에 게시된 뉴스를 통해 478,731건의 자료를 수집해 분석하였다.
이론/모형
빈도분석을 통해 나온 단어들은 원래의 자기 자리에 있던 순서를 완전히 무시하고 처리되므로 단어 자체가 가지는 의미를 제대로 표현하지 못할 수 있다. 이를 보완하기 위해 문서에서 인접한 단어들을 쌍으로 묶어 표현하는 N-순열 기법을 적용한다[5]. n=1의 N-gram은 일반적으로 “Unigram”이라고 하며 n=2는“Bigram”(또는“Digram”)이며, n=3은 “Trigram” 라고 한다.
성능/효과
N-gram 분석결과, 출현빈도가 높은 단어조합을 살펴보면 ‘전매-제한’, ‘대출-규제’, ‘정부-대책’, ‘대책-발표’, ‘금리-인상’과 같은 정책관련 내용들이 많은 것을 알 수 있으며, ‘과열-지구’, ‘규제-강화’, ‘시장-과열’과 같은 우려를 담은 내용들의 출현빈도도 높은 것으로 알 수 있다.
2.를 보면 부동산 관련 인터넷 기사 수집 추이는 2016년 10월에서 2017년 4월까지 기사 양이 감소하기 시작하여 2017년 6월부터 다시 증가하는 것으로 나타났다. 아파트·주택에 대하여 게시된 기사가 증가하는 것으로 나타난 시점은 여름철인 2017년 6월1일부터 6월30일까지로 1167건이었으며, 상대적으로 감소하는 경향을 나타난 시점은 2017년 4월1일에서 4월30일까지로 400건이다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다. Table 1은 각 언론사별 기사빈도를 보여주고 있다.
본 연구에서 이용된 자료는 R 프로그램을 활용하여 2016년 8월부터 2017년 8월까지의 1년간 포털사이트인 네이버[16]에 게시된 인터넷 뉴스를 통해 수집하였다. 분석기간에 경제 분야에 해당되는 인터넷기사는 총 478,731건이며, 부동산 관련 기사는 총 11,293건인 것으로 나타났다. Table 1은 각 언론사별 기사빈도를 보여주고 있다.
지역과 관련된 단어조합은 ‘서울-강남’, ‘서울-수도권’, ‘강남-재건축’, ‘서울재건축’의 출현빈도가 많은 것으로 나타나 서울과 수도권, 특히 강남지역 재건축에 대한 관심과 기대가 많다는 것을 알 수 있다.
후속연구
본 연구결과에 따르는 정책적 시사점은 빅데이터를 이용해 부동산시장의 동향을 파악하면 부동산시장의 움직임을 신속하게 포착할 수 있으므로 정부정책당국자는 부동산 빅데이터와 관련된 기술개발과 이를 정책적으로 응용할 수 있는 다양한 지원책을 수립·집행해야 한다. 이를 통해 부동산정보 선진화에 기여할 수 있고 부동산 시장을 좀 더 체계적이고 신속하게 알 수 있을 것으로 기대된다.
본 연구결과에 따르는 정책적 시사점은 빅데이터를 이용해 부동산시장의 동향을 파악하면 부동산시장의 움직임을 신속하게 포착할 수 있으므로 정부정책당국자는 부동산 빅데이터와 관련된 기술개발과 이를 정책적으로 응용할 수 있는 다양한 지원책을 수립·집행해야 한다. 이를 통해 부동산정보 선진화에 기여할 수 있고 부동산 시장을 좀 더 체계적이고 신속하게 알 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
빅데이터의 분석기법의 종류에는 무엇이 있는가?
빅데이터의 분석기법은 텍스트마이닝(text mining), 데이터마이닝(data mining), 사회네트워크분석(social network analysis), 시스템다이나믹스(system dynamics) 등이 있다. 이 중에서 텍스트마이닝은 많은 정보 중에서 가치를 추출하는 방법이며, 이를 통해 관련된 키워드의 사회적 동향과 이슈를 파악하는데 이용되고 있다.
빈도분석이 아닌 N-순열 기법을 적용한 이유는 무엇인가?
N-gram의 두 가지 이점은 단순성과 확장성입니다. 빈도분석을 통해 나온 단어들은 원래의 자기 자리에 있던 순서를 완전히 무시하고 처리되므로 단어 자체가 가지는 의미를 제대로 표현하지 못할 수 있다. 이를 보완하기 위해 문서에서 인접한 단어들을 쌍으로 묶어 표현하는 N-순열 기법을 적용한다[5].
텍스트마이닝이란 무엇인가?
텍스트마이닝이란, 비정형화된 대규모 문서에서 필요한 정보를 찾아내는 방법으로 자연어 처리기술을 바탕으로 하고 있으며 컴퓨터 언어학과 통계학, 정보학, 대용량 데이터에서 규칙이나 패턴 등을 찾아내는 데이터마이닝 등이 결합된 연구 분야이다[12].
※ AI-Helper는 부적절한 답변을 할 수 있습니다.