텍스트 마이닝 기법을 이용한 환경 분야의 ICT 활용 연구 동향 분석 A Study on Environmental research Trends by Information and Communications Technologies using Text-mining Technology원문보기
본 연구는 텍스트 마이닝 기법을 활용하여 환경 분야에서 ICT의 활용 연구동향을 정량적으로 분석하였다. 이를 위해 환경 분야 키워드 38개, ICT 관련 키워드 16개를 바탕으로 국가과학기술정보센터(NDSL)에서 최근 20년(1996년-2015년)의 논문 359편을 수집하였다. 해당 논문을 대상으로 환경 분야 및 ICT 관련 자연어를 처리하여 말뭉치(Corpus)단위로 분류체계를 재구성하였다. 전술된 분류체계의 키워드를 바탕으로 텍스트 마이닝 분석 기법인 빈도 분석, 키워드 분석, 키워드 간 연관규칙을 확인하였다. 그 결과 '환경 일반' 및 '기후' 분야의 키워드 출현 빈도가 전체의 77 %, ICT는 '공공융합서비스' 및 '산업융합서비스'가 약 30 %의 비율을 차지하였다. 시계열 분석을 통해 환경 분야에서의 ICT 활용 연구는 최근 5년(2011년-2015년)사이에 급증하여 과거(1996년-2010년)과 비교하여 약 2배 이상 관련 연구가 증가된 것으로 나타났다. 키워드 간 연관 규칙을 생성하여 환경 분야를 기준으로 나타내었을 때, '환경 일반'은 16개, '기후'는 '14'개의 ICT 기반 기술을 주로 활용하고 있는 것으로 확인하였다.
본 연구는 텍스트 마이닝 기법을 활용하여 환경 분야에서 ICT의 활용 연구동향을 정량적으로 분석하였다. 이를 위해 환경 분야 키워드 38개, ICT 관련 키워드 16개를 바탕으로 국가과학기술정보센터(NDSL)에서 최근 20년(1996년-2015년)의 논문 359편을 수집하였다. 해당 논문을 대상으로 환경 분야 및 ICT 관련 자연어를 처리하여 말뭉치(Corpus)단위로 분류체계를 재구성하였다. 전술된 분류체계의 키워드를 바탕으로 텍스트 마이닝 분석 기법인 빈도 분석, 키워드 분석, 키워드 간 연관규칙을 확인하였다. 그 결과 '환경 일반' 및 '기후' 분야의 키워드 출현 빈도가 전체의 77 %, ICT는 '공공융합서비스' 및 '산업융합서비스'가 약 30 %의 비율을 차지하였다. 시계열 분석을 통해 환경 분야에서의 ICT 활용 연구는 최근 5년(2011년-2015년)사이에 급증하여 과거(1996년-2010년)과 비교하여 약 2배 이상 관련 연구가 증가된 것으로 나타났다. 키워드 간 연관 규칙을 생성하여 환경 분야를 기준으로 나타내었을 때, '환경 일반'은 16개, '기후'는 '14'개의 ICT 기반 기술을 주로 활용하고 있는 것으로 확인하였다.
Thisstudy quantitatively analyzed the research trendsin the use ofICT ofthe environmental field using the text mining technique. To that end, the study collected 359 papers published in the past two decades(1996-2015)from the National Digital Science Library (NDSL) using 38 environment-related keywo...
Thisstudy quantitatively analyzed the research trendsin the use ofICT ofthe environmental field using the text mining technique. To that end, the study collected 359 papers published in the past two decades(1996-2015)from the National Digital Science Library (NDSL) using 38 environment-related keywords and 16 ICT-related keywords. It processed the natural languages of the environment and ICT fields in the papers and reorganized the classification system into the unit of corpus. It conducted the text mining analysis techniques of frequency analysis, keyword analysis and the association rule analysis of keywords, based on the above-mentioned keywords of the classification system. As a result, the frequency of the keywords of 'general environment' and 'climate' accounted for 77 % of the total proportion and the keywords of 'public convergence service' and 'industrial convergence service' in the ICT field took up approximately 30 % of the total proportion. According to the time series analysis, the researches using ICT in the environmental field rapidly increased over the past 5 years (2011-2015) and the number of such researches more than doubled compared to the past (1996-2010). Based on the environmental field with generated association rules among the keywords, it was identified that the keyword 'general environment' was using 16 ICT-based technologies and 'climate' was using 14 ICT-based technologies.
Thisstudy quantitatively analyzed the research trendsin the use ofICT ofthe environmental field using the text mining technique. To that end, the study collected 359 papers published in the past two decades(1996-2015)from the National Digital Science Library (NDSL) using 38 environment-related keywords and 16 ICT-related keywords. It processed the natural languages of the environment and ICT fields in the papers and reorganized the classification system into the unit of corpus. It conducted the text mining analysis techniques of frequency analysis, keyword analysis and the association rule analysis of keywords, based on the above-mentioned keywords of the classification system. As a result, the frequency of the keywords of 'general environment' and 'climate' accounted for 77 % of the total proportion and the keywords of 'public convergence service' and 'industrial convergence service' in the ICT field took up approximately 30 % of the total proportion. According to the time series analysis, the researches using ICT in the environmental field rapidly increased over the past 5 years (2011-2015) and the number of such researches more than doubled compared to the past (1996-2010). Based on the environmental field with generated association rules among the keywords, it was identified that the keyword 'general environment' was using 16 ICT-based technologies and 'climate' was using 14 ICT-based technologies.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한 환경매체 및 ICT의 분류체계 조차 표준화되어 있지 않아 연구자의 연구 분야 및 ICT 세부 기술에 따른 정량적 분석이 전무한 상황이다. 따라서 본 연구에서는 환경매체 및 ICT 세부 기술 분류 체계를 정리하고, 환경 분야의 ICT 기반 기술을 활용한 연구 논문을 수집하여 환경매체 ICT 세부 기술의 활용 현황을 정량적으로 분석하고자 한다.
본 연구에서는 1996년부터 2015년까지 최근 20년 동안 환경 분야의 각 매체별 활용된 ICT 접목한 연구 논문을 수집하고, 해당 논문을 대상으로 텍스트 마이닝 기법을 이용하여 환경매체별 ICT의 활용 현황을 정량적으로 분석하고자 한다. 이를 통하여 향후 환경 분야에 직접적으로 활용 가능한 ICT 및 발전 방향을 고찰하고자 한다.
본 연구에서는 데이터 마이닝을 이용하여 환경 분야의 ICT 기반 기술 활용 연구 동향을 분석하는 데 목적이 있다. 연구 수행 절차는 첫째, 분석 목적 및 관심 대상의 정의, 둘째, 분석 데이터 및 범위 설정, 셋째, 검색 키워드 선정, 넷째, 데이터 수집, 다섯째, 분석 및 시각화의 단계로 진행하였다(Fig.
본 연구에서는 학회지를 기준으로 논문의 수를 정렬하여 환경 분야 및 ICT 활용 연구에 대한 기여 정도를 알아보고자 하였다. 수집된 논문의 발행 학회를 나열해 본 결과, 총 113개의 학회에서 관련 연구의 논문이 발행된 것으로 조사되었다.
본 연구에서는 향후 환경 분야에서 ICT 활용의 방향성을 검토하기 위하여 기존 환경 분야 연구에서 활용된 ICT 세부 기술의 현황을 정량적으로 분석하는 것이다. 이를 통하여 현재의 ICT 세부 기술이 향후 어떻게 확대 가능한지를 검토 하였다.
셋째, 텍스트 마이닝 분석을 통하여 환경 분야에서 ICT 세부 기술을 활용에 대한 빈도분석, 시계열 분석, 키워드 연관성 분석 등을 수행한다. 이를 통하여 최종적으로 환경 분야에서의 ICT 활용을 정량적으로 분석하는 것이 본 연구의 목적이다.
본 연구에서는 향후 환경 분야에서 ICT 활용의 방향성을 검토하기 위하여 기존 환경 분야 연구에서 활용된 ICT 세부 기술의 현황을 정량적으로 분석하는 것이다. 이를 통하여 현재의 ICT 세부 기술이 향후 어떻게 확대 가능한지를 검토 하였다. 전술된 내용을 구체적으로 분석하기 위하여 NDSL에서 최근 20년간 환경과 ICT 관련 논문 359편을 대상으로 텍스트 마이닝을 수행하였다.
첫째, 분석 목적 및 관심대상 단계는 본 연구의 연구범위를 결정하고 텍스트 마이닝 분석을 설계하여 신뢰성 높은 결과를 도출하기 위해 수행되었다. 분석목적은 환경 분야의 ICT 세부 기술 활용을 연구 시기 및 동향을 파악하는 것이다.
제안 방법
Table 1은 NDSL에 입력된 검색어를 정리한 것이다. 검색어 선정 과정은 전술된 참고문헌을 통해 수행되었다.
둘째, 분석 데이터 및 범위 설정 단계는 전술된 연구 목적 및 관심 대상에 적합한 데이터를 선정하고, 시간 또는 공간적 범위를 설정하였다. 시간적 범위는 최근 20년간의 연구 동향을 파악하기 위해 분석 데이터인 관련 논문의 발간 기간을 ‘1996년-2015년’으로 한정하였으며, 시계열 분석이 가능하도록 5년 단위로 데이터를 재구성하였다.
이를 위하여 구체적으로 첫째, 기존 연구를 정리하여 환경 분야 매체별 분류 및 ICT 세부 분류를 키위드로 정리할 것이다. 둘째, 수집 자료에 대한 기초 현황분석을 수행하여, 연도별 환경 분야에서 활용된 ICT 세부 기술 경향을 분석한다. 셋째, 텍스트 마이닝 분석을 통하여 환경 분야에서 ICT 세부 기술을 활용에 대한 빈도분석, 시계열 분석, 키워드 연관성 분석 등을 수행한다.
셋째, 검색 키워드 설정은 본 연구에서 텍스트 마이닝은 검색 엔진에서 ‘검색 키워드’에 의해 검색되어 수집된 자료를 바탕으로 수행된다.
키워드의 연관분석은 단순한 빈도분석 뿐만 아니라 단어들 간에 특정한 연관성을 발견하는 것으로, 데이터 속에서 의미 있는 정보를 찾아내기 위해 주로 사용하는 기법 중 하나이다(Park, 2011). 연관 분석은 흥미도 측도인 신뢰도, 지지도, 향상도를 바탕으로 분석하였다.
연구 범위에 해당하는 자료를 얻기 위해, 본 연구에서는 논문 상세 조건 기능을 활용하여 ‘검색범위: 국내논문’, ‘자료유형: 전체’, ‘초록유무: 있음’, ‘발행년도: 1996년 ~ 2015년’으로 적용하였다.
연구 수행 절차는 첫째, 분석 목적 및 관심 대상의 정의, 둘째, 분석 데이터 및 범위 설정, 셋째, 검색 키워드 선정, 넷째, 데이터 수집, 다섯째, 분석 및 시각화의 단계로 진행하였다(Fig.1 참조).
이를 통하여 향후 환경 분야에 직접적으로 활용 가능한 ICT 및 발전 방향을 고찰하고자 한다. 이를 위하여 구체적으로 첫째, 기존 연구를 정리하여 환경 분야 매체별 분류 및 ICT 세부 분류를 키위드로 정리할 것이다. 둘째, 수집 자료에 대한 기초 현황분석을 수행하여, 연도별 환경 분야에서 활용된 ICT 세부 기술 경향을 분석한다.
최근 20년간 논문발간 횟수가 가장 증가한 연도는 2011년이다. 전체적으로 증가와 감소가 반복하여 나타나고 있으며, 이를 정량적으로 분석하기 위하여 추세선에 의한 분석을 수행하였다. 제시된 선형 방정식은 Y=ax+b 에 따라 예측된 결과이다.
본 연구에서 빈도 분석 시 데이터 내에서 유사 및 세부 키워드가 다수 출현되더라도 1회 출현으로 간주하였으며, 초록 내 여러 개의 키워드가 언급되었더라도 중요도가 높은 키워드 1개를 선정하였다. 즉, 1편의 논문 제목 및 초록은 대표성을 가지는 1개의 키워드를 매칭해 키워드 분석 테이블을 작성하였다.
대상 데이터
ICT는 Ministry of Science, ICT and Future Planning(2016), IITP(2016)에서 제공하는 기술 분류를 상호 비교하여 16개의 키워드를 선정하였다.
연구 범위에 해당하는 자료를 얻기 위해, 본 연구에서는 논문 상세 조건 기능을 활용하여 ‘검색범위: 국내논문’, ‘자료유형: 전체’, ‘초록유무: 있음’, ‘발행년도: 1996년 ~ 2015년’으로 적용하였다. 검색 방법은 Table 1에 정리된 검색 키워드에 따라 환경연구 분야 38개 키워드와 ICT 16개 검색 키워드를 서로 교차하여 검색하여, 각각 1개 이상의 키워드가 동시에 출현된 논문이 수집되었다.
군집화 및 키워드 추출은 분류 키워드를 기준으로 환경 분류체계 9개(Table 2. 참조), ICT 기술 분류체계 21개(Table 3 참조)를 대상으로 분석되었다.
공간적 범위 설정은 본 연구의 목적에 따라 일반인 대상인 신문기사, SNS(Social Network Service), 웹페이지 등의 자료보다 연구자 또는 전문가가 작성하여 발간하는 국내 학술지의 논문을 대상으로 하는 것이 타당하다. 또한, 각 논문에서의 관심 정보는 환경연구 분야 및 ICT의 종류이므로 데이터 수집 및 분석 시간의 절약을 위해 연구 방법 및 연구 결론을 제외한 논문 제목 및 초록(Abstract)을 데이터로 선정하였다.
본 연구에서 빈도 분석 시 데이터 내에서 유사 및 세부 키워드가 다수 출현되더라도 1회 출현으로 간주하였으며, 초록 내 여러 개의 키워드가 언급되었더라도 중요도가 높은 키워드 1개를 선정하였다.
본 연구의 시간적 범위 초기인 1996년-2000년 사이에는 ‘인공지능인지컴퓨팅’에 대한 기술이 환경 연구 분야에 활용되었다.
수집된 논문의 발행 학회를 나열해 본 결과, 총 113개의 학회에서 관련 연구의 논문이 발행된 것으로 조사되었다. 수집된 논문의 수가 359편인 것을 고려하였을 때, 전체 학회 대비 논문 발행 빈도가 1% 미만인 학회를 제외하여 더욱 비중이 높은 상위 24개 학회를 대상으로 상세 분석을 수행하였다(Fig. 3 참조). 전체 발행 학회 중, 가장 높은 발행 횟수를 나타낸 학회는 한국통신학회로 총 31건을 나타냈다.
시간적 범위는 최근 20년간의 연구 동향을 파악하기 위해 분석 데이터인 관련 논문의 발간 기간을 ‘1996년-2015년’으로 한정하였으며, 시계열 분석이 가능하도록 5년 단위로 데이터를 재구성하였다.
넷째, 자료 수집은 전술된 단계에서 선정된 검색 키워드를 바탕으로 텍스트 마이닝 분석에 필요한 데이터인 논문을 수집하는 단계이다. 자료 수집을 위해 활용된 검색 엔진은 국가과학기술정보센터(NDSL, http://ndsl.kr/)이다. NDSL에는 국내 논문이 160만 건 이상 등록되어 있으므로 본 연구에서 활용하고자 하는 데이터인 국내 논문의 제목 및 초록 수집에 용이할 것으로 판단하였다.
전술된 내용을 구체적으로 분석하기 위하여 NDSL에서 최근 20년간 환경과 ICT 관련 논문 359편을 대상으로 텍스트 마이닝을 수행하였다.
따라서 본 단계에서 선정된 검색 단어들은 수집될 데이터의 양과 질을 좌우할 수 있으며, 분석데이터로 접근하게 되는 연결 다리 역할을 한다. 환경연구 분야 검색 키워드는 Lee et al. (2014)에서 제시한 환경연구 분야 252개 키워드 중 ICT와 직접적인 관련성이 높은 38개의 단어를 선별하였다. ICT는 Ministry of Science, ICT and Future Planning(2016), IITP(2016)에서 제공하는 기술 분류를 상호 비교하여 16개의 키워드를 선정하였다.
데이터처리
둘째, 수집 자료에 대한 기초 현황분석을 수행하여, 연도별 환경 분야에서 활용된 ICT 세부 기술 경향을 분석한다. 셋째, 텍스트 마이닝 분석을 통하여 환경 분야에서 ICT 세부 기술을 활용에 대한 빈도분석, 시계열 분석, 키워드 연관성 분석 등을 수행한다. 이를 통하여 최종적으로 환경 분야에서의 ICT 활용을 정량적으로 분석하는 것이 본 연구의 목적이다.
여섯 번째, 텍스트 마이닝 결과에 대한 분석 및 시각화 단계에서는 빈도 분석, 시계열 빈도 분석, 키워드 상호간 연관분석을 수행하였다. 빈도 분석 및 시계열 빈도 분석은 데이터 내에서 단어의 출현 빈도를 분석하고, 빈도수에 따른 중요도를 비교하는 방법이다.
이론/모형
이를 위하여 본 연구에서는 빅데이터 분석 방법 중 자연어 처리가 가능한 텍스트 마이닝(Text mining)을 기법을 적용하였다.
성능/효과
2011년-2015년에는 ‘환경일반’ 및 ‘기후’에 대한 논문 발간 횟수가 가장 높았으며, ‘수질’, ‘대기’, ‘생물다양성’, ‘토양’, ‘유해물질 및 보건’, ‘인적재해’ 등에서도 ICT 세부 기술이 적용되고 있는 것으로 분석되었다.
kr/)이다. NDSL에는 국내 논문이 160만 건 이상 등록되어 있으므로 본 연구에서 활용하고자 하는 데이터인 국내 논문의 제목 및 초록 수집에 용이할 것으로 판단하였다. 연구 범위에 해당하는 자료를 얻기 위해, 본 연구에서는 논문 상세 조건 기능을 활용하여 ‘검색범위: 국내논문’, ‘자료유형: 전체’, ‘초록유무: 있음’, ‘발행년도: 1996년 ~ 2015년’으로 적용하였다.
결론적으로 최근 ‘환경 일반’ 및 ‘기후’ 분야의 ‘공공융합 서비스’관련 ICT 기반 기술 접목사례는 증가하고 있지만, 활용 가능성을 검토하는 수준에 머무르고 있으며, 실제 ICT 세부 기술을 적용하는 것은 부족한 실정이다.
환경 연구 분야의 키워드 중 ‘환경 일반’이 17개의 규칙이 생성되어 가장 다수 출현한 것으로 확인된다. 대부분의 키워드에서 지지도 및 신뢰도는 모두 동일하거나 키워드 별로 유사한 형태를 보이나, 향상도의 경우 단어 쌍 별로 수치가 상이한 것을 확인할 수 있었다. 향상도는 1일 때 ‘서로 독립’이라고 판단하며, 1보다 낮은 값을 가질 때는 음의 상관관계, 1보다 높을 때는 양의 상관관계로 나타내어 “1과 계산 값의 차이가 클수록 상관관계가 높다”고 판단한다.
8 %의 비율로 나타났다. 둘째 시계열 분석에서는 환경 분야와 ICT 기술 모두 키워드 발현 빈도가 과거 15년(1996년-2010년)에 비해 최근 5년(2011년-2015년)에 급격히 증가하였으며, 연구 범위인 최근 20년 중 약 50%에 해당되었다. 이는 최근 ‘융합’에 대한 관심과 ICT 기술의 적용범위가 증가됨에 따라 접목사례가 늘어난 것으로 사료된다.
따라서 본 연구에서는 독립인 단어는 없으며, ‘기후’ 14개, ‘수질’ 9개, ‘대기’ 7개 등 키워드 별 연관성 규칙이 생성되었다.
본 연구에서는 ICT에 대한 기술이 지속적으로 고도화되고, 응용 분야가 확대됨으로써 환경 분야에서 적용할 수 있는 ICT의 종류가 점차 확대될 가능성도 확인할 수 있었다. 그러나 본 논문은 분석 범위가 국외를 포함하지 않은 국내논문에 한정되어 있으며, 분석 자료가 본문을 제외한 초록에 제한되어 있다는 한계를 가지고 있다.
셋째 연관성 분석에서는 총 57개의 연관 규칙이 생성되었으며, ‘환경 일반(16개)’ 및 ‘기후(14개)’ 분야에서 ICT 기반 기술을 가장 다양하게 활용하고 있다는 사실을 확인할 수 있었다.
전반적으로 ‘기후’와 ‘환경일반’분야에서의 관련 연구가 증가한 것으로 나타나, 관련 분야인 극한기후, 자연재해, 온실가스 감축과 같은 기후변화에 대한 대응 및 적응에 대한 관심이 점차 증대된 것으로 판단된다.
전술된 Table 1의 환경 분야 키워드 38개, ICT 관련 키워드 16개를 교차 검색하여 NDSL 검색엔진을 통해 환경 분야 연구에서 ICT를 활용한 연구 논문의 수집한 결과, 1996년-2015년까지 총 359편의 논문이 발간된 것으로 조사되었다. 연도별 논문 발간 수를 Fig.
텍스트 마이닝을 활용한 분석 결과는, 첫째 빈도분석에서는 ‘환경 일반’ 및 ‘기후’와 관련된 키워드가 전체의 대부분인 77 %를 차지하였으며, ICT에서는 ‘공공융합서비스’ 및 ‘산업융합서비스’에서 29.8 %의 비율로 나타났다.
후속연구
본 연구에서는 ICT에 대한 기술이 지속적으로 고도화되고, 응용 분야가 확대됨으로써 환경 분야에서 적용할 수 있는 ICT의 종류가 점차 확대될 가능성도 확인할 수 있었다. 그러나 본 논문은 분석 범위가 국외를 포함하지 않은 국내논문에 한정되어 있으며, 분석 자료가 본문을 제외한 초록에 제한되어 있다는 한계를 가지고 있다. 향후 환경 분야의 ICT 기반 기술 활용 연구를 더욱 활성화되기 위해서는 국외 사례를 분석하고, 국내 실정에 맞추어 활용되어야 할 것으로 사료된다.
향후 환경 분야의 ICT 기반 기술 활용 연구를 더욱 활성화되기 위해서는 국외 사례를 분석하고, 국내 실정에 맞추어 활용되어야 할 것으로 사료된다. 또한 분석 자료의 범위를 본문으로 확대하여 활용 기술에 대한 분석을 더욱 정확히 해야 할 것으로 판단된다. 본 연구의 결과는 향후 협력연구를 통하여 환경 분야의 환경매체에 대한 ICT 세부 기술의 활용의 기초자료로 사용될 것이라 기대한다.
또한 분석 자료의 범위를 본문으로 확대하여 활용 기술에 대한 분석을 더욱 정확히 해야 할 것으로 판단된다. 본 연구의 결과는 향후 협력연구를 통하여 환경 분야의 환경매체에 대한 ICT 세부 기술의 활용의 기초자료로 사용될 것이라 기대한다.
또한, 대규모 환경이슈를 해결하기 위한 직접적인 적용 사례가 부족한 상태이다. 이러한 상황을 개선하기 위하여 향후에는 최근 빈번하게 발생하는 환경 이슈(폭염, 한파 및 재난/재해)에 대한 선제적 대응을 위해서는 이를 구체적인 ICT 세부 기술이 활용되고, 실제 환경이슈 해결을 위한 사례 연구가 병행되어야 할 것으로 사료된다. 또한 환경 분야에 대한 ICT 세부 기술의 접목은 1개 환경 매체에 국한되지 않는다.
그러나 본 논문은 분석 범위가 국외를 포함하지 않은 국내논문에 한정되어 있으며, 분석 자료가 본문을 제외한 초록에 제한되어 있다는 한계를 가지고 있다. 향후 환경 분야의 ICT 기반 기술 활용 연구를 더욱 활성화되기 위해서는 국외 사례를 분석하고, 국내 실정에 맞추어 활용되어야 할 것으로 사료된다. 또한 분석 자료의 범위를 본문으로 확대하여 활용 기술에 대한 분석을 더욱 정확히 해야 할 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
텍스트 마이닝 기술은 어디에서 활용되어 왔는가?
2015). 이중 비정형데이터를 다루는 텍스트 마이닝 기술은 과거 지식관리시스템, 전자도서관, 정보 필터링, 정보검색엔진의 기능 강화, 전자상거래 등 다양한 분야에서 활용되어 왔다(Bae and Park, 2003). 2000년도 초반부터 KISTI (2000), Seol(2002), Bae and Park (2003)등을 통해 텍스트 마이닝을 이용한 기술정보 현황 분석이 확산되었다.
해양분야에서 사용되는 ICT는?
이러한 ICT는 다양한 분야에 응용되고 있으며, 산림 분야에서는 웨어러블 디바이스를 이용하여 ‘야간 산불 감시 및 대응’ 및 ‘산사태 발생 감시’ 등을 실시간 모니터링 연구가 진행 중이다. 해양 분야에서는 수온 및 산소량 등 환경에 민감한 양식어류를 관리하기 위해 양식장 환경 정보를 스마트폰으로 확인할 수 있는 ‘스마트양식장’ 구축 연구가 수행 중이다. 농업 분야에서는 개별 농작물의 발육 현황을 실시간 관리하는 ‘스마트팜’ 등에 대해서도 연구되고 있다.
텍스트 마이닝에서의 전처리 및 키위드 추출 중 전처리 과정이란?
다섯째, 텍스트 마이닝에서의 전처리 및 키위드 추출 중 전처리 과정은 일반적으로 자연어를 처리하여 말뭉치(Corpus)를 정의하고, 텍스트 저장소(Text repository)를 만들어 정형화된 데이터(Structured data)로 변환하는 과정이다(Jun, 2015). 따라서 본 단계에서는 검색 키워드를 바탕으로 수집된 자료를 시각화 및 분석에 용이한 데이터로 가공하는 과정을 거쳤다.
참고문헌 (17)
Assuncao, M.D., R.N. Calheiros, S. Bianchi, M. A.S. Netto, and R. Buyya, 2015, Big Data computing and clouds: Trends and future directions. Journal of Parallel and Distributed Computing, 79: 3-15.
Bae, K.Y., J.H. Park, J.S. Kim, and Y.S. Lee, 2013, Analysis of the abstracts of research articles in food releted to climate change using a textmining algorithm. Journal of the Korean Data & Information Science Society, 24(6): 1429-1437 (in Korean with English abstract).
Bae, S.J., and C.G. Park, 2003, Research on the possibility of application of technical information analysis of text mining method. Journal of Korea Technology Innovation Society, 5: 75-88 (in Korean with English abstract).
Berkhin, P., 2006, A survey of clustering data mining techniques, Grouping multidimensional data, Springer Berlin Heidelberg.
Hyun, Y.J., J.S. Kim, J.W. Jeong, S.M. Yun, and M.S. Lee, 2015, Text mining on internet-news regarding climate change and food. Journal of the Korean Data & Information Science Society, 26(2): 419-427 (in Korean with English abstract).
Institute for Information & communications Technology Promotion(IITP), 2016, http://www.iitp.kr/main.it.
Jun, S.H., 2015, A Big Data Preprocessing using Statistical Text Mining. Journal of Korean Institute of Intelligent Systems, 25(5): 470-476 (in Korean with English abstract).
Korea Forest Service, 2016, http://www.forest.go.kr.
Korea Institute of Science and Technology Information(KISTI), 2000, Establish of the technology analysis system using online DB searching, Soeul, Ministry of Trade, Industry and Energy
Lee, M.S., C.H. Lee, and J.H. Kim, 2014, Big Data Analysis on Demands for Environmental Policies, Seoul, Korea Environment Institute
Ministry of Science, ICT and Future planning, 2014, Rules of Information and Communications.Broadcast R&D management, Sejong: Ministry of Science, ICT and Future planning
National Digital Science Library(NDSL), 2016, http://www.ndsl.kr/index.do
National Disaster Management Research Institute, 2016, http://www.ndmi.go.kr/index.jsp
Park, C.R. and K.Y. Lee, 2014, A Disaster Management System Using Text Mining Based on Social Network Service. Journal of Information Technology and Management, 1(1): 47-48.
Park, H.C., 2011, The proposition of attributably pure confidence in association rule mining. Journal of the Korean Data & Information Science Society, 22(2): 235-243 (in Korean with English abstract).
Seol, S.S., 2002, The Advance of Technology Analysis. Journal of Korea Technology Innovation Society, 5(3): 260-276 (in Korean with English abstract).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.