보고서 정보
주관연구기관 |
국립생물자원관 National Institute of Biological Resources |
연구책임자 |
이지연
|
참여연구자 |
박경민
,
양병국
,
김경수
,
신이현
,
이윤경
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2019-12 |
과제시작연도 |
2019 |
주관부처 |
환경부 Ministry of Environment |
등록번호 |
TRKO202000007970 |
과제고유번호 |
1485016486 |
사업명 |
생물자원발굴및분류연구(R&D) |
DB 구축일자 |
2020-07-29
|
초록
▼
4. 연구결과
가. 생물다양성 정보 수집 : 5,588,246건 (수집기간 : ’90.01 ∼ ’19.10)
1) 블로그/카페 : 4,778,663건
2) 뉴스 데이터 : 530,878건
3) 실시간 이슈 데이터 : 33,078건
4) 연관검색어 데이터 : 145,627건
포털의 생물종 데이터 등록 건수를 검토해보면 2003년∼2004년 블로그/카페 서비스가 시작된 이후 지속적으로 생물종 관련 데이터가 증가하는 추세임
나. 분류군별 분석
수집된 생물종의 분류군의 경우 분석대상 분류군
4. 연구결과
가. 생물다양성 정보 수집 : 5,588,246건 (수집기간 : ’90.01 ∼ ’19.10)
1) 블로그/카페 : 4,778,663건
2) 뉴스 데이터 : 530,878건
3) 실시간 이슈 데이터 : 33,078건
4) 연관검색어 데이터 : 145,627건
포털의 생물종 데이터 등록 건수를 검토해보면 2003년∼2004년 블로그/카페 서비스가 시작된 이후 지속적으로 생물종 관련 데이터가 증가하는 추세임
나. 분류군별 분석
수집된 생물종의 분류군의 경우 분석대상 분류군(『곤충류, 관속식물류,무척추동물(곤충제외), 균류, 세균류, 돌말류』이 80%이상 차지)과는 상이하게 『관속식물류, 곤충류』2개 분류군이 80%이상을 차지하고 있어 국민들에게는 주위에 많이 분포되고 식용 등 실생활과 관련된 관속식물류 및 곤충류에 대한 관심이 많은 것으로 확인할 수 있다.
다. SNS의 유형별 클라우드 태그
1) 전체 : 학명, 한국, 분포, 식물, 분류, 일본, 나무, 버섯, 중국, 서식 등
2) 블로그/카페 : 학명, 식물, 분류, 분포, 한국, 일본, 버섯, 원산, 나무 등
3) 실시간이슈 : 고래회충, 학교, 급식, 인천, 사진, 크낙새, 멸종, 방송 등
4) 뉴스 : 식물, 멸종, 서식, 위기, 야생, 환경, 지역, 나무, 발견, 사진 등
라. 실시간 이슈어의 생물종
1) 고래회충, 금잔디, 크낙새, 카네이션, 혹돔, 자라, 승냥이, 진범, 개리, 담비, 왕골, 연가시 등이 장시간 실시간 이슈어로 노출됨(사회적인 큰 이슈나 방송에서 생물에 관련 정보들이 많고 식물류가 다수이며, 어류, 포유류 등이 많음)
마. 연관검색어 생물종
연관검색어에 대한 태그 클라우드 분석시 꽃, 효능, 방법, 성분, 가격, 영양 등 연구단어보다는 실생활에 필요한 일반적인 단어들이 많고 식용과 미식용 식물과의 차이를 보면 미식용은 생태, 복원, 꽃, 가격, 나무, 묘목, 전설, 열매 등의 내용이 많았다.
바. 텍스트 마이닝
word2vec 알고리즘을 이용하여 생물종에 대한 연관단어를 모델링하였고 웹상에서 확인할 수 있도록 개발하였다. 이를 통해 생물종에 대해서 대국민에 대한 연관단어들을 확인할 수 있다. 예로 카네이션에 대한 word2vec의 모델의 결과이다.
“어버이날,어르신,독거,부끄러운지,어버이,드리,국과,강경희,외롭,여민,말벗,한참,밀쳐놓,외로움,청상,정성,새겨진,전달,문국현,꽃다발,감긴다,대접,짜장면,수건,쓸어내렸,오려,큰아이,다과,밑반찬,연비누,케이크,한민아,공예품,차려,한구석,소외,상념,여위”
(출처 : 요약문 4p)
Abstract
▼
The National Institute of Biological Resources has discovered native species and researched for their preservation, pursuing specialized research on usefulness data, genetic data, etc.
However, it has not been researched what kind of data people who are not a specialist produce and desire.
In
The National Institute of Biological Resources has discovered native species and researched for their preservation, pursuing specialized research on usefulness data, genetic data, etc.
However, it has not been researched what kind of data people who are not a specialist produce and desire.
In this study, social-media big data were collected and text data mining was employed to look into biodiversity issues and analyze the technique.
With respect to a research method, social media data (blog, news, cafe,real-time issue word, related searched word) were collected in relation to 67,633 species limited under National Species List of KOREA, sub-species taxon, native species/foreign species of the list of the species managed by the National Institute of Biological Resources (approx. 192,000 listings, data as of Dec. 31 ‘18).
As a result of the research, a total of 5,588,246 cases were collected (collection period: Jan. 1990 ∼ Oct. 1919).
The number of species data registrations on social media was examined and, since the launching of blog/cafe services in ‘03~’04, data on specieshave continuously increased.
With respect to the groups of collected species, unlike the groups of targeted species under this study (『insect species, vascular plant, invertebrate (insects excluded), fungus, virus, and diatoms』account for over 80%), two groups of 『vascular plant and insect species』account forat least 80%, indicating that people are mostly interested in vascular plants and insects which are a lot around them and related to food and other daily activities.
A. Text mining-based cloud tags by social media type are as follows;.
1) Total: scientific name, Korea, distribution, plant, classification, Japan, tree, mushroom, China, inhabitation, etc.
2) Blog/cafe: scientific, plant, classification, distribution, Korea, Japan, mushroom, origin, tree, etc.
3) Real-time issue word: anisakis, school, school meal, Incheon, photograph, Korean woodpecker, extinction, broadcasting, etc.
4) News: plant, extinction, inhabitation, crisis, wildness, environment, area, tree, discovery, photograph, etc.
B. Species included in real-time issue words
1) anisakis, Korean lawn grass, Korean woodpecker, carnation, Asian sheepshead wrasse, terrapin, Asian wild dog, Aconitum pseudo-laeve Nakai, Chinese goose, marten, tall flat sedge and golden worm were exposed for a long term as real-time issue words (many of them were plants followed by fish and mammals, which were included in big social issues or many related broadcast data on species).
C. Speciees included in related searched words
Tag cloud on related searched words was examined and found to have more general words necessary for daily lives such as flower, efficacy, method, ingredient, price, nutrition, etc. rather than words for research. In terms of differences between esculent plants and non-esculent plants, the unedible plants had a lot of data searched on ecology, restoration, flower, price, tree, seeding, story, fruit, etc.
D. Text mining
Word2vec algorithm was employed to do the modeling of related words to species and developed to monitor on the web. By doing so, words related to species, which are searched by Korean people can be viewed.
The study can be useful and expected to bring benefits as follows;
Provision of species data in the portal, biodiversity in the Korean Peninsular
By providing information on real-time issue words in real time at the portal, biodiversity in the Korean Peninsular, it can contribute to activatingthe portal while prioritizing for species studies of the Institute.
Necessity for integrated data service in connection with other databases of the Institute
The Institute has been building many databases related to species for research projects. In connection with traditional knowledge-related information, for example, we can help improve the reliability of social media data and mutually exchange data on future traditional knowledgestudies. In other words, if mock buckthorn is shown up as a real-time issue word, how to eat, usable parts, etc. can be provided at the biodiversity portal and others to help resolve people’s need for data on species.
(출처 : Abstract 11p)
목차 Contents
- 표지 ... 1
- 요약문 ... 4
- 목차 ... 7
- 표목차 ... 8
- 그림목차 ... 9
- Abstract ... 11
- I. 서론 ... 14
- 1. 연구배경 및 목적 ... 14
- 2. 주요 연구내용 및 범위 ... 17
- 3. 연구의 내용 및 수행체계 ... 20
- II. 텍스트 마이닝을 이용한 생물다양성 ... 23
- 1. 텍스트 마이닝 정의 및 과정 ... 23
- 2. 텍스트 마이닝 방법론 ... 24
- 3. 유사 연구사례 ... 24
- 4. 결론 ... 25
- Ⅲ. 텍스트 분석 프레임워크 구축 ... 26
- 1. 텍스트 분석 프레임워크 구축 개요 ... 26
- 2. 텍스트 데이터 수집 및 저장 ... 26
- 3. 텍스트 데이터 분석 ... 34
- Ⅳ. 생물다양성 이슈 분석 ... 42
- 1. 웹 자원에서 분석한 생물다양성 이슈 분석 ... 43
- 2. 실시간 이슈에 나타난 생물다양성 이슈 분석 ... 55
- 3. 연관 검색어에 나타난 생물다양성 이슈 분석 ... 57
- 4. 생물자원 포털 ‘한반도의 생물다양성’에 나타난 이슈 분석 ... 58
- 5. 결론 ... 59
- Ⅴ. 종합 결과 및 고찰 ... 61
- Ⅵ. 참고문헌 ... 63
- 끝페이지 ... 66
※ AI-Helper는 부적절한 답변을 할 수 있습니다.