$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

공간 데이터의 분포를 고려한 공간 엔트로피 기반의 의사결정 트리 기법
A Spatial Entropy based Decision Tree Method Considering Distribution of Spatial Data 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.13B no.7 = no.110, 2006년, pp.643 - 652  

장윤경 (인하대학교 대학원 컴퓨터정보공학과) ,  유병섭 (인하대학교 컴퓨터정보공학과) ,  이동욱 (인하대학교 컴퓨터정보공학과) ,  조숙경 (인하대학교 지능형GIS센터) ,  배해영 (인하대학교 대학원)

초록
AI-Helper 아이콘AI-Helper

의사결정 트리는 데이터 마이닝의 분류와 예측 작업에 주로 사용되는 기법 중의 하나이다. 실생활에서 공간의사결정을 위한 분류를 수행할 때에는 인접 데이터의 위치와 분산도를 고려하는 것이 매우 중요하다. 기존의 공간 의사결정 트리는 데이터의 공간적 특성을 표현하기 위해 각 객체간의 유클리디안 거리비율을 엔트로피로 반영하여 트리 구축 시 이용하였다. 그러나 이것은 공간 객체간의 거리 비율만을 설명할 뿐 공간 차원에서의 데이터 분산 정도와 각 분류된 클래스간의 연관관계 등은 파악할 수 없다는 한계점이 있었다 본 논문에서는 분산도와 차별도 기반의 공간 엔트로피를 이용하여 공간 데이터의 분포도를 반영하는 공간 의사결정 트리를 제안한다 분산도는 분류된 클래스 내의 공간 객체 분포도를 나타내고 차별도는 다른 클래스 내 공간 객체와의 분포도 및 관계성을 나타낸다. 이러한 분산도와 차별도의 비율을 엔트로피 계산 시 이용함으로써 비공간적 속성으로 분류된 각 클래스가 공간적으로는 얼마나 뚜렷하게 분류되는지 알 수 있게 한다. 제안 기법은 정확성과 계산 비용에 있어서 기존 기법보다 각각 약 18%, 11%의 성능 향상을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Decision trees are mainly used for the classification and prediction in data mining. The distribution of spatial data and relationships with their neighborhoods are very important when conducting classification for spatial data mining in the real world. Spatial decision trees in previous works have ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또한 의사결정 트리의 공간 속성을 엔트로피에 반영하기 위한 객체 간의 거리 계산 방식을 서술한다. 그리고 본 논문에서 분포도가 다른 클래스간의 비교를 위해 사용될 중심극한정리에 대해 알아본다.
  • 기존의 공간 의사결정 트리에 대해 논한다. 또한 의사결정 트리의 공간 속성을 엔트로피에 반영하기 위한 객체 간의 거리 계산 방식을 서술한다. 그리고 본 논문에서 분포도가 다른 클래스간의 비교를 위해 사용될 중심극한정리에 대해 알아본다.
  • 본 논문에서는 공간 데이터의 분포를 고려한 공간 엔트로피 기반의 의사결정 트리 기법을 제안한다. 제안 기법은 데이터의 표준편차와 표준정규분포를 이용하여 클래스의 중점과 공간 데이터 간의 분산 정도를 알아내어 비공간적으로 분류된 객체들이 공간적으로는 어떠한 연관성이 있는지를 나타낸다.
  • 본 논문에서는 표준편차행렬과 표본 정규분포에 기초하여 계산된 엔트로피 기반의 공간 의사결정 트리에 대해서 알아보았다. 제안 기법은 각 클래스의 중심점과의 표준편차행렬을 이용하여 클래스의 분산도를 측정하고 차별도는 각 클래스의 중점을 표본정규분포에 맞게 변형시킨 후 중점 간의 거리 비율로 나타내어진다.
  • 관계에 대한 정보까지 알아내는 것이 중요하다. 논문은 (그림 2)와 같이 공간 객체가 분포되어 있을 경우에 대하여 분산도와 차별도를 제시하고 공간 엔트로피와 정보 이득율을 구하는 과정을 설명한다.
  • 유용하다. 본 논문은 기존의 의사결정 트리에서 벗어나 공간 차원의 데이터의 거리를 의사결정 트리 구축에 이용한다는데에 의의가 있다. 그러나 두 객체간의 거리를 계산하는데 있어서 유클리디안 거리 계산 방법을 사용했기 때문에 실생활에 이용할 때에는 공간 객체의 분포와 그 관계를 설명하는데 있어서 한계점이 있었다.
  • 본 장에서는 데이터의 공간 차원에서의 위치와 비공간적 속성들이 서로 얼만큼 영향력이 있는지 알기 위해서 공간 차원에서의 클래스 별 분산도와 차별도를 계산한다. 분산도와 차별도는 다음과 같은 특성이 있다.
  • 본 장에서는 분류를 할 때에 공간 데이터를 고려하는 것이 얼마나 중요한지 알아보고 이러한 공간 속성을 고려하기 위한 기존의 공간 의사결정 트리에 대해 논한다. 또한 의사결정 트리의 공간 속성을 엔트로피에 반영하기 위한 객체 간의 거리 계산 방식을 서술한다.

가설 설정

  • [규칙 2]: 같은 클래스에 포함되어있는 객체가 가까이 있으면 공간 다양화 계수는 감소한다.
  • [규칙 E:다른 클래스에 포함되어있는 객체가 가까이 있으면 공간 다양화계수는 증가한다.
  • [특성 1]: 클래스 내의 객체들 간의 거리가 짧을수록 그 클래스는 분산도가 낮은 클래스이다.
  • [특성 2]: 한 클래스에 속하는 객체들이 중심점을 기준으로 퍼짐 정도가 작을 때 그 클래스는 분산도가낮은 클래스이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (15)

  1. Longley P. A., Goodchild M. F., Maguire D. J., Rhind D. W., Geographical Information Systems - Principies and Technical Issues, John Wiley & Sons, Inc., 1999 

  2. Nadjim Chelghoum, Karine Zeitouni,' Spatial Decision Tree-Application to Traffic Risk Analysis,' GeoI100 info Symposium, 2004 

  3. Claramunt C 2005 A Spatial form of diversity. In Mark D M and Cohn A (eds) Spatial Information Theory: Proceedings of COSIT 2005. Berlin, Springer Lecture Notes in Computer Science No 3693: 218 - 31 

  4. Martin Ester, Hans-Peter Kriegel, Jorg Sander, 'Spatial Data Mining: A Database Approach,' Proceedings of the Fifth Int. Symposium on Large Spatial Detabases, 1997 

  5. Miller, H. J. and Han, J., 2000, Discovering geographic Knowledge in data rich environments: a report on a specialist meeting, ACM SIGKDD Explorations. 1(2), 105-107 

  6. Han, J., Kamber, M., 'Data Mining: Concepts and Techniques,' Morgan Kaufman, 2001 

  7. Quinlan J R 1986 Introduction of decision tree. Machine Learing 1:81-106 

  8. Koperski, K., Han, J., and Stefanovic, N., 1998, An efficient two-step method for classification of spatial data, Proc. International Symposium on Spatial Data Handling(SDH '98), Vancou-ver, Canada, 45-54 

  9. Kaneko, K., Globally coupled chaos violates the law of large numbers but not the central-limit theorem, Physical Review Letters 65 (12), pp. 1391-1394, 1990 

  10. Xiang Li, Christophe Claramunt, 'A Spatial Entropy-Based Decision Tree for Classification of Geographical Information,' Transactions in GlS, 2006 

  11. Ester M, Kriegel H, and Sander J 1997 Spatial datamining: A (eds) Proceedings of the Fifth International Symposium on Large Spatial Databases (SSD'97) Berlin, Springer Leture Notes in Computer Science No 1262: 48-66 

  12. De Maesschalck R., Jouan-Rimbaud D., Massart D.L., 'The Mahalanobis distance,' Chemomerics and Intelligent Laboratory Systems, Vol, 50, No. 1, 2000 

  13. Pal N R and Chakraborty S 2001 Fuzzy rule extraction from ID3-type decision trees for real data. IEEE Transactions on Systems Man and Cybernetics Part B-Cybernetics 31: 745-54 

  14. Shekhar S, Zhang P, Huang Y, And Vatsavai R 2003 Trends in spatial data mining, In Kargupta H, Joshi A, Sivakumar K and Yesha Y (eds) Data Mining: Next Generation Challenges and Future Directions. London, AAAI Press: 357-801 

  15. Mitchell T M 1997 Machine Learning, New York, McGraw-Hill 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로