$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

트랜잭션 데이터 분석을 위한 확률 그래프 모형
Probabilistic Graphical Model for Transaction Data Analysis 원문보기

대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.42 no.4, 2016년, pp.249 - 255  

안길승 (한양대학교 산업경영공학과) ,  허선 (한양대학교 산업경영공학과)

Abstract AI-Helper 아이콘AI-Helper

Recently, transaction data is accumulated everywhere very rapidly. Association analysis methods are usually applied to analyze transaction data, but the methods have several problems. For example, these methods can only consider one-way relations among items and cannot reflect domain knowledge into ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이에 본 연구에서는 연관분석의 문제점을 보완할 수 있도록 대표적인 확률 그래프 모형인 마코프 네트워크(Markov network) 기반의 트랜잭션 분석 방법론을 제안한다. 그리고 본 연구에서 제안하는 방법론의 활용 방안과 성능 평가 방안에 대해 제시한다. 특히, 성능 평가는 비지도 학습(unsupervised learning)인 연관분석에서 불가능한 내용이다.
  • 본 연구는 트랜잭션 데이터를 분석하는데 주로 쓰여왔던 방법론인 연관분석이 가지고 있는 여러 문제를 확률 그래프 모형을 이용하여 해결하였다는 데 그 의의가 있다. 구체적으로, 일반화가 불가능하여 분류나 예측할 수 없다는 문제, 도메인 지식을 반영하기 어렵다는 문제, 특정 규칙을 일관되게 평가할 기준이 없다는 문제를 해결하였다.
  • 본 연구에서는 최근 다양한 분야에서 엄청난 속도로 축적되고 있는 트랜잭션 데이터를 분석하기 위해, 마코프 네트워크 기반의 방법론을 제안하였다. 해당 방법론에서 아이템 간의 유사도를 PMI를 이용하여 계산하여 유사도 행렬을 구성하였고, 이를 바탕으로 이웃과 클리크를 정의하였다.
  • 예를 들어, Han(2009)에서는 단백질의 기본 단위체인 도메인의 조합을 찾아내는데 연관분석을 적용하였다. 이 연구에서는 연관분석은 단방향의 규칙만 생성하기 때문에, 도메인 조합이 제한적일 수밖에 없다는 사실을 지적하였다. 그들은 이러한 문제를 해결하기 위해 all-confidence를 정의함으로써 양방향성의 규칙을 생성할 수 있는 연관분석을 수행하였다.
  • 이에 본 연구에서는 연관분석의 문제점을 보완할 수 있도록 대표적인 확률 그래프 모형인 마코프 네트워크(Markov network) 기반의 트랜잭션 분석 방법론을 제안한다. 그리고 본 연구에서 제안하는 방법론의 활용 방안과 성능 평가 방안에 대해 제시한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
세계 전자 상거래의 시장이 클 수 있었던 이유는? 트랜잭션 데이터(transaction data)란 은행에서의 고객의 입출금, 상점에서의 고객의 주문, 웹에서의 사용자의 클릭 등을 기록한 데이터를 말한다. 스마트폰의 활성화와 핀테크의 출현 등으로 세계 전자 상거래의 시장이 꾸준히 커가고 있으며(전자 상거래를 이용한 세계 B2C 거래액은 2013년 1조 2천억 달러, 2014년 1조 5천억 달러이며 2018년에는 2조 4천억 달러까지 증가할 전망(eMarketer, 2014)), 이로 인해 트랜잭션 데이터는 엄청난 속도로 쌓여갈 것이라 기대된다.
연관분석을 이용한 트랜잭션 데이터 분석에는 어떠한 문제가 있을 수 있는가? 그러나 연관분석을 이용한 트랜잭션 데이터 분석에는 몇 가지 문제가 있다. 예를 들어, 연관분석은 탐색적 자료 분석 방법이므로 수리적인 모형이 존재하지 않아 일반화가 불가능하다. 또한, 특정 분야의 도메인 지식(domain knowledge)을 반영하기 어려우며, 연관분석의 결과로 생성되는 규칙을 일관되게 평가할 만한 기준이 없다.
트랜잭션 데이터란? 트랜잭션 데이터(transaction data)란 은행에서의 고객의 입출금, 상점에서의 고객의 주문, 웹에서의 사용자의 클릭 등을 기록한 데이터를 말한다. 스마트폰의 활성화와 핀테크의 출현 등으로 세계 전자 상거래의 시장이 꾸준히 커가고 있으며(전자 상거래를 이용한 세계 B2C 거래액은 2013년 1조 2천억 달러, 2014년 1조 5천억 달러이며 2018년에는 2조 4천억 달러까지 증가할 전망(eMarketer, 2014)), 이로 인해 트랜잭션 데이터는 엄청난 속도로 쌓여갈 것이라 기대된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. Ahn, G.-S. and Hur, S. (2015), Prediction of New Customer's Degree of Loyalty of Internet Shopping Mall Using Continuous Conditional Random Field, Journal of Korean Institute of Industrial Engineers, 41(1), 10-16. 

  2. Bron, C. and Kerbosch, J. (1973), Algorithm 457 : Finding All Cliques of an undirected Graph, Communications of the ACM, 16(9), 575-577. 

  3. Chen, Y. and Welling, M. (2014), Bayesian structure learning for Markov random fields with a spike and slab prior, arXiv preprint, arXiv : 1408.2047. 

  4. eMarketer (2014), Worldwide E-commerces Sales to increase Nearly 20% in 2014. 

  5. Fuguang, B. (2015), A Novel Method of Interestingness Measures for Association Rules Mining Based on Profit, Discrete Dynamics in Nature and Society, 1-10. 

  6. Han, D.-S. (2009), Identification of Conserved Protein Domain Combination based on Association Rule. Journal of KIISE : Computing Practices and Letters, 15(5), 375-379. 

  7. Informationweek (2012), Catalina Marketing Aims For the Cutting Edge of 'Big Data.' 

  8. Jordan, M. I. (1999), Learning in Graphical Models, MIT Press, Massachusetts, USA. 

  9. Kim, N.-K. (2008), Effect of Market Basket Size on the Accuracy of Association Rule Measures, Asia Pacific Journal of Information Systems, 18(2), 95-114. 

  10. Kolaczyk, E. (2009), Statistical Analysis of Network Data, Springer, Boston, USA. 

  11. Park, D.-S. (2005), A Visualization on Data Mining for Association based on Web, Journal of Korean Institute of Information Technology, 3(4), 1-9. 

  12. Rajtmajer, S. M. (2012), Introduction to Markov Random Fields. 

  13. Son, J.-E., Kim, S.-B., Kim, H.-J., and Cho, S.-Z. (2015), Review and Analysis of Recommender Systems, Journal of Korean Institute of Industrial Engineers, 41(2), 185-208. 

  14. Turney, P. D. (2002), Thums up or thums down?: semantic orientation applied to unsupervised classification of reviews, In Proceedings of the 40th annual meeting on association for computational linguistics, 417-424. 

  15. Yang, S.-M. (2003), Discovery of Association Rules Based on items of Categorical Attribute and Quantitative Attribute, Proceedings of Korean Institute of Information Technology, 456-461. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로