$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

맵리듀스기반 워크플로우 빅-로그 클러스터링 기법
A MapReduce-Based Workflow BIG-Log Clustering Technique 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.20 no.1, 2019년, pp.87 - 96  

진민혁 (Dept. of Computer Science, Graduate School, Kyonggi Univ.) ,  김광훈 (Division of Computer Science and Engineering, Kyonggi Univ.)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 분산 워크플로우 실행 이벤트 로그를 수집하고 분류하기 위한 사전 처리 도구로서 맵-리듀스기반 클러스터링 기법을 제안한다. 특히 우리는 볼륨, 속도, 다양성, 진실성 및 가치와 같은 BIG 데이터의 5V 속성에 만족하고 잘 충족되어 있기 때문에 분산 워크플로우 실행 이벤트 로그를 특별히 워크플로우 빅-로그(Workflow BIG-Logs)라고 정의한다. 이 논문에서 개발하는 클러스터링 기술은워크플로우 빅-로그를 기반으로 하는 특정 워크플로 프로세스 마이닝 및 분석 알고리즘의 사전 처리 단계에 적용하기 위한 목적으로 고안된 것이다. 즉, 맵리듀스(Map-Reduce) 프레임워크워크플로우 빅-로그 처리 플랫폼으로 사용하고, IEEE XES 표준 데이터 형식을 지원하며, 결국 본 연구에서 개발중에 있는 구조적 정보제어넷기반 워크플로우 프로세스 마이닝 알고리즘인 ${\rho}$-알고리즘의 사전 처리 단계 전용으로 사용되도록 구현된 것이다. 보다 자세하게 말하자면, 워크플로우 빅-로그의 클러스터링 패턴은 단위업무액티버티 기반 클러스터링 패턴과 단위업무 수행자 기반 클러스터링 패턴으로 분류되는데, 특별히 단위업무 액티버티 패턴의 하나인 시간적 워크케이스 패턴과 그의 발생 건수를 재발견하는 맵리듀스 기반 클러스터링 알고리즘을 설계하고 구현하고자 한다. 마지막으로, 우리는 BPI 챌린지에서 공개한 워크플로우 실행 이벤트 로그 데이터세트에 대해 일련의 실험을 수행함으로써 제안된 클러스터링 기법의 기술적 타당성을 검증한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a MapReduce-supported clustering technique for collecting and classifying distributed workflow enactment event logs as a preprocessing tool. Especially, we would call the distributed workflow enactment event logs as Workflow BIG-Logs, because they are satisfied with as well...

주제어

표/그림 (4)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 후, 각 패턴-키 값에 대하여 Reduce() 함수를 적용하고 그 결과를 분산 파일시스템에 기록한다. 결과적으로, 본 논문에서는 이와 같은 원리에 의해 구동하는 시간적 워크케이스 기반의 워크플로우빅-로그 클러스터링 알고리즘을 구현하였으며, 이 구현된 알고리즘을 기반으로 실제 워크플로우 프로세스 모델의 실행이력 이벤트 로그 데이터세트에 대한 실험적 적용사례연구를 수행하고자 한다.
  • Kim [10]의 연구에서는 초대형 워크플로우 모델을 분산 워크플로우 엔진에 합리적으로 배포하기 위한 워크플로우 모델 배포 방법을 제안하였으며, 이는 특히 클라우드 컴퓨팅 환경에서 작동하는 분산 워크플로우 관리 시스템에서의 워크플로우 배포 방법론의 하나로 워크플로우 모델을 조각화하는 방법과 이를 통한 분산 워크플로우 엔진 아키텍처 및 시스템을 구축하는 방법으로 구성되어 있다. 결과적으로, 이와 같은 클라우드 컴퓨팅 기반의 분산 워크플로우 엔진들로부터 실행이력 즉 이벤트로그들을 수집하고, 수집된 초대형 이벤트로그들(워크플로우 빅-로그)을 특성에 따라 클러스터링하는 방법이 본 논문의 궁극적 연구목표이다.
  • 앞서 기술했듯이, 그리드와 클라우드 컴퓨팅 환경의 확산과 더불어 이를 기반으로 하는 ① 분산 워크플로우 관리 시스템[10][11][12]의 아키텍처와 시스템 연구개발, 이러한 분산 워크플로우 관리 시스템을 기반으로 하는 ② 초대형 조직과 워크플로우 프로세스 모델[10][13]의 증가, 그러한 초대형 조직을 기반으로 하는 초대형 분산 워크플로우 모델들과 그의 운용기간이 장기간 지속됨에 따라 수반되는 ③ 초대형 실행이력과 이벤트로그[6][7][8], 그 초대형 실행이력로그로부터 프로세스 모델 자체 뿐 만 아니라 조직의 자원관리 의사결정에 활용될 핵심적인 경영관리 지식을 발견 • 재발견하는 ④ 프로세스 마이닝 알고리즘과 분석 기법[1][2][3][5][9]들이 본 논문과의 주요 핵심연구기술과 직 • 간접적인 관련성이 매우 높은 연구개발 이슈들이다. 따라서, 본 장에서는 이러한 세부 관련연구들에 대한 연구개발 현황과 본 논문에서 제안하는 클러스터링 기법과의 관련성과 상호적용범위에 대한 사전조사결과를 기술하고자 한다.
  • 특히, 그림에서 나타내었듯이, 해당 조직의 지사로부터 분산 프로세스 모델의 실행이벤트 로그를 수집하여  사전처리를 하는 작업은 크기·생성속도·다양성·정확성·가치의 고수준 5V로 대표되는 빅 데이터의 기본속성을 만족시키므로, 본 논문에서는 이러한 대규모의 분산 프로세스 실행 이벤트 로그를 “워크플로우 빅-로그 (BIGLogs)”라고 정의한다. 또한, 이러한 워크플로우 빅-로그를 기반으로 하는 워크플로우 프로세스 마이닝 및 분석 알고리즘을 개발하기 위해서 반드시 요구되는 적절한 사전처리 기법을 제안하고 구현하는 것이 본 논문의 연구 목표이다. 즉, 본 논문에서 제안하는 사전처리 기법은 분산처리프레임워크인 하둡기반의 맵리듀스[11][12]를 통한 분산처리와 IEEE XES 표준 데이터포맷[8]에 따른 워크플로우 빅-로그을 기반으로 하며, 궁극적으로 대표적인 정보제어넷기반 워크플로우 프로세스 마이닝 알고리즘인 ρ -Algorithm[9]을 지원하기 위한 클러스터링 사전처리 기법이다.
  • 본 논문에서 제안한 맵리듀스기반 시간적 워크케이스 워크플로우 빅-로그 클러스터링 알고리즘과 그의 구현 그리고 실험적 적용사례연구의 궁극적 목표는 프로세스 마이닝 기술의 핵심요소인 프로세스 발견 및 재발견 알고즘을 개발하기 위한 데이터 사전처리 기법을 제안하는데 있다.
  • 본 논문에서는 그리드 및 클라우드 컴퓨텅 환경을 기반으로 하는 분산 워크플로우 관리 시스템[10]에서의 분산 워크플로우 실행로그로부터 워크플로우 프로세스 또는 그와 관련된 지식을 발견하고 재발견하는 프로세스 마이닝 알고리즘을 위한 사전처리 (preprocessing) 기법을 제안한다. 엔터프라이즈 비즈니스 프로세스 또는 워크플로우 모델과 그의 관리 시스템인 비피엠 기술의 등장과 발전이 거의 30여년 이상이 지속되면서 그 이 후 많은 조직들이 이 엔터프라이즈 업무프로세스 자동화 기술의 도입과 적용을 성공적으로 완성시켰고, 기술의 확산속도 역시 지속적으로 증가하고 있다.
  • 최근 IEEE에서는 XES[8]를 발표했으며, 이 XML기반의 이벤트 로그 표준 포맷의 목표는 정보 시스템 설계자에게 이벤트 로그 및 이벤트 스트림을 통해 시스템의 동작을 캡처할 수 있는 통합되고 확장 가능한 이벤트 로그 저장 방법론을 제공하는데 있다. 본 논문에서는 이 XES 이벤트 로그 포맷을 기반으로 하는 실제 데이터세트를 대상으로 실험을 수행하고자 한다. 현재까지 워크플로우 실행 이벤트 로그 데이터세트를 제공하고 관리하는 기관은 4TU.
  • 앞서 정의한 워크플로우 빅-로그에 대한 정형적 정의를 이론적 기반으로 하는 워크플로우 실행이력 이벤트 로그로부터 발견 또는 재발견할 수 있는 지식의 유형에  따라 다양한 형태의 프로세스기반 데이터를 구축해야 하고, 이를 위한 사전처리를 필요로 한다. 본 논문에서는 이러한 사전처리 방법의 하나로서 하둡기반의 맵리듀스 플랫폼을 적용하고자 한다. 즉, 워크플로우 빅-로그로부터 프로세스 모델을 재발견하는 알고리즘을 설계하는데 있어서 중요한 사전처리 단계의 하나인 각 이벤트 트레이스를 시간적 워크케이스로 변형시키고, 동일한 시간적 워크케이스들을 하나의 패턴으로 클러스터링시킨 후, 각 패턴의 발생 회수를 발견하는 단계를 바로 맵리듀스 플랫폼을 이용하여 수행하는 방법과 알고리즘을 제시하고자 한다.
  • Ahn[13]은 하나의 프로세스로부터 생성되는 인스턴스의 수가 수십만 또는 수백만 여개에 달하는 초대형 워크플로우 프로세스 모델을 효율적으로 실행시키기 위한 EJB기반 분산 워크플로우 아키텍처와 시스템을 설계하고 구현하였다. 본 논문에서는 이러한 초대형 분산 워크플로우 관리 시스템을 기반으로 백 여개의 액티버티들로 구성되는 프로세스가 수만 여개의 인스턴스들을 생성하고 백 여명의 수행자들의 의해 수행되는 초대형 워크플로우 프로세스 모델을 실행하고 처리하면서 저장시킨 초대형의 이벤트 로그로부터 프로세스 및 그의 관련 지식을 발견하고 재발견하는데 있어서 반드시 선행되어야 하는 대용량 데이터 사전처리 과정을 지원하는 효율적인 기법을 제안하는 것이 본 논문의 궁극적인 목표이다.
  • 본 논문에서는 초대형 워크플로우 프로세스 모델의 실행이력 이벤트 로그로부터 워크플로우 프로세스 모델을 발견 및 재발견 하기 위한 프로세스 마이닝 기술의 사전처리 기법의 하나인 맵리듀스기반 워크플로우 빅-로그 클러스터링 기법을 제안하였다. 특히, 초대형 워크플로우 프로세스 모델의 실행이력 이벤트 로그가 갖는 초대 형적 속성, 즉 조직내의 워크플로우 모델의 수, 각 워크 플로우 모델을 구성하는 액티버티의 수, 각 워크플로우 모델의 인스턴스 수 측면에서 빅 데이터의 5V 속성을 만족하고 있어, 이를 특별히 워크플로우 빅-로그로 정의하였으며, 이로부터 시간적 워크케이스 기반의 효율적 사전처리 방법으로 워크플로우 빅-로그 클러스터링 알고리 즘을 제안하였다.

가설 설정

  • 참고로, Map() 함수의 수행결과인 (pattern-key, count-values[]) 쌍의 리스트에서 count-value는 가중치 (weight) 개념을 통해 각 패턴-키 리스트 값에 대한 가치 수준을 달리 적용할 수 있다. 본 논문의 알고리즘에서는모든 패턴-키 리스트 값의 가중치는 1로 정하여 그 가치 수준이 동일하다고 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
맵-리듀스기반 클러스터링 사전처리 기법은 무엇인가? 또한, 이러한 워크플로우 빅-로그를 기반으로 하는 워크플로우 프로세스 마이닝 및 분석 알고리즘을 개발하기 위해서 반드시 요구되는 적절한 사전처리 기법을 제안하고 구현하는 것이 본 논문의 연구목표이다. 즉, 본 논문에서 제안하는 사전처리 기법은 분산처리프레임워크인 하둡기반의 맵리듀스[11][12]를 통한 분산처리와 IEEE XES 표준 데이터포맷[8]에 따른 워크플로우 빅-로그을 기반으로 하며, 궁극적으로 대표적인 정보제어넷기반 워크플로우 프로세스 마이닝 알고리즘인 ρ-Algorithm[9]을 지원하기 위한 클러스터링 사전처리 기법이다. 워크플로우 빅-로그의 클러스터링 유형을 액티버티 중심 클러스터링 유형과 수행자 중심 클러스터링 유형으로 구성하고, 각 유형에 따른 맵리듀스기반 클러스터링 알고리즘을 설계 및 구현하는 것이다.
엔터프라이즈 비즈니스 프로세스 또는 워크플로우 모델의 발전이 초래한 향후 문제점은? 엔터프라이즈 비즈니스 프로세스 또는 워크플로우 모델과 그의 관리 시스템인 비피엠 기술의 등장과 발전이 거의 30여년 이상이 지속되면서 그 이 후 많은 조직들이 이 엔터프라이즈 업무프로세스 자동화 기술의 도입과 적용을 성공적으로 완성시켰고, 기술의 확산속도 역시 지속적으로 증가하고 있다. 결과적으로, 프로세스 기반조직의 증가와 함께 업무프로세스 모델의 적용과 그의 실행 이벤트 로그 데이터 역시 급속히 증가하게 됨에 따라 기존의 업무프로세스 모델에 대한 재설계와 리엔지니어링의 필요성과 자원할당에 대한 재계획과 재배치의 긴급성이 대두되는 시점이 도래한 것이다. 즉 다시 말해서, 프로세스 리엔지니어링 기술과 프로세스 마이닝 기술에 대한 연구개발의 시대가 시작된 것이다.
워크플로우 빅-로그란 무엇인가? 본 논문에서는 분산 워크플로우 실행 이벤트 로그를 수집하고 분류하기 위한 사전 처리 도구로서 맵-리듀스기반 클러스터링 기법을 제안한다. 특히 우리는 볼륨, 속도, 다양성, 진실성 및 가치와 같은 BIG 데이터의 5V 속성에 만족하고 잘 충족되어 있기 때문에 분산 워크플로우 실행 이벤트 로그를 특별히 워크플로우 빅-로그(Workflow BIG-Logs)라고 정의한다. 이 논문에서 개발하는 클러스터링 기술은워크플로우 빅-로그를 기반으로 하는 특정 워크플로 프로세스 마이닝 및 분석 알고리즘의 사전 처리 단계에 적용하기 위한 목적으로 고안된 것이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. W. M. P. van der Aalst and A. J. M. M. Weijters, "Process mining: a research agenda," Journal of Computers in Industry, Vol. 53, Issue 3, 2004. 

  2. Kyoungsook Kim, et al., "A Conceptual Approach for Discovering Proportions of Disjunctive Routing Patterns in a Business Process Model," KSII TRANSACTIONS ON INTERNET AND INFORMATION SYSTEMS, Vol. 11, No. 2, pp. 1148-1161, 2017. 

  3. Kim, Kwanghoon and Ellis, Clarence A., " $\sigma$ -Algorithm: Structured Workflow Process Mining Through Amalgamating Temporal Workcases," The Proceedings of PAKDD2007, Advances in Knowledge Discovery and Data Mining, Lecture Notes in Artificial Intelligence, Vol. 4426, pp. 119-130, 2007. 

  4. BPI Challenge 2012, 2013, 2014, 2015, 2016, 2017, 2018, 4TU.Centre for Research Data, https://data.4tu.nl/repository/collection:event-logs-real. 

  5. Kim, Kwanghoon, "A XML-BasedWorkflow Event Logging Mechanism for Workflow Mining," The Proceedings of the International Workshop on APWeb, pages 132-136, 2006. 

  6. Minjae Park and Kwanghoon Kim, "XWELL: A XML-Based Workflow Event Logging Mechanism and Language for Workflow Mining Systems," Lecture Notes in Computer Science, Vol. 4707, pp. 900-909, 2007. 

  7. Michael zur Muehlen and Keith D. Swenson, "BPAF: A Standard for the Interchange of Process Analytics Data," Lecture Notes in Business Information Processing, Vol. 66, pp. 170-181, 2011. 

  8. IEEE, "IEEE Standard for eXtensible Event Stream (XES) for Achieving Interoperability in Event Logs and Event Streams," IEEE 1849-2016, 2016. https://doi.org/10.1109/IEEESTD.2016.7740858 

  9. Kim, Kyoungsook, Lee, Youngkoo, Ahn, Hyun., and Kim, Kwanghoon, "An Experimental Mining and Analytics for Discovering Proportional Process Patterns from Workflow Enactment Event Logs," Proceedings of the International Conference on Big Data Technologies and Applications, Exeter, England, Great Britain, Sept. 4rd-5th, 2018. 

  10. Kwanghoon Kim, "A Model-Driven Workflow Fragmentation Framework for Collaborative Workflow Architectures and Systems," Journal of Network and Computer Applications, Volume 35, Issue 1, pp. 97-110, January 2012. 

  11. K. Lee, Y. Lee, H. Choi, Y. F. Chung and B. Moon, "Parallel Data Processing with MapReduce: A Survey," SIGMOD Record, Vol. 40, No. 4, pp. 11-20, December 2011. 

  12. C. Goncalves, L. Assuncao, j. C. Cunha, "Flexible MapReduce Workflows for Cloud Data Analytics," International Journal of Grid and High Performance Computing, Vol. 5, No. 4, pp. 48-64, 2013. 

  13. Kim KH., Ahn HJ., "An EJB-Based Very Large Scale Workflow System and Its Performance Measurement," In: Fan W., Wu Z., Yang J. (eds) Advances in Web-Age Information Management. WAIM 2005, Lecture Notes in Computer Science, Vol. 3739. pp. 526-535, Springer, Berlin, Heidelberg, 2005. 

  14. Minjae Park, Hyun, Ahn, and Kwanghoon Pio Kim, "Workflow-supported social networks: Discovery, analyses, and system," Journal of Network and Computer Applications, Vol, 75, pp. 355-373, Nov. 2016. 

  15. K.-H. Lee, W.J. Park, K.S. Cho, W.Ryu, "The MapReduce framework for Large-scale Data Analysis: Overview and Research Trends," Electronics and telecommunications trends, vol. 28, No. 6, pp. 156-166, 2013. http://dx.doi.org/10.22648/ETRI.2013.J.280616 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로