One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in...
One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compa
One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compa
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구의 목적은 실제 비즈니스 프로세스 구조에 바탕을 두어 시맨틱 프로세스를 표현하고, 효과적인 프로세스 검색을 위해 정확한 매칭방안의 결과를 확장하여 유사한 프로세스를 검색하는 유사도 기반의 검색 알고리즘을 제시하는 것이다. 이를 위해 MIT 프로세스 핸드북(Process Handbook) 프로젝트에서 구축해 놓은 기업들의 프로세스 데이터를 OWL로 표현하였으며, 표현된 비즈니스 프로세스 데이터를 SPARQL과 연계하여 검색하기 위한 유사도 알고리즘을 제시하고 이들의 검색성과를 비교한다.
제 Ⅳ장에서는 제 Ⅲ장에서 제시한 기법의 검색 성과를 알아보기 위해 수행한 실험과 실험데이터를 소개하며, 각 방안들의 검색성과를 비교한다. 결론으로 제Ⅴ장에서 실험 성과에 대해 토의하며 실험의 한계와 향후 연구방향에 대해 논의한다.
본 연구에서는 실제 기업 비즈니스 프로세스 데이터를 활용하여 실제의 의미가 포함된 시맨틱 프로세스 데이터를 생성하며, 이를 검색 실험에 활용하기 위한 실험 데이터 생성방안을 제시한다. 또한 생성된 비즈니스 프로세스 데이터의 속성에 기반을 둔 유사도 알고리즘을 고안하여 시맨틱 프로세스 검색 방안을 제시하고 이들간의 검색성과를 비교하였다.
본 연구에서는 MIT 프로세스 핸드북에 표현되어 있는 실제 비즈니스 프로세스와 이들의 구조에 바탕을 두어 시맨틱 프로세스를 표현하였다. 시맨틱 웹으로 표현된 자원을 검색하기 위한 SPARQL의 검색 결과를 확장하기 위하여 프로세스 간의 유사도에 기반을 둔 검색방안들을 제시하였으며, 다양한 유사도 척도에 기반을 둔 검색 결과 확장방안의 성과를 비교하였다.
가설 설정
연구의 한계로는 하나의 데이터 집합을 대상으로 유사도 알고리즘의 성과를 비교하였기 때문에 연구성과를 일반화하기에는 어려움이 따르며, 다른 분야의 데이터 집합을 활용하여 유사도 알고리즘의 성과를 비교하여야 할 필요가 있다. 또한 생성된 실험 데이터를 가지고 성과를 비교하는 검색실험의 기본 가정은 다른 프로세스들보다 목표프로세스의 돌연변이들이 목표프로세스와 가장 유사하리라는 것이다. 하지만 프로세스에 따라서는 다른 프로세스들이 더욱 유사할 수 있으며, 돌연변이 정도에 따라서 돌연변이 프로세스보다 목표 프로세스에 더욱 유사한 프로세스가 존재할 수 있다.
제안 방법
본 연구의 목적은 실제 비즈니스 프로세스 구조에 바탕을 두어 시맨틱 프로세스를 표현하고, 효과적인 프로세스 검색을 위해 정확한 매칭방안의 결과를 확장하여 유사한 프로세스를 검색하는 유사도 기반의 검색 알고리즘을 제시하는 것이다. 이를 위해 MIT 프로세스 핸드북(Process Handbook) 프로젝트에서 구축해 놓은 기업들의 프로세스 데이터를 OWL로 표현하였으며, 표현된 비즈니스 프로세스 데이터를 SPARQL과 연계하여 검색하기 위한 유사도 알고리즘을 제시하고 이들의 검색성과를 비교한다. 활용한 유사도 알고리즘들은 프로세스의 구조와 프로세스가 가지고 있는 속성들의 설명이나 이름을 활용하는 기본적인 방안들을 조합하여 생성하였다.
, 2005], 키워드 기반 유사도 알고리즘을 PQL과 보완 적용하여 검색 성과를 높일 수 있었다. 검색실험에는 MIT 프로세스 핸드북 데이터를 활용하였으며, 실험에 사용된 프로세스들 간의 유사도를 참여 연구진들이 주관적으로 정의하여 질의에 대한 응답집단을 생성하였다.
본 연구에서는 실제 기업 비즈니스 프로세스 데이터를 활용하여 실제의 의미가 포함된 시맨틱 프로세스 데이터를 생성하며, 이를 검색 실험에 활용하기 위한 실험 데이터 생성방안을 제시한다. 또한 생성된 비즈니스 프로세스 데이터의 속성에 기반을 둔 유사도 알고리즘을 고안하여 시맨틱 프로세스 검색 방안을 제시하고 이들간의 검색성과를 비교하였다.
프로세스 핸드북에 정의된 구조와 개념들에 바탕을 두어 프로세스 핸드북 온톨로지를 설계하였다. <그림 4>가 설계된 프로세스 핸드북 온톨로지의 개요이며, 온톨로지에 포함된 개체들과 기본적인 연관관계가 표현되어 있다.
실험 데이터의 검색을 위해 일반적으로 활용할 수 있는 기본 유사도 알고리즘과 실험 데이터의 특성을 고려하여 설계된 유사도 알고리즘을 검색 실험에 활용하였으며, 에 활용된 알고리즘을 정리하였다.
<표 1>은 각 클래스들이 가지고 있는 계층과 관계(relation)에 대한 설명이다. 설계된 프로세스 핸드북 온톨로지를 메타모델로 삼아, 프로세스 핸드북에 축적된 모든 비즈니스 프로세스들을 OWL로 표현하였다.4) 프로세스 핸드북에 표현되어 있는 프로세스(process), 번들(bundle), 목적(goal), 예외(exception), 자원(resource), 연관관계(dependency) 그리고 비교테이블(Trade-off) 등 모든 개체들을 OWL 클래스로 표현하였다.
전자는 시맨틱 프로세스가 포함하고 있는 문자열을 비교하여 유사도를 계산한다면, 후자는 시맨틱 프로세스가 포함하고 있는 개체가 얼마나 중복되는지를 파악하여 유사도를 계산하기 때문에 시맨틱 프로세스의 구조정보를 고려하는 것이라고 볼 수 있다. 설계된 방안들은 기본 방안들을 조합하여 활용하거나 프로세스가 여러 유형의 개체들을 포함하고 있기 때문에 이를 고려한 가중치 계산방안이 활용되었다.
관련연구에서 언급한 것처럼 현재까지는 연구진들에 의해 분류되거나 인공적으로 생성된 의미 없는 프로세스들을 가지고 실험을 수행하였다. 본 연구에서는 의미가 보존되면서(semanticpreserving) 프로세스를 변형(process mutation) 시키는 방안을 통해 실험 집합을 구성하는 방안을 활용하였다. 우리는 프로세스 핸드북에서 특수화나 일반화 관계가 구성되어 있는 프로세스들 중에서 80개의 프로세스를 선정하여서 이를 목표집합(target set)으로 삼았다.
총 27,953개의 프로세스와 80개의 목표집합 프로세스의 돌연변이 1,600개를 대상으로 <표 2>에 제시한 유사도 알고리즘을 활용하여 각 목표집합에 속한 프로세스와의 유사도를 계산하였다. 각 유사도 알고리즘 별로 유사도가 가장 높은 프로세스부터 100번째로 높은 프로세스까지를 점검하면서 이 중에 몇 개의 돌연변이 프로세스가 포함되어 있는지를 파악하였다.
성과 측정기준으로는 정확도(precision), 상기도(recall), 조화평균(Harmonic mean)척도를 활용하여 각 척도 별로 측정하였다. 정확도는 (검색된 데이터 중 관련 데이터 수/검색된 데이터 수)로 계산되며, 상기도는 (검색된 데이터 중 관련데이터 수/전체 관련 데이터 수)로 계산된다.
정확한 매칭방안에 기반을 두고 있는 SPARQL의 검색 결과를 확장하기 위하여 우선 SPARQL로 검색된 프로세스들을 찾고, 각 프로세스와 유사하지만 정확한 매칭방안에 의해서는 검색되지 않는 다른 프로세스들을 찾는 방식을 활용하였다. 유사한 프로세스를 찾기 위하여 활용된 프로세스의 정보는 프로세스 계층정보 및 속성정보와 같은 구조정보와 프로세스 이름, 설명과 같은 속성이 가지고 있는 값을 활용하였다.
유사한 프로세스를 찾기 위하여 활용된 프로세스의 정보는 프로세스 계층정보 및 속성정보와 같은 구조정보와 프로세스 이름, 설명과 같은 속성이 가지고 있는 값을 활용하였다. 일반적으로 검색에 활용되는 기본방안들과 이들을 혼합하여 활용하는 방안들을 설계하였으며, iSPARQL을 통하여 각 방안들의 검색 성과를 비교하였다.
본 연구에서는 MIT 프로세스 핸드북에 표현되어 있는 실제 비즈니스 프로세스와 이들의 구조에 바탕을 두어 시맨틱 프로세스를 표현하였다. 시맨틱 웹으로 표현된 자원을 검색하기 위한 SPARQL의 검색 결과를 확장하기 위하여 프로세스 간의 유사도에 기반을 둔 검색방안들을 제시하였으며, 다양한 유사도 척도에 기반을 둔 검색 결과 확장방안의 성과를 비교하였다. 또한, 유사도 척도를 활용하여 시맨틱 프로세스를 검색하기 위한 데이터 집합을 생성하기 위하여 의미를 보존한 상태로 구조와 내용을 변이시키는 방안을 통하여 목표 프로세스의 돌연변이들을 생성하였다.
시맨틱 웹으로 표현된 자원을 검색하기 위한 SPARQL의 검색 결과를 확장하기 위하여 프로세스 간의 유사도에 기반을 둔 검색방안들을 제시하였으며, 다양한 유사도 척도에 기반을 둔 검색 결과 확장방안의 성과를 비교하였다. 또한, 유사도 척도를 활용하여 시맨틱 프로세스를 검색하기 위한 데이터 집합을 생성하기 위하여 의미를 보존한 상태로 구조와 내용을 변이시키는 방안을 통하여 목표 프로세스의 돌연변이들을 생성하였다. 이를 통해 프로세스의 다양한 요소인 프로세스 구조와 설명을 모두 고려하는 유사도 척도를 활용하는 것이 의미상 가까운 프로세스와 구조가 가까운 프로세스를 검색하기 위한 유용한 유사도 척도가 될 수 있다는 것을 보였다.
이를 통해 프로세스의 다양한 요소인 프로세스 구조와 설명을 모두 고려하는 유사도 척도를 활용하는 것이 의미상 가까운 프로세스와 구조가 가까운 프로세스를 검색하기 위한 유용한 유사도 척도가 될 수 있다는 것을 보였다. 프로세스 검색 실험에 있어서도 정확도나 상기도에 기반을 둔 검색(retrieval)기반 성과와 유사도 순위 상관관계를 고려하는 실험을 수행하여 다양한 관점에서 유사도를 평가할 수 있도록 하였다.
총 27,953개의 프로세스와 80개의 목표집합 프로세스의 돌연변이 1,600개를 대상으로 에 제시한 유사도 알고리즘을 활용하여 각 목표집합에 속한 프로세스와의 유사도를 계산하였다.
대상 데이터
본 연구에서는 의미가 보존되면서(semanticpreserving) 프로세스를 변형(process mutation) 시키는 방안을 통해 실험 집합을 구성하는 방안을 활용하였다. 우리는 프로세스 핸드북에서 특수화나 일반화 관계가 구성되어 있는 프로세스들 중에서 80개의 프로세스를 선정하여서 이를 목표집합(target set)으로 삼았다. 목표집합에 속한 프로세스마다 구조적으로는 상이하지만 의미적(semantic)으로는 동일한 20개의 돌연변이 프로세스를 생성하였다.
이론/모형
, 2005]이나 웹 서비스의 입력 변수와 출력 결과를 바탕으로 두 서비스 간의 매칭 정도를 계산하는 방안들이 활용되고 있다[Ouzzani and Bouguettaya, 2004]. 또한 로직 추론을 근간으로 하고 변수들 간의 유사도를 계산하여 로직 추론을 보완하는 OWLS-MX방안[Klusch et al., 2005; Klusch et al., 2006]은 loss-of-information, extended Jaccard, Cosine, Jensen-Shannon information divergence와 같은 유사도 알고리즘을 활용하였다.
시맨틱 프로세스 간의 유사도를 계산하기 위하여 iSPARQL 프레임워크[Kiefer et al., 2007]를 활용하였다. iSPARQL은 SPARQL에 바탕을 두어 유사도 알고리즘을 통해 검색 결과를 확장할 수 있도록 구현된 검색엔진이다.
동일한 수만큼 변형된 프로세스와 동일한 유사도 값을 가진 프로세스들이 있기 때문에 동일 순위(tie)를 고려한 순위상관계수인 Kendall’s tau b 척도를 활용하여 유사도 알고리즘에 의한 유사도 순위와 프로세스 변형정도간의 상관관계를 측정하였으며, 그 결과는 와 같다.
성능/효과
[2004]에서는 온톨로지를 활용하여 프로세스들 간의 유사도를 구해 질의어와 관련된 프로세스를 찾았다. 프로세스들 간의 일반화, 특수화 관계를 하나의 노드로 간주하여 전체 프로세스 온톨로지에서 두 개의 프로세스 간의 거리가 얼마나 되는지에 기반을 둔 온톨로지 기반 유사도와 정보이론 기반, Levenshtein edit distance[Bernstein et al., 2005], 키워드 기반 유사도 알고리즘을 PQL과 보완 적용하여 검색 성과를 높일 수 있었다. 검색실험에는 MIT 프로세스 핸드북 데이터를 활용하였으며, 실험에 사용된 프로세스들 간의 유사도를 참여 연구진들이 주관적으로 정의하여 질의에 대한 응답집단을 생성하였다.
설계된 프로세스 핸드북 온톨로지를 메타모델로 삼아, 프로세스 핸드북에 축적된 모든 비즈니스 프로세스들을 OWL로 표현하였다.4) 프로세스 핸드북에 표현되어 있는 프로세스(process), 번들(bundle), 목적(goal), 예외(exception), 자원(resource), 연관관계(dependency) 그리고 비교테이블(Trade-off) 등 모든 개체들을 OWL 클래스로 표현하였다.
그 다음은 E2232라는 파트를 삭제하는 것이다. 이 예제에서는 14개의 변형 방안들이 적용되었으며, 변형방안 적용 횟수가 변형 정도를 나타낸다. E-TJ78H4-X 프로세스들은 돌연변이 생성과정에서 파생되는 프로세스들이다.
평균 정확도는 Tree edit 거리를 활용한 5번째 방안이 가장 낮았으며, 1번째 방안인 TFIDF와 Levenshtein edit distance와 TFIDF를 조합한 6번째 방안이 가장 높은 정확도를 보였다. 프로세스의 파트를 이용한 Jaccard 유사도, Dice 유사도를 활용하는 방안들 보다는 프로세스에 대한 설명에 근거한 Levenshtein edit distance를 활용하는 1, 2, 6, 9번째 방안이 전반적으로 높은 정확도를 보였다.
평균 정확도는 Tree edit 거리를 활용한 5번째 방안이 가장 낮았으며, 1번째 방안인 TFIDF와 Levenshtein edit distance와 TFIDF를 조합한 6번째 방안이 가장 높은 정확도를 보였다. 프로세스의 파트를 이용한 Jaccard 유사도, Dice 유사도를 활용하는 방안들 보다는 프로세스에 대한 설명에 근거한 Levenshtein edit distance를 활용하는 1, 2, 6, 9번째 방안이 전반적으로 높은 정확도를 보였다. 이는 프로세스 돌연변이가 주로 프로세스 구조를 변화시키는 경우가 많으며 이름이나 설명부분을 변화시키는 것이 적기 때문인 것으로 보인다.
이는 프로세스 돌연변이가 주로 프로세스 구조를 변화시키는 경우가 많으며 이름이나 설명부분을 변화시키는 것이 적기 때문인 것으로 보인다. 그러나 이러한 프로세스 구조와 설명 부분을 모두 고려하는 9번째 방안이 비교적 높은 정확도를 보였다.
실험방안별 상기도를 비교하여 정리한 <그림 9>에서도 평균 정확도를 비교한 <그림 7>과 유사한 결과를 얻었다. Tree edit 거리를 활용한 5번째 방안이 가장 낮은 값을 나타냈으며, TFIDF를 활용하는 1, 6, 9번째 방안이 높은 상기도를 보였다.
프로세스의 이름과 설명부분의 유사도를 고려하는 1과 6번째 방안이 가장 높은 값을 나타냈으며, Tree edit 거리 척도를 활용한 5번째 방안이 가장 낮은 값을 보였다. 프로세스 구조와 설명을 모두 고려하는 9번째 방안도 좋은 성과를 보였다.
프로세스의 이름과 설명부분의 유사도를 고려하는 1과 6번째 방안이 가장 높은 값을 나타냈으며, Tree edit 거리 척도를 활용한 5번째 방안이 가장 낮은 값을 보였다. 프로세스 구조와 설명을 모두 고려하는 9번째 방안도 좋은 성과를 보였다.
조화평균 지표와 다르게 돌연변이 정도와 유사도 순위 간의 관계에서는 프로세스 구조의 다양한 부분의 유사도를 평가하는 7, 8번째 방안이 그렇지 않은 다른 방안들에 비해서 높은 순위상관계수 값을 나타냈으며, 프로세스 구조 간의 유사도를 고려하는 3, 4번째 알고리즘도 7, 8번째 방안과 거의 유사한 결과를 나타내었다. 프로세스의 이름과 설명간의 유사도를 고려하는 1, 2, 5, 6번 방안은 상대적으로 낮은 성과를 보였으며, 프로세스 구조와 설명을 모두 고려하는 9번째 방안은 두 가지 방안유형들의 중간값을 보였다.
검색성과를 비교하는 정확도, 상기도, 조화평균 척도에서는 프로세스의 속성값을 활용하는 방안들이 좋은 성과를 보였으며, 돌연변이 프로세스의 돌연변이 정도와 유사도 순위 간의 상관관계를 측정한 실험에서는 프로세스의 구조정보를 활용한 방안들이 높은 성과를 보였다. 실험데이터인 돌연변이 프로세스를 만드는 과정에서 속성값을 변형시키는 정도보다 구조정보를 변형시키는 경우가 더 많이 활용되었기 때문에 유사도를 측정함에 있어서는 비교적 덜 변형된 속성값 정보를 활용하는 것이 좋은 성과를 보였다고 판단된다.
검색성과를 비교하는 정확도, 상기도, 조화평균 척도에서는 프로세스의 속성값을 활용하는 방안들이 좋은 성과를 보였으며, 돌연변이 프로세스의 돌연변이 정도와 유사도 순위 간의 상관관계를 측정한 실험에서는 프로세스의 구조정보를 활용한 방안들이 높은 성과를 보였다. 실험데이터인 돌연변이 프로세스를 만드는 과정에서 속성값을 변형시키는 정도보다 구조정보를 변형시키는 경우가 더 많이 활용되었기 때문에 유사도를 측정함에 있어서는 비교적 덜 변형된 속성값 정보를 활용하는 것이 좋은 성과를 보였다고 판단된다. 또한, 속성값 정보와 구조정보를 동시에 고려하는 유사도 척도인 9번째 방안이 검색성과와 돌연변이 정도 측정에서 모두 좋은 값을 보였다.
실험데이터인 돌연변이 프로세스를 만드는 과정에서 속성값을 변형시키는 정도보다 구조정보를 변형시키는 경우가 더 많이 활용되었기 때문에 유사도를 측정함에 있어서는 비교적 덜 변형된 속성값 정보를 활용하는 것이 좋은 성과를 보였다고 판단된다. 또한, 속성값 정보와 구조정보를 동시에 고려하는 유사도 척도인 9번째 방안이 검색성과와 돌연변이 정도 측정에서 모두 좋은 값을 보였다. 이는 프로세스의 유사도를 바라보는 측면이 다양할 수 있기 때문에, 다양한 측면을 고려한 유사도 알고리즘을 설계하는 것이 유사 프로세스 검색에서 유용하게 활용될 수 있음을 보였다고 할 수 있다.
또한, 유사도 척도를 활용하여 시맨틱 프로세스를 검색하기 위한 데이터 집합을 생성하기 위하여 의미를 보존한 상태로 구조와 내용을 변이시키는 방안을 통하여 목표 프로세스의 돌연변이들을 생성하였다. 이를 통해 프로세스의 다양한 요소인 프로세스 구조와 설명을 모두 고려하는 유사도 척도를 활용하는 것이 의미상 가까운 프로세스와 구조가 가까운 프로세스를 검색하기 위한 유용한 유사도 척도가 될 수 있다는 것을 보였다. 프로세스 검색 실험에 있어서도 정확도나 상기도에 기반을 둔 검색(retrieval)기반 성과와 유사도 순위 상관관계를 고려하는 실험을 수행하여 다양한 관점에서 유사도를 평가할 수 있도록 하였다.
후속연구
이러한 연구결과는 기업들이 비즈니스 프로세스를 활용하는 웹 서비스를 찾거나(matchmaking), 기업의 비즈니스 프로세스와 연계될 수 있는 서비스를 찾아내는 데에 활용될 수 있을 것이다. 비즈니스 프로세스가 시맨틱 웹 언어로 표현된 경우에는 이에 포함된 설명정보뿐만이 아니라 구조정보도 유사도를 평가하는데 중요한 역할을 하므로, 연계할 비즈니스 프로세스를 찾는 경우에 설명정보와 구조정보를 모두 활용하는 것이 필요하다.
연구의 한계로는 하나의 데이터 집합을 대상으로 유사도 알고리즘의 성과를 비교하였기 때문에 연구성과를 일반화하기에는 어려움이 따르며, 다른 분야의 데이터 집합을 활용하여 유사도 알고리즘의 성과를 비교하여야 할 필요가 있다. 또한 생성된 실험 데이터를 가지고 성과를 비교하는 검색실험의 기본 가정은 다른 프로세스들보다 목표프로세스의 돌연변이들이 목표프로세스와 가장 유사하리라는 것이다.
다른 프로세스들을 고려한 좀 더 엄밀한 실험 데이터 생성이 필요하다. 향후 ㅎ연구방향으로는 다양한 유사도 척도에서 얻어지는 유사도 결과들을 활용하는 것이 하나의 유사도 척도를 활용하는 방안보다 더 좋은 검색 성과를 얻을 수 있을 것이다. 따라서 여러 알고리즘에 의한 유사도 결과를 동시에 고려할 수 있는 검색방안에 대한 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
김학래와 김홍기가 정의한 시맨틱 웹이란?
데이터와 서비스가 의미를 포함하게 되어 조직간 응용프로그램의 연계와 자동화를 활성화할 수 있을 것이라는 시맨틱 웹의 목표를 이루기 위해 학계와 산업계에서 많은 노력과 연구들이 이루어져 왔다. 김학래와 김홍기(2003)은 시맨틱 웹을 “컴퓨터가 정보의 의미를 이해하고 처리할 수 있는 웹”으로 정의하고 있으며, 웹 자원에 대한 메타정보를 기계가 읽고 처리함으로써 웹에 있는 방대한 정보와 지식을 연결하고 활용할 수 있게 되는 것을 뜻한다[Davies et al., 2003; 김학래와 김홍기, 2003].
질의언어에는 무엇이 있는가?
시맨틱 웹 자원의 검색을 위해서는 정확한 매칭기법에 기반을 둔 RQL, RDQL, SPARQL 등과 같은 질의언어들이 제시되어 왔다[Haase et al., 2004].
정확한 매칭기법에 기반을 둔 질의언어는 무엇을 파악하는데 중점을 두고 있는가?
, 2004]. 이들은 RDF기반으로 표현된 시맨틱 웹 자원이 그래프로 표현될 수 있다는 것을 활용하여, 질의어가 포함된 그래프 구조를 파악하는 데에 중점을 두고 있다. 정확한 매칭 기법에 기반을 두고 있기 때문에 정확한 검색결과를 가져올 수는 있으나, 유사한 자원을 파악하거나 관련 정보를 활용하여 검색성과를 높이는 것은 어려웠다.
참고문헌 (31)
김학래, 김홍기, "시맨틱 웹 기반의 e-비즈니스 상호운용성," 한국경영정보학회 춘계학술대회, 2002, pp. 311-319
김학래, 김홍기, "유비쿼터스 서비스를 위한 시맨틱 웹 기술," 한국경영정보학회 추계학술대회, 2003, pp. 31-35
김형도, 김종우, "UML기반의 기업간 비즈니스 프로세스 명세 모델링," Journal of Information Technology Applications & Management, Vol. 13, No. 4, 2006, pp. 71-88
Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, ACM Press, New York, 1999
Bernstein, A., Kaufmann, E., Buerki, C., and Klein, M., "Object Simialrity in Ontologies: A Foundation for Business Intelligence Systems and High-Performance Retrieval," Proceedings of Twenty-Fifth International Conference on Information Systems, 2004, pp. 741-756
Bernstein, A., Kaufmann, E., Kiefer, C., and Burki, C., SimPack: A Generic Java Library for Similarity Measures in Ontologies, Technical Report, Department of Informatics, University of Zurich, 2005
Bernstein, A. and Kiefer, C., "Imprecise RDQL: Towards Generic Retrieval in Ontologies Using Similarity Joins," Proceedings of SAC'06, Dijon, France, 2006, ACM, pp. 1684-1689
Bernstein, A. and Klein, M., "Towards High-Precision Service Retrieval," Proceedings of the 1st International Semantic Web Conference on The Semantic Web (ISWC'02), London, UK, 2002, Springer-Verlag, pp. 84-101
Bianchini, D., Antonellis, V.D., Pernici, B., and Plebani, P., "Ontology-based methodology for e-service discovery," Information Systems, Vol. 31, 2006, pp. 361-380
Davies, J., Fensel, D. and Harmelen, F.V., ed., Towards the Semantic Web: ontologydriven knowledge management, West Sussex, England: John Wiley and Sons Ltd, 2003
Ehrig, M., Koschmider, A. and Oberweis, A., "Measuring Similarity between Semantic Business Process Models," Proceedings of the 4th Asia-Pacific Conference on Conceptual Modelling (APCCM'07), Ballarat, Victoria, Australia, 2007, pp. 71-80
Haase, P., Broekstra, J., Eberhart, A. and Volz, R., "A Comparison of RDF Query Languages," Proceedings of ISWC, 2004, pp. 502-517
Hau, J., Lee, W., and Darlington, J., "A Semantic Similarity Measure for Semantic Web Services," Proceedings of WWW2005, Chiba, Japan, 2005
Hollenstein, S., XQuery Similarity Joins, University of Zurich, 2005
Kiefer, C., Bernstein, A., and Stocker, M., "The Fundamentals of iSPARQL-A Virtual Triple Approach For Similarity-Based Semantic Web Tasks," Proceedings of Proceedings of the 6th International Semantic Web Conference (ISWC), 2007
Klein, M. and Dellarocas, C., "Designing Robust Business Processes," in Thomas W. Malone, Kevin Crowston, and Gerorge A. Herman, ed., Organizing Business Knowledge: The MIT Process Handbook, MIT Press, Cambridge, Massachusetts, USA, 2003, pp. 423-439
Klein, M. and Petti, C., "A Handbook-Based Methodology for Redesigning Business Processes," Knowledge and Process Management, Vol. 13, No. 2, 2006, pp. 108-119
Klusch, M., Fries, B., Khalid, M. and Sycara, K., "OWLS-MX: Hybrid OWL-S Service Matchmaking," Proceedings of AAAI '05, 2005
Klusch, M., Fries, B. and Sycara, K., "Automated Semantic Web Service Discovery with OWLS-MX," Proceedings of AAMAS 2006, Hakodate, Hokkaido, Japan, 2006
Levenshtein, V.I., "Binary Codes Capable of Correcting Deletions, Insertions and Reversals," Soviet Physics Doklady, Vol. 10, 1966, pp. 707-710
Lin, D., "An Information-Theoretic Definition of Similarity," Proceedings of the Fifth International Conference on Machine Learning (ICML '98), Madison, WI, 1998
Malone, T.W., Crowston, K. and Herman, G., ed., Orgznizing Business Knoweldge: The MIT Process Handbook, Cambridge, Massachusetts, USA: MIT Press, 2003
Malone, T.W., Crowston, K., Lee, J. and Pentlad, B., "Tools for inventing organizations: Toward a handbook of organizational processes," Management Science, Vol. 45, No. 3, 1999, pp. 425-443
Ouzzani, M. and Bouguettaya, A., "Efficient Access to Web Services," IEEE Internet Computing, Vol. 8, No. 2, 2004, pp. 34-44
Resnik, P., "Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language," Journal of Artificial Intelligence Research, Vol. 11, 1999, pp. 95-130
Sager, T., Bernstein, A., Pinzger, M. and Kiefer, C., "Detecting Similar Java Classes Using Tree Algorithms," Proceedings of the 2006 International Workshop on Mining Software Repositories(MSR'06), Shanghai, China, 2006
Taivalsaari, A., "On the notion of inheritance," ACM Computing Surveys, Vol. 28, No. 3, 1996, pp. 438-479
Valiente, G., Algorithms on Trees and Graphs, Springer-Verlag, Berlin, 2002
Van der Aalst, W.M.P. and Basten, T., Inheritance of Workflows: An approach to tackling problems related to change, Technical report, Eindhoven University of Technology, 1999
Wang, Y. and Stroulia, E., "Semantic Structure Matching for Assessing Web-Service Similarity," Proceedings of 1st International Conference on Service Oriented Computing, Trento, Italy, 2003, pp. 194-207
이 논문을 인용한 문헌
저자의 다른 논문 :
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.