[논문]이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법

오현교; 윤석호; 김상욱

문제 정의

한다. 그러나 사용자가 적절한 클러스터의 개수를 클러스터링 수행 전에 결정하는 것은 매우 어려운 문제이다(3) 따라서 본 논문에서는 클러스터의 개수를 사용자에게 매개변수로 입력받지 않고 데이터를 클러스터링하는 방안에 대해 논의하고자 한다.
따라서 본 논문에서는 그림 1의 경우와 같이 이진 행렬을 구성하는 X축과 y축의 객체가 같고, 서로 다른 클러스터 안에 객체들이 중복되어 있으면 안 되는 경우에 적합한 새로운 계층적 클러스터링 방법을 제안하고자 한다. 제안하는 방법을 통해 사용자는 다양한 수준에서 클러스터들의 변화를 파악 할 수 있게 된다.
아웃라이어는 데이터의 일반적인 모형이나 행동에 대응하지 못하는 데이터 객체를 의미한다(3) 사용자는 아웃라이어 검출을 통해 선정된 객체를 제거함으로써 해당 클러스터의 질을 높일 수 있게 된다. 따라서 본 논문에서는 아웃라이어 객체를 찾는 효과적인 방안을 제안한다.
또한 CA를 통해 유사한 객체들의 집합인 Cross-associates를 찾을 수 있지만 동일한 객체가 서로 다른 Cross-associates에 포함될 수 있기 때문에 클러스터링의 클러스터와는 다른 의미를 가진다. 따라서 본 논문에서는 이미지 데이터를 이진 행렬로 표현하는 방법에 대해서 논의하고, CA를 클러스터링 관점으로 해석하여 이미지 데이터를 매개 변수 없이 클러스터링하고자 한다.
또한, 데이터를 계층적으로 분해하는 방안을 논의하고자 한다. 이 방안도 사용자로부터 클러스터의 개수를 매개변수로 입력받지 않고 진행된다.
본 논문에서는 (1)을 사용하여 아웃라이어 노드를 검출하기 위한 방안을 제안한다. 제안하는 방안은 아웃라이어의 대상이 되는 객체를 제거하기 전 클러스터의 정보량과 제거한 후 클러스터의 정보량을 측정한 다음 정보량의 차이가 가장 큰 객체가 등급이 가장 높은 아웃라이어가 되는 것이다.
본 논문에서는 CA를 클러스터링 관점에서 해석한다. 그림 6의 두 번째 행 그룹에는 두 개의 검은색 지역이 존재한다.
데이터를 이진 행렬로 변환해야 한다. 본 논문에서는 이미지 데이터 간의 유사 여부를 이용해서 그래프를 생성하고, 생성된 그래프를 이진 행렬로 다시 변환하고자 한다. 구체적인 방법으로 이미지 객체의 특성을 기반으로 기존의 유사도 계산 방안을 이용하여 객체들 간의 유사도를 계산하고 그래프 생성 방법 중에 하나인 k-최근접 이웃검색 방법时으로 그래프를 생성한다.
본 논문에서는 이미지 클러스터를 대상으로 아웃라이어 검출 실험을 한다. 실험결과를 통해 제시하는 알고리즘의 우수성을 증명한다.
본 논문에서는 클러스터링 결과로 도출된 각각의 클러스터에 대해 재귀적으로 CA를 적용하는 계층적 클러스터링을 수행하고자 한다. 이를 통해 사용자는 클러스터 안의 숨겨진 클러스터의 구조를 발견할 수 있게 된다.
따라서 아웃라이어 간선 검출 방법®은 클러스터링 관점에서 적합하지 않다. 본 논문에서는 클러스터링 관점에 부합하는 새로운 아웃라이어 검출 알고리즘을 제안한다. 제안하는 방안을 통해 클러스터의 존재하는 모든 객체에 아웃라이어 등급을 정할 수 있다.
본 장에서는 객체간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법인 CA와 그 응용들에 대해 소개한다. 1절에서는 CA의 기본원리에 대해 설명하고, 2절에서는 CA를 응용한 커뮤니티 발견 (community discovery)에 대해 설명한다.
본 장에서는 매개 변수 없이 이미지 데이터를 클러스터링 하는 방안과 아웃라이어 검출을 위한 새로운 알고리즘을 제안한다. 1절에서는 CA를 이용한 이미지 클러스터링에 대해서 설명하고, 2절에서는 계층적 클러스터링 방안에 대해서 설명한다.
이는 한쪽만 유사하다고 여기는 경우를 노이즈로 간주하고 두 객체들 간에 연관이 없다고 판단하는 것이다. 어떠한 방법을 적용하여 그래프를 생성했을 때 CA를 통한 클러스터링의 결과가 좋은지 실험을 통해 알아보고자 한다.

제안 방법

본 논문에서는 이미지 데이터 간의 유사 여부를 이용해서 그래프를 생성하고, 생성된 그래프를 이진 행렬로 다시 변환하고자 한다. 구체적인 방법으로 이미지 객체의 특성을 기반으로 기존의 유사도 계산 방안을 이용하여 객체들 간의 유사도를 계산하고 그래프 생성 방법 중에 하나인 k-최근접 이웃검색 방법时으로 그래프를 생성한다. 이렇게 생성된 그래프를 이진 행렬로 변환하면 CA에 적용 가능하게 된다.
9%로 가장 높게 측정되었다. 따라서 본 논문에서는 사용자로부터 매개변수를 요구하지 않는 클러스터링을 위해, CA를 이용하여 이미지 클러스터링을 수행할 때, k를 40~80 사이로 설정하고 비대칭적인 방법을 이용하여 그래프를 생성하는 것을 가이드라인으로 제시한다. 본 논문에서는 또한 클러스터의 정확도가 높은 그래프를 대상으로 재귀적으로 CA를 적용하는 계층적 클러스터링과 아웃라이어 검출 알고리즘을 수* 행하였다 다양한 실험을 통하여 제안하는 계층적 클러스터링 방법과 아웃라이어 검출 방법이 타당함을 보였다.
또한, 데이터에 CA를 적용한 후 클러스터링 관점에서 해석한 결과로 나온 각각의 클러스터에 재귀적으로 CA를 적용하는 계층적 클러스터링을 수행한다. 이는 계층적 클러스터링의 방법 중 하나인 분할적 접근 방법을 이용한다.
본 논문에서는 클러스터의 개수를 미리 정하지 않고도 이미지 데이터 클러스터링을 수행하기 위해 CA를 이용한 클러스터링 방법을 제안하였다 제안하는 방법은 이미지 데이터를 그래프 생성 기법을 통해서 그래프로 변환하고 변환된 .이미지 데이터를 CA에 적용한 후에 그 결과를 클러스터링 관점에서 재해석하는 방식이다.
CA의 결과를 연관 관계 패턴이 유사한 행 객체들이 서로 인접하게 배열되는 것으로 해석하면, 행 집합들 간에는 같은 객체들이 포함하지 않게 된다. 본 실험에서는 이러한 관점에서 CA를 클러스터링으로 해석하여 이미지 데이터를 클러스터링 진행한다.
생성된 이미지 데이터를 다양한 k값에 대해 그리고 대칭적, 비대칭적 방법을 각각 적용하여 그래프로 생성한다. k-최근접 이웃검색의 k값은 20-200 사이로 20씩 증가하면서 설정한다.
아웃라이어 결과의 타당성을 검증하기 위해 5명의 평가자들을 통해 해당 클러스터의 아웃라이어 검출의 정확도를 평가한다. 평가 방법은 평가자들에게 이미지 클러스터링 결과로 나온 클러스터를 제공한다.
이와 같이 객체 자체가 클러스터에 미치는 영향력을 측정하여 등급을 매기는 아웃라이어 노드(outher node) 검출 방안을 제안한다. 아웃라이어 노드를 검출하기 위해서 각 객체의 아웃라이어의 등급을 정해야 하는데 이를 위해 객체의 아웃라이어 등급을 구하는데 필요한 식을 제안한다.
이미지 클러스터링을 통해 도출된 클러스터들의 결과가 타당한지를 판단하기 위해서 5명의 평가자들에게 클러스터의 정확도를 평가한다. 평가 방법은 평가자들에게 클러스터에 있는 이미지 객체들을 직접 확인하여 유사한 이미지들이 모여 있는지 판단하게 한다.
사용자는 등급이 가장 높은 n 개의객체를 아웃라이어로 선택 할 수 있다. 이와 같이 객체 자체가 클러스터에 미치는 영향력을 측정하여 등급을 매기는 아웃라이어 노드(outher node) 검출 방안을 제안한다. 아웃라이어 노드를 검출하기 위해서 각 객체의 아웃라이어의 등급을 정해야 하는데 이를 위해 객체의 아웃라이어 등급을 구하는데 필요한 식을 제안한다.
이와 같이 참고문헌回에서는 CA를 이용하여 계층적으로 커뮤니티를 찾아내는 유용한 방법을 제안한다. 그러나 2.
제안하는 계층적 클러스터링 결과가 타당한지를 판단하기 위해서 이미지 클러스터링 실험 결과 정확도가 높은 그래프를 대상으로 계층적 클러스터링을 수행한다. 그 결과 주어진 그래프가 하위 레벨에서 더욱 구체적으로 분해되는지 실험을 통해 시각적으로 보인다.
제안하는 계층적 클러스터링 방법은 특정 지역에 존재하는 객체간의 연관관계만을 통해 커뮤니티의 구조를 찾는 2장 2절의 방법과는 달리 행렬상의 존재하는 모든 열 객체가 자신과 관계있는 행 객체의 클러스터링에 관여한다. 따라서 모든 열 객체들과의 연관 관계 패턴이 유사한 행 객체가 같은 클러스터로 모이게 되고 모든행 객체는 중복되지 않은 상태로 각각의 클러스터에 포함되게 된다.
제안하는 방법을 통해 사용자는 다양한 수준에서 클러스터들의 변화를 파악 할 수 있게 된다.
CA는 객체간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법이다. 제안하는 방안은 CA를 수행하기 위해서 이미지 데이터를 그래프 구조로 변환하고 변환된 데이터에 CA를 적용한 후에 그 결과를 클러스터링 관점에서 해석한다.
위한 방안을 제안한다. 제안하는 방안은 아웃라이어의 대상이 되는 객체를 제거하기 전 클러스터의 정보량과 제거한 후 클러스터의 정보량을 측정한 다음 정보량의 차이가 가장 큰 객체가 등급이 가장 높은 아웃라이어가 되는 것이다. 그 이유는 만약 어떤 객체가 제거됨으로써 해당 클러스터의 정보량의 크게 감소한다면 해당 객체는 클러스터의 정보량을 증가시키는 존재임을 나타내기 때문이다.
본 논문에서는 제안하는 방안을 통해 계층적 클러스터링 결과로 도출된 각각의 클러스터에 포함된 모든 객체들을 대상으로 아웃라이어 등급을 정할 수 있다. 제안하는 방안은 클러스터 안에 객체들을 순차적으로 제거하면서 클러스터의 정보량의 변화를 관찰하고 그 값에 따라서 객체의 아웃라이어 등급을 정하는 방식이다. 이중 사용자는 등급이 가장 높은 n개의 객체를 아웃라이어로 검출할 수 있다.
제안하는 방안을 실제 이미지 데이터에 적용하여 여러 가지 의미 있는 결과를 확인하였다. CA를 적용한 색상 유사도 기반의 이미지 데이터 클러스터의 정확도를 5명의 평가자들에게 의뢰한 결과 최대 90.
본 논문에서는 클러스터링 관점에 부합하는 새로운 아웃라이어 검출 알고리즘을 제안한다. 제안하는 방안을 통해 클러스터의 존재하는 모든 객체에 아웃라이어 등급을 정할 수 있다. 등급이 가장 높은 객체는 클러스터에서 가장 이질적인 패턴을 가지는 객체를 의미한다.
5 명의 평가자들을 통해 결정된 아웃라이어 중 3명 이상이 공통적으로 아웃라이어로 선택한 이미지 데이터를 정답으로 간주한다. 평가자들에 의해 공통적으로 선택된 n'개의 아웃라이어들이 논문에서 제시하는 알고리즘을 통해 도출된 아웃라이어 중 등급이 높은 n개의 아웃 라이어들과 일치하는지의 여부를 실험을 통해 보인다.

대상 데이터

평가자는 제공된 클러스터의 객체들 중에서 아웃라이어로 생각되는 이미지 객체를 개수에 상관없이 선택한다. 5 명의 평가자들을 통해 결정된 아웃라이어 중 3명 이상이 공통적으로 아웃라이어로 선택한 이미지 데이터를 정답으로 간주한다. 평가자들에 의해 공통적으로 선택된 n'개의 아웃라이어들이 논문에서 제시하는 알고리즘을 통해 도출된 아웃라이어 중 등급이 높은 n개의 아웃 라이어들과 일치하는지의 여부를 실험을 통해 보인다.
그 이유는 만약 어떤 객체가 제거됨으로써 해당 클러스터의 정보량의 크게 감소한다면 해당 객체는 클러스터의 정보량을 증가시키는 존재임을 나타내기 때문이다. 본 논문에서는 클러스터 안의 다른 객체들에 비해 비용 감소량이 큰 상위 n개의 객체들을 아웃라이어 객체로 간주한다. 아웃라이어 검출의 구체적인 절차는 그림 8과 같다.
본 실험에서는 쉐이더 데이터를 이미지 클러스터링 대상으로 선정한다. 쉐이더 데이터는 형태를 제외한 색상, 질감, 무늬 등 표현된 객체를 의미한다'm 각 쉐이더 데이터에 대해 색상을 비롯한 몇 가지의 속성 값을 무작위 (random)로 바꾸어 다양한 특성을 갖는 1, 000개의 쉐이더 데이터를 생성한다.
선정한다. 쉐이더 데이터는 형태를 제외한 색상, 질감, 무늬 등 표현된 객체를 의미한다'm 각 쉐이더 데이터에 대해 색상을 비롯한 몇 가지의 속성 값을 무작위 (random)로 바꾸어 다양한 특성을 갖는 1, 000개의 쉐이더 데이터를 생성한다. 본 실험에서는 k-최근접 이웃검색의 유사도 값으로 색상의 RGB 값을 이용한다.

데이터처리

어떤 방법으로 그래프를 생성해야 클러스터의 정확도가 높은지 알아보기 위해 생성된 모든 그래프에 CA를 적용하여 클러스터링을 한다. 그리고 실험 결과 높은 정확도를 보이는 그래프를 대상으로 계층적 클러스터링과 아웃라이어 검출을 한다.

이론/모형

본 실험에서는 k-최근접 이웃검색의 유사도 값으로 색상의 RGB 값을 이용한다. 그리고 유사도 측정 함수로는 Histogram quadratic distance邸를 사용한다.
본 논문에서는 클러스터의 개수를 매개변수로 입력받지 않고 클러스터 링을 수행하기 위해 Cross- Association(이하 CA尸을 이용한다. CA는 객체간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법이다.
쉐이더 데이터는 형태를 제외한 색상, 질감, 무늬 등 표현된 객체를 의미한다'm 각 쉐이더 데이터에 대해 색상을 비롯한 몇 가지의 속성 값을 무작위 (random)로 바꾸어 다양한 특성을 갖는 1, 000개의 쉐이더 데이터를 생성한다. 본 실험에서는 k-최근접 이웃검색의 유사도 값으로 색상의 RGB 값을 이용한다. 그리고 유사도 측정 함수로는 Histogram quadratic distance邸를 사용한다.
이는 계층적 클러스터링의 방법 중 하나인 분할적 접근 방법을 이용한다. 이를 통해 사용자는 클러스터 안에 감추어진 하위 클러스터들을 발견 할 수 있다.
인코딩 비용은 클로드 섀년이 제안한 정보 엔트로피 (information entropy)®를 이용해서 구한다. 이 방법은 엔트로피의 개념을 빌려 정보의 양을 설명한 것으로써 Cross-associate의 엔트로피가 높은 경우 인코딩 비용이 높게 측정되고 반대의 경우 인코딩 비용이 낮게 측정된다.

성능/효과

가지 의미 있는 결과를 확인하였다. CA를 적용한 색상 유사도 기반의 이미지 데이터 클러스터의 정확도를 5명의 평가자들에게 의뢰한 결과 최대 90.9%의 정확도를 보였고, 또한 계층적 클러스터링을 수행한 결과와 아웃라이어 검출 결과가 타당함을 실험을 통해 보였다.
대칭적 방법은 노이즈 객체에 대한 영향력을 줄이기 위한 방법으로, 이 방법을 이용하면 클러스터의 정확도가 높아 질 것을 예상했다. 그러나 본 논문에서 사용한 이미지 데이터는 노이즈가 적은 경우로서, 이 경우 대칭적 방법은 서로 유사한 객체들 간에 간선이 생성되는 것을 막아서 클러스터의 정확도가 낮아지는 것으로 나타났다.
또한 오른쪽 상단의 지역을 통해 의학 분야의컨퍼런스에 논문을 제출한 컴퓨터 분야의 저자들의 커뮤니티도 발견함을 보여준다. 마지막으로 오른쪽 아래 지역을 통해 의학 분야의 저자들이 의학 분야의 컨퍼런스 중에서도 병리학 분야의 논문을 제출한 저자들과 외과 분야에 컨퍼런스에 논문을 제출한 저자들로 구분되어지는 것을 확인할 수 있다.
따라서 본 논문에서는 사용자로부터 매개변수를 요구하지 않는 클러스터링을 위해, CA를 이용하여 이미지 클러스터링을 수행할 때, k를 40~80 사이로 설정하고 비대칭적인 방법을 이용하여 그래프를 생성하는 것을 가이드라인으로 제시한다. 본 논문에서는 또한 클러스터의 정확도가 높은 그래프를 대상으로 재귀적으로 CA를 적용하는 계층적 클러스터링과 아웃라이어 검출 알고리즘을 수* 행하였다 다양한 실험을 통하여 제안하는 계층적 클러스터링 방법과 아웃라이어 검출 방법이 타당함을 보였다.
필요하다. 본 논문에서는 제안하는 방안을 통해 계층적 클러스터링 결과로 도출된 각각의 클러스터에 포함된 모든 객체들을 대상으로 아웃라이어 등급을 정할 수 있다. 제안하는 방안은 클러스터 안에 객체들을 순차적으로 제거하면서 클러스터의 정보량의 변화를 관찰하고 그 값에 따라서 객체의 아웃라이어 등급을 정하는 방식이다.
실험 결과 그래프를 대칭적 방법으로 생성했을 때 보다 비대칭적 방법으로 생성했을 때의 클러스터들의 정확도가 일반적으로 높았다. 대칭적 방법은 노이즈 객체에 대한 영향력을 줄이기 위한 방법으로, 이 방법을 이용하면 클러스터의 정확도가 높아 질 것을 예상했다.
검출 실험을 한다. 실험결과를 통해 제시하는 알고리즘의 우수성을 증명한다.
이미지 데이터를 CA에 적용한 후에 그 결과를 클러스터링 관점에서 재해석하는 방식이다. 실험을 통하여 k가 80이고 비대칭적 방법으로 그래프를 생성해서 CA에 적용했을 때 클러스터의 정확도가 90.9%로 가장 높게 측정되었다. 따라서 본 논문에서는 사용자로부터 매개변수를 요구하지 않는 클러스터링을 위해, CA를 이용하여 이미지 클러스터링을 수행할 때, k를 40~80 사이로 설정하고 비대칭적인 방법을 이용하여 그래프를 생성하는 것을 가이드라인으로 제시한다.
예를 들면? 그림 12(a)는 파란색 계통의 클러스터다. 이 중 파란색이 거의 포함되어 있지 않는 749번 이미지가 가장 높은 둥급의 아웃라이어로 선택됨을 확인 할 수 있다.
n, 는 해당 클러스터에 대해서 5명의 평가자들이 공통적으로 선택한 아웃라이어의 개수이고, 정확도는 평가자들에 의해 공통적으로 선택된 n, 개의 아웃라이어를 정답으로 간주하고 본 논문에서 제안하는 방법으로 검줄된 n, 와 동일한 개수인 상위 n개의 아웃라이어와 일치하는지의 여부를 나타낸 값이다. 표 2를 통해 제안하는 아웃라이어 검출 방법이 높은 정확도를 보임을 알 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법
A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법 A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

오현교 (4) 윤석호 (4) 김상욱 (106)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법
A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper