16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements원문보기
최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.
최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.
Improving the speed of image processing is in great demand according to spread of high quality visual media or massive image applications such as 3D TV or movies, AR(Augmented reality). SIMD computer attached to a host computer can accelerate various image processing and massive data operations. MAM...
Improving the speed of image processing is in great demand according to spread of high quality visual media or massive image applications such as 3D TV or movies, AR(Augmented reality). SIMD computer attached to a host computer can accelerate various image processing and massive data operations. MAMS is a multi-access memory system which is, along with multiple processing elements(PEs), adequate for establishing a high performance pipelined SIMD machine. MAMS supports simultaneous access to pq data elements within a horizontal, a vertical, or a block subarray with a constant interval in an arbitrary position in an $M{\times}N$ array of data elements, where the number of memory modules(MMs), m, is a prime number greater than pq. MAMS-PP4 is the first realization of the MAMS architecture, which consists of four PEs in a single chip and five MMs. This paper presents implementation of image processing algorithms and performance analysis for MAMS-PP16 which consists of 16 PEs with 17 MMs in an extension or the prior work, MAMS-PP4. The newly designed MAMS-PP16 has a 64 bit instruction format and application specific instruction set. The author develops a simulator of the MAMS-PP16 system, which implemented algorithms can be executed on. Performance analysis has done with this simulator executing implemented algorithms of processing images. The result of performance analysis verifies consistent response of MAMS-PP16 through the pyramid operation in image processing algorithms comparing with a Pentium-based serial processor. Executing the pyramid operation in MAMS-PP16 results in consistent response of processing time while randomly response time in a serial processor.
Improving the speed of image processing is in great demand according to spread of high quality visual media or massive image applications such as 3D TV or movies, AR(Augmented reality). SIMD computer attached to a host computer can accelerate various image processing and massive data operations. MAMS is a multi-access memory system which is, along with multiple processing elements(PEs), adequate for establishing a high performance pipelined SIMD machine. MAMS supports simultaneous access to pq data elements within a horizontal, a vertical, or a block subarray with a constant interval in an arbitrary position in an $M{\times}N$ array of data elements, where the number of memory modules(MMs), m, is a prime number greater than pq. MAMS-PP4 is the first realization of the MAMS architecture, which consists of four PEs in a single chip and five MMs. This paper presents implementation of image processing algorithms and performance analysis for MAMS-PP16 which consists of 16 PEs with 17 MMs in an extension or the prior work, MAMS-PP4. The newly designed MAMS-PP16 has a 64 bit instruction format and application specific instruction set. The author develops a simulator of the MAMS-PP16 system, which implemented algorithms can be executed on. Performance analysis has done with this simulator executing implemented algorithms of processing images. The result of performance analysis verifies consistent response of MAMS-PP16 through the pyramid operation in image processing algorithms comparing with a Pentium-based serial processor. Executing the pyramid operation in MAMS-PP16 results in consistent response of processing time while randomly response time in a serial processor.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 MAMS-PP16의 Simulator를 구현하고 처리 속도의 향상을 검증하였다. 이를 위해 PE(Processing Element) 및 MM(Memory Module )의 개수를 각각 16, 17개로 증가시켰다.
본 논문에서는 처리시간을 감소시키는 것은 물론, 일정한 응답시간을 확인하기 위해 16개의 PE를 포함하는 MAMS-PP16에 합당한 Instruction Format을 새로 설계하고 영상처리 기법 중 Pyramid 알고리즘을 적용하여 구현한 시뮬레이터에서 성능을 확인하였다.
제안 방법
영상에서 임의의 간격을 가진 여러 형태로 영상자료를 동시에 접근할 수 있는 다중접근기억장치인 MAMS (Multi-Access Memory System)[1~2]은 pq개의 PEs(Processing Elements)를 가진 병렬처리기로 구현된다. 4개의 PE를 포함하는 MAMS- PP4[3]가 2003년에 개발 및 구현되어 영상처리 알고리즘 중 Morphological Closing을 적용해서 범용 컴퓨터를 대상으로 속도 향상을 확인하였다.
MAMS-PP16의 명령어 형태는 상위 비트에 MAMS-PP4에서는 없던 Type 필드를 추가하였고, 처리하는 영상의 크기를 MAMS-PP4에서는 64×64로 한 반면, MAMS-PP16에서는 128×128이상의 영상처리를 위하여 그림 3과같이 구성하였다. MAMS의 PE 모듈에서 지원하는 명령어 집합은 영상 처리에 관련된 알고리즘을 조사하였고, MAMS-PP4에서의 명령어는 Morph ological Closing을 수행하기 위한 연산자들로 구성 되었지만 MAMS-PP16에서는 영상처리를 위한 프로그램인 Image Tool에서 명령어를 추출하였다[5~7]. 따라서 새롭게 구성한 MAMS-PP16의 명령어 형태는 총 64비트로 그림 3과 같다.
Serial Processor 캐시로 인한 응답시간의 Random 특성과 MAMS-PP16의 일정한 응답속도를 확인하기 위하여 다중 해상도 분석 기법을 적용하였다. 이는 원본 영상에서 연속적으로 작은 크기의 영상들의 계층으로 낮은 해상도로 변환하는 것인데, 원본 영상을 압축하여 저장하여 현재 화면의 디스플레이 스케일에 가장 적합한 압축 영상을 검색하여 디스플레이 하는 기술로 원본 영상보다 떨어진 여러 해상도의 이미지를 미리 만들어 이미지의 헤더나 끝부분에 저장하여 작업을 수행하는 기법이다.
이는 원본 영상에서 연속적으로 작은 크기의 영상들의 계층으로 낮은 해상도로 변환하는 것인데, 원본 영상을 압축하여 저장하여 현재 화면의 디스플레이 스케일에 가장 적합한 압축 영상을 검색하여 디스플레이 하는 기술로 원본 영상보다 떨어진 여러 해상도의 이미지를 미리 만들어 이미지의 헤더나 끝부분에 저장하여 작업을 수행하는 기법이다. 본 논문에서 Pyramid 기법으로 압축하여 영상처리의 Morphology 기법 중에서 Opening과 Closing 연산을 수행하여 특성을 확인하였다.
본 논문에서 영상의 Red 값을 검출하기위해 원본 영상의 크기인 64×64 pixel을 4×4의 최소 크기로 축소하여 Red, Green, Blue 채널의 Gray값으로 나누어 그 중 Red 값이 128보다 작으면 잡음으로 판단하여 제거할 목적으로 Opening을 수행하고, 128보다 크면 Red 영역을 검출하기 위해 Closing을 수행한다.
여기서 작업하게 될 MAMS-PP16이 기존에 구현된 MAMS-PP4에서 확장하고 변형시키면서 새로운 Simulator를 개발 하였다.
본 논문에서는 MAMS-PP16의 Simulator를 구현하고 처리 속도의 향상을 검증하였다. 이를 위해 PE(Processing Element) 및 MM(Memory Module )의 개수를 각각 16, 17개로 증가시켰다. 또한 Instructions Format을 기존 34bits 에서 64bit로 확장하여 14개 더 많은 operation을 사용할 수 있게 하였고 Serial Processor에서의 캐시의 불안정을 영상처리 기법 중 Pyramid 기법으로 수행하여 확인을 하여 MAMS-PP16에서 처리 속도가 일정한 성능의 안정성을 확인하였다.
대상 데이터
병렬처리시스템의 일반적인 블록 다이어그램은 그림 1과 같으며 병렬처리기는 PE와 MAMS로 구성된 Pipelined SIMD 구조로 되어 있다. 본 논문에서 소개하는 MAMS-PP16은 명령어 관리를 하는 CU(Control Unit)와 16개의 PE와 17개의 MM(Memory Module)을 가진다.
성능/효과
그리고 표 4 128×128 Image Pyramid기법 20회 수행 결과에서 Serial Processor의 Miss(cycle)가 512cycle 6회, 513cycle 1회, 517cycle 1회, 518cycle 1회, 522cycle 1회, 524cycle 1회, 526cycle 1회, 529cycle 1회, 531cycle 1회, 532cycle 2회, 533cycle 1회, 538cycle 1회, 541cycle 2회로 각기 다른 Miss(cycle)로 인해 최소 316936ns에서 최대 318357ns까지 응답시간이 Rendom 하게 변화 하는 것을 확인 할 수 있고, MAMS-PP16에서 CM 32768cycle, PEM 35562cycle, MAM 35562cycle으로 20회 모두 같은 cycle을 확인 하였으며 응답시간이 139454ns으로 모두 일정함을 확인 할 수 있다.
이를 위해 PE(Processing Element) 및 MM(Memory Module )의 개수를 각각 16, 17개로 증가시켰다. 또한 Instructions Format을 기존 34bits 에서 64bit로 확장하여 14개 더 많은 operation을 사용할 수 있게 하였고 Serial Processor에서의 캐시의 불안정을 영상처리 기법 중 Pyramid 기법으로 수행하여 확인을 하여 MAMS-PP16에서 처리 속도가 일정한 성능의 안정성을 확인하였다.
이와 같은 결과로, Serial Processor와 MAMS-PP16에서 각각 20회식 반복해서 수행한 결과를 표 3은 64×64 Image Pyramid 기법 20회 결과를 보여주고 있고, 표 4는 128×128 Image Pyramid 기법 20회 수행 결과를 보여 주고 있다.
표 3 64×64 Image Pyramid기법 20회 수행 결과에서 Serial Processor의 Miss(cycle)가 128cycle 8회, 129cycle 5회, 130cycle 2회, 131cycle 5회로 각기 다른 Miss(cycle)로 인해 최소 78472ns에서 최대 78619ns 까지 응답시간이 Rendom 하게 변화 하는 것을 확인 할 수 있고, MAMS-PP16에서 CM 8192cycle, PEM 9330cycle, MAM 9330cycle으로 20회 모두 같은 cycle을 확인 하였으며 응답시간이 53704ns으로 모두 일정함을 확인 할 수 있다.
후속연구
또한, Simulator를 통하여 기존 MAMS- PP4와 구조적인 면에서의 비교를 확인할 수 있고, MAMS-PP16의 개선 사항으로 Full HD 영상 (1920× 1080)을 처리할 수 있도록 메모리 크기의 확장이 필요하며, 최적화된 병렬화 명령어를 생성하는 Compiler 개발을 통하여 알고리즘을 더 효율적으로 병렬화 한다면 보다 좋은 성능을 기대할 수 있을 것으로 판단된다.
본 논문에서는 병렬 영상 처리시스템의 응용을 Morphology 기법만으로 국한하였으나 외의 다른 영상처리 알고리즘들에 있어서도 본 연구인 MAMS-PP16에 적용할 가치가 있다고 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
다중 해상도 분석 기법이란?
Serial Processor 캐시로 인한 응답시간의 Random 특성과 MAMS-PP16의 일정한 응답속도를 확인하기 위하여 다중 해상도 분석 기법을 적용하였다. 이는 원본 영상에서 연속적으로 작은 크기의 영상들의 계층으로 낮은 해상도로 변환하는 것인데, 원본 영상을 압축하여 저장하여 현재 화면의 디스플레이 스케일에 가장 적합한 압축 영상을 검색하여 디스플레이 하는 기술로 원본 영상보다 떨어진 여러 해상도의 이미지를 미리 만들어 이미지의 헤더나 끝부분에 저장하여 작업을 수행하는 기법이다. 본 논문에서 Pyramid 기법으로 압축하여 영상처리의 Morphology 기법 중에서 Opening과 Closing 연산을 수행하여 특성을 확인하였다.
다중접근기억장치인 MAMS란?
여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다.
SIMD구조의 컴퓨터의 특징은?
최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다.
참고문헌 (8)
J.W. Park, "An Efficient Memory system for Image Processing," IEEE Trans. Computers, Vol. C-35, No. 7, pp. 669-674, Jul. 1986.
J.W. Park, "Multiaccess Memory System for Attached SIMD Computer," IEEE Trans. on Computers, Vol. 53, No. 3, pp. 1439-452, Apr. 2004.
H. Lee, H.K. Cho and D.S. You, "An MAMS-PP4: Multi-Access Memory System Used to Improve the Processing Speed of Visual Media Applications in Parallel Processing System," IEICE Trans. on Fundamentals of Electronics, Communications and Computer Sciences, Vol. E87-A, No. 11, pp. 2852-2858, Nov. 2004.
유인식, "영상처리를 위한 MAMS (Multi-Access Memory System) 병렬처리기의 시뮬레이터 구현", 충남대학교 석사학위 논문, 2010년 8월.
D.C. Van Voorhis and T.H. Morrin, "Memory System for Image Processing," IEEE Trans. on Computers, Vol. C-27, No. 1, pp. 1145-1155, Dec. 1975.
D.H. Lawrie and C.R. Vora, "The Prime Memory System for Image Processing," IEEE Trans. on Computers, Vol. C-31, No. 5, pp.435-442, May 1992.
김중배. "Gray-scale Morphological 필터를 위한 병렬 처리기," 충남대학교 석사학위 논문, 2000년 6월.
J.W. Park, "An efficient buffer memory system for subarray access," IEEE Trans. on Parallel and Distributed Systems, Vol. 12, No. 3, pp. 316-335, Mar. 2001.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.