대용량 고화질의 영상 응용분야에서는 많은 양의 데이터를 고속으로 처리하는 기술이 필요하며, 이를 위해 고속화된 병렬처리 시스템이 요구된다. 2004년 park은 병렬처리 메모리의 충돌 없이 여러 처리기에 데이터를 접속할 수 있는 방법을 제안하였다. 제안된 MAMS(Multi-Access Memory System) 는 이후 MAMS-PP16 및 MAMS-PP64 등으로 추가적인 연구가 이루어졌다. MAMS는 병렬처리를 위한 메모리 아키텍처로써 One-chip으로 구성되어야하기 때문에 기존 MAMS와 동일한 기능을 수행하면서 아키텍처의 최소화 하는 방법의 연구가 필요하다. 주소 계산 (ACR : Address Calculation and Routing) circuit과 MMS(Memory Module Selection)circuit의 아키텍처는 메모리에 있는 데이터를 병렬처리기(Prossing Elements)들에게 전달한다. 본 논문에서는 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하는 방법을 통해 아키텍처를 최소화 하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다. 실험을 통하여 제안된 MAMS-PP64의 처리시간을 측정 하였으며, 그 결과 Ratio가 평균 1.05향상 된 결과를 확인 할 수 있었다.
대용량 고화질의 영상 응용분야에서는 많은 양의 데이터를 고속으로 처리하는 기술이 필요하며, 이를 위해 고속화된 병렬처리 시스템이 요구된다. 2004년 park은 병렬처리 메모리의 충돌 없이 여러 처리기에 데이터를 접속할 수 있는 방법을 제안하였다. 제안된 MAMS(Multi-Access Memory System) 는 이후 MAMS-PP16 및 MAMS-PP64 등으로 추가적인 연구가 이루어졌다. MAMS는 병렬처리를 위한 메모리 아키텍처로써 One-chip으로 구성되어야하기 때문에 기존 MAMS와 동일한 기능을 수행하면서 아키텍처의 최소화 하는 방법의 연구가 필요하다. 주소 계산 (ACR : Address Calculation and Routing) circuit과 MMS(Memory Module Selection)circuit의 아키텍처는 메모리에 있는 데이터를 병렬처리기(Prossing Elements)들에게 전달한다. 본 논문에서는 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하는 방법을 통해 아키텍처를 최소화 하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다. 실험을 통하여 제안된 MAMS-PP64의 처리시간을 측정 하였으며, 그 결과 Ratio가 평균 1.05향상 된 결과를 확인 할 수 있었다.
High-capacity, high-definition image applications need to process considerable amounts of data at high speed. Accordingly, users of these applications demand a high-speed parallel execution system. To increase the speed of a parallel execution system, Park (2004) proposed a technique, called MAMS (M...
High-capacity, high-definition image applications need to process considerable amounts of data at high speed. Accordingly, users of these applications demand a high-speed parallel execution system. To increase the speed of a parallel execution system, Park (2004) proposed a technique, called MAMS (Multi-Access Memory System), to access data in several execution units without the conflict of parallel processing memories. Since then, many studies on MAMS have been conducted, furthering the technique to MAMS-PP16 and MAMS-PP64, among others. As a memory architecture for parallel processing, MAMS must be constructed in one chip; therefore, a method to achieve the identical functionality as the existing MAMS while minimizing the architecture needs to be studied. This study proposes a method of miniaturizing the MAMS architecture in which the architectures of the ACR (Address Calculation and Routing) circuit and MMS (Memory Module Selection) circuit, which deliver data in memories to parallel execution units (PEs), do not use the MMS circuit, but are constructed as one shift and conditional statements whose number is the same as that of memory modules inside the ACR circuit. To verify the performance of the realized architecture, the study conducted the processing time of the proposed MAMS-PP64 through an image correlation test, the results of which demonstrated that the ratio of the image correlation from the proposed architecture was improved by 1.05 on average.
High-capacity, high-definition image applications need to process considerable amounts of data at high speed. Accordingly, users of these applications demand a high-speed parallel execution system. To increase the speed of a parallel execution system, Park (2004) proposed a technique, called MAMS (Multi-Access Memory System), to access data in several execution units without the conflict of parallel processing memories. Since then, many studies on MAMS have been conducted, furthering the technique to MAMS-PP16 and MAMS-PP64, among others. As a memory architecture for parallel processing, MAMS must be constructed in one chip; therefore, a method to achieve the identical functionality as the existing MAMS while minimizing the architecture needs to be studied. This study proposes a method of miniaturizing the MAMS architecture in which the architectures of the ACR (Address Calculation and Routing) circuit and MMS (Memory Module Selection) circuit, which deliver data in memories to parallel execution units (PEs), do not use the MMS circuit, but are constructed as one shift and conditional statements whose number is the same as that of memory modules inside the ACR circuit. To verify the performance of the realized architecture, the study conducted the processing time of the proposed MAMS-PP64 through an image correlation test, the results of which demonstrated that the ratio of the image correlation from the proposed architecture was improved by 1.05 on average.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 기존 MAMS에서 MMs circuit이 Memory Module의 개수가 증가에 따라 공간복잡도가 증가하고 ACR circuit보다 처리시간이 길다는 단점을 보완하기 위하여 Remaining Address Differences(ADs) 와 Adders and Barrel shifter를 새로이 제안하였다.
본 논문에서는 병렬처리기(PEs)들에게 메모리에 있는 데이터를 전달하기 위한 주소 계산 (ACR : Address Calculation and Routing)circuit과 MMS(Memory Module Selection)circuit의 아키텍처를 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하여 아키텍처의 최소화하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다.
우리는 영상처리 고속화에서 병렬처리 메모리의 충돌 없이 여러 처리기에 데이터를 접속할 수 있는 구조를 가지는 MAMS를 One-chip으로 구성하기 위하여 공간 및 시간복잡도를 낮은 아키텍처를 연구하였다.
우리의 목표는 메모리 시스템인 MAMS[2]를 사용하여 시스템 성능이 향상 되는 MAMS-PP64를 구현하는 것이다. MAMS-PP64의 구조는 MAMS[2]를 기초로 설계 되었으므로 Memory Module Assignment Circuit, Address Assignment Circuit그리고 Address selection Circuit들의 구조는 동일하다.
다양하고 복합적인 멀티미디어 정보가 쏟아지면서 영상의 크기에 따른 메모리 공간의 한정성 극복이 대두되는 현실이다. 이러한 방대한 영상의 고속 처리를 위해 별도의 기술 및 장비 개발이 시급하며, 이를 극복할 수 있는 다중 접근 기억 장치와 멀티미디어 처리를 위한 병렬 처리기반의 아키텍처를 소개한다. 영상처리와 같이 반복적인 처리를 하는 분야에서는 SIMD 구조의 시스템이 적합하다.
제안 방법
Serial Processor와 MAMS-PP64의 처리시간 비교는 Serial Processor의 일정하지 않는 처리시간 때문에 평균을 구하여 각각을 비교 하였고, 기존 MAMS-PP64와 제안한 MAMS-PP64의 처리속도를 비교하였다. 처리 속도 비교방법은 Ratio를 이용하였으며, 제안한 방식의 처리속도 대 비교대상방식의 속도를 비교 하였다.
본 장에서는 Memory Module Selection circuit을 제거 하고 새로이 제안한 Address Calculation and Routing circuit이 기존 구조와 비교하기 위하여 그림 7과 같이 2개의 FPGA(Xilinx Virtex6@100MHz) 보드를 구성하였고, Verilog를 사용하여 FPGA1에는 기존 구조를 FPGA2에는 제안한 구조를 구성하였다.
실험 방법은 마스크 64×64, 128×128, 256×256의 마스크를 이용하여 각각 10 번 실행하였다.
우리는 시간복잡도를 알아보기 위하여, 이전연구[4]에서 사용한 Image correlation을 이용한 방식으로 실험하여, 그림 7과 같이 Serial Processer와 MAMS-PP64를 하나의 프로그램으로 구성 하였다.
제안한 MAMS-PP64는 MM Selection circuit을 대신하여 67개 논리게이트와 1개의 Barrel shifter를 추가하였고, MAMS-PPs[2]의 MM Selection circuit 과 동일하게 메모리 모듈의 Enable/Disable을 동작하도록 구성하였다. (p=q=8, MxN=512x512, s=64, m=67).
데이터처리
본 논문에서는 병렬처리기(PEs)들에게 메모리에 있는 데이터를 전달하기 위한 주소 계산 (ACR : Address Calculation and Routing)circuit과 MMS(Memory Module Selection)circuit의 아키텍처를 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하여 아키텍처의 최소화하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다. 제안한 MAMS-PP64 의 성능을 평가한 결과 Ratio가 평균 1.
우리는 MAMS-PPs[2]에서 사용한 그림 6을 이용하여 제안한 ACR circuit을 검증 한다. 그림 6 a)∼b)는 MAMS-PPs[2]에서 사용한 메모리 모듈 인덱스 번호와 주소를 보여 주고 있으며, c)는 Remaining SRAM 과 Binary SRAM에 입력되는 주소의 차이 중 3개의 subarray type(SEB, ROW, COL)을 보여 준다.
Serial Processor와 MAMS-PP64의 처리시간 비교는 Serial Processor의 일정하지 않는 처리시간 때문에 평균을 구하여 각각을 비교 하였고, 기존 MAMS-PP64와 제안한 MAMS-PP64의 처리속도를 비교하였다. 처리 속도 비교방법은 Ratio를 이용하였으며, 제안한 방식의 처리속도 대 비교대상방식의 속도를 비교 하였다.
이론/모형
Address selection circuit은 2개의 SRAM을 위해 존재한다. Remaining SRAM의 주소를 계산하기 위해서는 Remaining Address selection circuit을 사용하고, Binary SRAM의 주소를 계산하기 위해서는 Binary Address selection circuit을 사용한다.
성능/효과
64 × 64 마스크의 경우 Ratio를 비교하면 제안한 방식과 기존방식은 처리 속도는 1.05배 향상됨을 확인할 수 있고, 128×128 마스크의 Ratio는 1.06배, 256×256 마 스크의 Ratio는 각각 1.05배 향상된 결과 보여 주고 있다.
Image correlation실험을 통해 제안한 MAMS-PP64 는 기존 MAMS-PP64 Ratio가 평균 1.05향상 된 결과 확인됨으로써 시간복잡도를 낮출 수 있다.
그리고 기존 MAMS-PP64 처리 시간은 64×64 에서는 6(초), 128×128 에서는 19(초), 256× 256 에서는 44(초)이며, 제안한 방식에서는 64×64에서 는 5.7(초), 128 × 128에서는 17.9(초), 256 × 256에서는 41.6(초)로 일정한 속도로 빠르게 처리됨을 확인 할 수 있었다.
표 3은 기존 방식의 FPGA 합성 결과와 제안된 방식 의 FPGA 결과를 보여주고 있고, 제안된 방식의 Slice LUT의 사용 개수가 103898개로 기존 방식으로 구현한 모듈의 119073개 보다 약 13% 감소한 것을 확인 할 수 있었고, Slice Register와 LUT-FF는 약 1% 내외의 감소하였다. 이러한 결과는 기존의 방법보다 제안된 방법의 공간복잡도가 낮아짐을 보여 준다.
이와 같이 제안한 MAMS-PP64는 FPGA 합성결과를 통해 제안된 방식에서 Slice LUT가 약 13% 감소, Slice Register와 LUT-FF는 약 1% 감소되어 공간복잡도가 낮아짐을 확인 하였다.
제안한 MAMS-PP64 의 성능을 평가한 결과 Ratio가 평균 1.05향상된 결과를 확인 할 수 있었다.
제안한 방법과 기존 방법의 결과가 같음을 확인 할 수 있었고, 이를 통해 공간복잡도가 낮아짐을 확인 할 수 있다.
표 3은 기존 방식의 FPGA 합성 결과와 제안된 방식 의 FPGA 결과를 보여주고 있고, 제안된 방식의 Slice LUT의 사용 개수가 103898개로 기존 방식으로 구현한 모듈의 119073개 보다 약 13% 감소한 것을 확인 할 수 있었고, Slice Register와 LUT-FF는 약 1% 내외의 감소하였다. 이러한 결과는 기존의 방법보다 제안된 방법의 공간복잡도가 낮아짐을 보여 준다.
후속연구
본 논문에서 사용된 영상처리시스템 보드가 실험용 FPGA이기 때문에 100Mhz Clock을 사용하였으나, 향후 영상처리시스템 보드를 실험에서 비교하였던 Intel Core 2@ 2.66 GHz와 같은 하드웨어 성능일 경우 제안한 MAMS-PP64는 약 28배의 성능향상을 기대할 수 있고, 향후 연구에서는 3D 그래픽스의 세이더(Shader) 를 위하여 MAMS를 이용한 시스템을 구성하여 기존 세이더 처리기들 보다 향상된 성능의 시스템을 기대할 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
SIMD 구조의 시스템은 어느분야에서 사용되는가?
이러한 방대한 영상의 고속 처리를 위해 별도의 기술 및 장비 개발이 시급하며, 이를 극복할 수 있는 다중 접근 기억 장치와 멀티미디어 처리를 위한 병렬 처리기반의 아키텍처를 소개한다. 영상처리와 같이 반복적인 처리를 하는 분야에서는 SIMD 구조의 시스템이 적합하다. 영상에서 임의의 간격을 가진 여러 형태로 영상자료를 동시에 접근할 수 있는 다중접근기억장치인 MAMS (Multi-Access Memory System)[1~2]는 p×q개의 PEs (Processing Elements)를 가진 병렬처리기로 구현된다.
MAMS의. 문제점은?
MAMS는 라우팅 주소에서 어드레스 계산을 분리하여 느린 나눗셈 문제를 해결하였지만, 어드레스 연산 회로의 복잡도는 여전히 문제점으로 남았다. 그래서 Park[2]은 8개의 Subarray type ((South-West Block (SWB), South-East Block (SEB), North-West Block (NWB), North-East-Block (NEW), Forward-diagonal (FRD), Column (COL), Row (ROW) and Backward-diagonal (BKD))을 SRAM에 address Differences(ADs)값을 저장하여 회로의 복잡도를 해결하였다.
MAMS의 문제점을 어떻게 해결하였는가?
MAMS는 라우팅 주소에서 어드레스 계산을 분리하여 느린 나눗셈 문제를 해결하였지만, 어드레스 연산 회로의 복잡도는 여전히 문제점으로 남았다. 그래서 Park[2]은 8개의 Subarray type ((South-West Block (SWB), South-East Block (SEB), North-West Block (NWB), North-East-Block (NEW), Forward-diagonal (FRD), Column (COL), Row (ROW) and Backward-diagonal (BKD))을 SRAM에 address Differences(ADs)값을 저장하여 회로의 복잡도를 해결하였다. 하드웨어 시스템의 비용절감을 위해 MAMS-PP4[7]는 영상처리에서 일 반적으로 많이 사용되는 3개의 Subarray type(SEB, ROW, COL)을 SRAM에 저장 하였다.
참고문헌 (9)
J.W. Park, "An Efficient Memory system for Image Processing," IEEE Trans. Computers, Vol. C-35, No. 7, pp. 669-674, Jul. 1986.
J.W. Park, "Multiaccess Memory System for Attached SIMD Computer," IEEE Trans. on Computers, Vol. 53, No. 3, pp. 1439-452, Apr. 2004.
Y-J Lee, J.H. Kim, and J.W. Park, "Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements," Journal of the Institute of Electronics Engineers of Korea, Volume 49, Number 3, pp. 8-14, 2012.
J.H. Kim, K.S. Ko, C.S. Oh, and J.W. Park, "64 Processing Elements with Multiaccess Memory System to Speedup Image Correlation," Advanced Science Letters, Volume 22, Number 9, pp. 2376-2380(5), September 2016.
H. Lee, H. K. Cho, D.S. You and J. W. Park, "An MAMS-PP4: Multi-Access Memory System used to improve the processing speed of visual media applications in a parallel processing system," IEICE Trans. Fundamentals. vol. E87 A, no. 11 November, 2004.
J.H. Lim, S. M. Park, J. W. Park, "Design to Chip with Multi-Access Memory System and Parallel Processor for 16 Processing Elements of Image Processing Purpose," Journal of Korea Multimedia Society Vol. 14, No. 11, pp. 1401-1408 November. 2011.
J.S. Park, J.H. Kim, K.S. Ko, J.W. Park, "Feature Extraction System for High-Speed Fingerprint Recognition using the Multi-Access Memory System," Journal of Korea Multimedia Society Vol. 16, No. 8, pp. 914-926, August 2013.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.