[논문]복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계

최병윤

doi:10.6109/jkiice.2016.20.1.123

[국내논문] 복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계
Hardware Design of High Performance Arithmetic Unit with Processing of Complex Data for Multimedia Processor 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.20 no.1, 2016년, pp.123 - 130

최병윤 (Department of Computer Engineering, Dongeui University)

초록
AI-Helper

본 논문에서는 멀티미디어용 알고리즘을 고속으로 처리하기 위한 고성능 연산 회로를 설계하였다. 3단 파이프라인 구조로 동작하는 연산회로는 4개의 16-비트${\times}$16-비트 곱셈기의 효율적인 구성, 캐리 보존 형식 데이터에 대한 새로운 부호 확장 기법과 다수 개의 부분 곱셈 결과의 통합과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 복소수 데이터와 가변 길이 고정 소수점 데이터에 대한 38개의 연산을 처리할 수 있다. 설계한 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300 MHz이며 약 37,000 게이트로 구성되며 300 MCOPS의 연산 성능을 갖는다. 연산 프로세서는 높은 연산 속도와 응용 분야에 특화된 다양한 연산 지원으로 멀티미디어 프로세서에 효율적으로 응용 가능하다.

Abstract ▼ AI-Helper

In this paper, a high-performance arithmetic unit which can efficiently accelerate a number of algorithms for multimedia application was designed. The 3-stage pipelined arithmetic unit can execute 38 operations for complex and fixed-point data by using efficient configuration for four 16-bit by 16-bit multipliers, new sign extension method for carry-save data, and correction constant scheme to eliminate sign-extension in compression operation of multiple partial multiplication results. The arithmetic unit has about 300-MHz operating frequency and about 37,000 gates on 45nm CMOS technology and its estimated performance is 300 MCOPS(Million Complex Operations Per Second). Because the arithmetic unit has high processing rate and supports a number of operations dedicated to various applications, it can be efficiently applicable to multimedia processors.

Keyword

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

본 연산 회로는 4개의 16비트×16비트 부호/무부호 곱셈기의 결과를 적절하게 병합하여 다양한 크기의 다수 개의 MAC을 구현한다.
두 번째 방안은 작은 크기의 다수 개의 곱셈을 병렬로 생성한 후, 중간 결과를 가중치(weight)에 따라 스케일링(scaling)하고 부호 확장하여 더해 원하는 결과를 얻는 병렬 곱셈-병합(parallel multiply and scaled merge) 방식이다. 그림 3은 16-비트 곱셈기를 병렬로 생성한 후 중간 결과를 적절한 비트 수 만큼 스케일링하여 2개의 16-비트 곱셈 혹은 1개의 32-비트 곱셈을 구현하는 동작을 나타낸다.
첫째, 멀티미디어 신호 처리 분야에서 핵심 연산인MAC과 곱셈 연산을 다양한 크기의 데이터에 대해 고속으로 처리한다. 입력값으로 0 또는 1을 사용하여 덧셈 기능도 일부 지원한다.
단, 곱셈의 경우 결과 출력 부호(MUL_sign)를 입력데이터의 부호와 곱셈 연산 종류로 바로 결정할 수 있으므로, 캐리 보존 형식 출력의 부호 비트(최대 결과 범위보다 1-비트 상위 비트, 즉, 무부호 16-비트 곱셈의 기준 33-번째 비트), CV[n-1], SV[n-1]과 출력 부호(MUL_sign) 값을 사용하여, 캐리 보존 형식 곱셈 결과에 대한 부호 확장 비트를 생성하는 방안을 제시한다.
본 연산 회로는 38가지의 다양한 연산을 지원하므로 16-비트 곱셈 결과를 적절히 마스킹하고 가중치로 스케일링 처리를 하여, 다수개의 중간 곱셈 결과를 더하거나 빼게 되는데, 이때 캐리 보존 형식의 데이터에 대해 2의 보수 처리와 부호 확장을 통한 통합이 필요하다. 본 연구에서는 참고문헌[10]에서 제안된 방식을 변형해서다수 개의 캐리 보존된 곱셈 결과를 부호 확장하여 더하는데 적용하였다. A4가 부호 비트인 경우 식(2)이 성립한다는 원리에 기반을 두고 있다.
설계한 연산 회로는 38가지 연산을 지원하고 높은 동작 속도를 위해 3단 파이프라인 구조로 구성된다. 그림 9는 전체 연산 회로의 구조를 나타낸다.
설계한 연산 회로에 대한 검증을 단순화하기 위해 두 가지 방식으로 Verilog-2001 HDL로 모델링하였다. 논리 합성을 위해 기능 수준으로 모델링함과 동시에 38개의 연산에 대해 곱셈 연산자(*), 덧셈 연산자(+)와 시프트 연산자(<<,<<<) 등을 조합하여 동작 수준의 시뮬레이션 모델을 별도로 작성하여, 검증 과정에 두 개의 결과가 일치하는 지 쉽게 판단할 수 있도록 하였다.
설계한 연산 회로는 45nm CMOS 표준 셀 공정에서 Synopsys 합성 툴로 합성한 결과 약 300 MHz 동작 주파수와 약37,000 게이트를 가지고 있음을 확인하였다. 그리고 연산 회로는 캐리 보존 데이터에 대한 효율적인 부호 확장 비트 생성과 여러 개의 캐리 보존 곱셈 결과에 대한 덧셈 과정에 교정 상수를 통한 효율적인 부호 확장 제거 방안을 사용하여 면적을 최소화하고 동작 속도를 개선하였다. 또한 오버플로와 언더플로에 의한 예외처리 문제를 배제하기 위해 포화 연산을 지원하며, 정밀도 향상을 위해 반올림 연산 기능을 지원한다.
설계한 연산 회로는 다양한 크기의 정수 및 복소수 MAC 연산, 8개의 8-비트 데이터의 뺄셈의 절대치에 대한 누적합을 구하는 SAD 명령 등 멀티미디어 분야에 특화된 38개의 연산을 지원한다. 그리고 성능 향상을 위해 가변 크기 데이터 MAC 동작을 3가지 관점에서 기존 방식을 개선하였다. 첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다.
첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다. 둘째로 캐리 보존 형식의 곱셈 결과에 대해 효율적인 1-비트의 쌍으로 구성된 부호 확장 비트 생성 방안을 제시하였다. 셋째, 다수 개의 캐리 보존형식의 곱셈 결과를 스케일링한 후 병합하는 연산 과정에 교정 상수를 통한 부호 확장 제거 방안을 제안하였다.
둘째로 캐리 보존 형식의 곱셈 결과에 대해 효율적인 1-비트의 쌍으로 구성된 부호 확장 비트 생성 방안을 제시하였다. 셋째, 다수 개의 캐리 보존형식의 곱셈 결과를 스케일링한 후 병합하는 연산 과정에 교정 상수를 통한 부호 확장 제거 방안을 제안하였다. 그리고 디지털 신호 처리에서 요구되는 포화 연산과 반올림 기능을 지원하고 있다.

대상 데이터

설계한 연산 회로는 다양한 크기의 정수 및 복소수 MAC 연산, 8개의 8-비트 데이터의 뺄셈의 절대치에 대한 누적합을 구하는 SAD 명령 등 멀티미디어 분야에 특화된 38개의 연산을 지원한다. 그리고 성능 향상을 위해 가변 크기 데이터 MAC 동작을 3가지 관점에서 기존 방식을 개선하였다.

이론/모형

첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다.

성능/효과

본 논문에서 제시하는 연산회로는 4개의 16-비트× 16-비트 부호/무부호 곱셈기를 사용하여 캐리 보존 형식(carry-save form)의 중간 결과를 생성한 후, 연산 유형과 데이터의 크기에 따라 4개의 곱셈 결과를 가중치에 따라 적절히 스케일링하여 결합하는 방식으로 원하는 크기의 곱셈 연산을 수행하도록 하여 기존 방식의 복잡한 배선과 확장 문제점을 해결하였다.
본 논문에서 제시하는 연산회로는 4개의 16-비트× 16-비트 부호/무부호 곱셈기를 사용하여 캐리 보존 형식(carry-save form)의 중간 결과를 생성한 후, 연산 유형과 데이터의 크기에 따라 4개의 곱셈 결과를 가중치에 따라 적절히 스케일링하여 결합하는 방식으로 원하는 크기의 곱셈 연산을 수행하도록 하여 기존 방식의 복잡한 배선과 확장 문제점을 해결하였다. 또한 캐리보존 형식의 곱셈 중간 결과에 대한 새로운 부호 확장비트 생성 방안과 중간 단계의 여러 개의 곱셈 결과를 통합하는 과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 빠른 동작과 면적 최적화가 가능하다.
둘째, 부호 및 무부호 16비트 ×16비트 곱셈기를 4개를 준비하고, 이를 조합하여 다양한 크기의 곱셈 결과와 다수 개의 작은 크기의 곱셈을 병렬로 계산하는 벡터 처리를 지원한다. 셋째, 멀티미디어 연산 시 오버플로와 언더플로 발생 시 중단이 없는 실시간 처리를 위해 포화 연산과 반올림 연산을 지원한다. 넷째, Fast Fourier Transform(FFT) 등의 응용을 위해 복소수 곱셈과 관련 연산도 지원한다.
논리 합성을 위해 기능 수준으로 모델링함과 동시에 38개의 연산에 대해 곱셈 연산자(*), 덧셈 연산자(+)와 시프트 연산자(<<,<<<) 등을 조합하여 동작 수준의 시뮬레이션 모델을 별도로 작성하여, 검증 과정에 두 개의 결과가 일치하는 지 쉽게 판단할 수 있도록 하였다.
그림 11은 1-비트 스케일링(<<1)을 포함한 복소수 곱셈에 대한 Modelsim 검증 결과를 나타낸다. 설계한 연산 회로는 45nm CMOS 표준 셀 공정에서 Synopsys 합성 툴로 합성한 결과 약 300 MHz 동작 주파수와 약37,000 게이트를 가지고 있음을 확인하였다. 그리고 연산 회로는 캐리 보존 데이터에 대한 효율적인 부호 확장 비트 생성과 여러 개의 캐리 보존 곱셈 결과에 대한 덧셈 과정에 교정 상수를 통한 효율적인 부호 확장 제거 방안을 사용하여 면적을 최소화하고 동작 속도를 개선하였다.
설계한 연산 회로는 38개의 연산을 지원하며, 45nm 공정 조건에서 초당 약 3억 개의 복소수 연산(300 MCOPS) 혹은 병렬 처리로 초당 6억 개의 16-b ×16-b 와 32-b× 16-b 곱셈 연산이 가능하므로 고성능을 요구하는 멀티미디어 분야에 효율적으로 응용 가능하다. 설계한 회로는 n-비트 곱셈만을 기준으로 할 경우 먼저 작은 크기(r-비트)의 수정된 Booth 구조 배열(array) 곱셈기에서 캐리 보존 형식의 중간 결과를 생성하고, (n/r)²개의 부분 곱을 (3,2) CSA 트리로 2개의 중간 결과를 생성한 후, 고속 carry lookahead adder(CLA)로 2n-비트 결과를 더하므로, 계산 복잡도는 O(r/2 + log((n/r)²)/log(3/2) + log 2n)로 표현된다.
참고 문헌[11]의 경우 중간 결과가 캐리 보존 형식의 결과가 아닌 완전한(non-redundant) 곱셈 결과를 사용하므로 속도가 느리며 무부호 곱셈에만 적용할 수 있다는 제약 사항이 있고, 참고 문헌[6]은 확장성에 문제가 있다. 본 논문의 연산회로는 우수한 확장성과 효율적인 부호 확장, 다양한 연산 지원으로 멀티미디어에 특화된 알고리즘을 효율적으로 구현할 수 있다.

후속연구

단, 이 방식을 직접적으로 구현하는 기존 방식[4]는 작은 크기의 곱셈에서 캐리 보존 형식이 아닌 완전한(non-redundant) 형태의 중간 곱셈 값을 구한 후 덧셈을 수행하므로 속도가 느려질 수 있는 문제가 있다. 본 연구에서는 속도 향상을 위해 캐리 보존 형식의 중간 곱셈 결과를 생성 후 더하는 방안을 사용하는데 이 경우 캐리 보존 형식 중간 결과에 대한 부호 확장 처리가 필요하다.
설계한 연산 회로는 38개의 연산을 지원하며, 45nm 공정 조건에서 초당 약 3억 개의 복소수 연산(300 MCOPS) 혹은 병렬 처리로 초당 6억 개의 16-b ×16-b 와 32-b× 16-b 곱셈 연산이 가능하므로 고성능을 요구하는 멀티미디어 분야에 효율적으로 응용 가능하다.
설계한 회로는 45nm CMOS 표준 셀 공정 조건에서 약 37,000 개의 게이트로 구성되며, 3단 파이프라인 방식으로 2개의 32-b× 16-b MAC/ 16-b × 16-b MAC 혹은 1개의 32-b × 32-b MAC 혹은 1개의 복소수 곱셈 연산을 지원할 수 있어서, 최대300 MCOPS의 연산 성능을 가지고 있다. 설계된 고성능 연산 회로는 멀티미디어 분야에 특화된 다양한 연산 명령을 내장하고 있어서 반도체 IP로 멀티미디어 프로세서에 활용이 가능하다고 판단된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	멀티미디어 신호 처리와 같이 복잡한 신호 처리 동작과 다양한 유형의 데이터에 대한 효율적인 처리를 위해서는 어떤 신호처리 기법이 필요한가?	디지털 신호 처리, 컴퓨터 비전, 디지털 통신 등의 다양한 분야에 응용할 수 있는 멀티미디어 신호 처리는 복잡한 신호 처리 동작과 다양한 유형의 데이터에 대한 효율적인 처리를 필요로 한다[1,2]. 이러한 요구조건을 만족하려면 범용 연산 기능과 함께 응용 분야에 특화된 복소수 데이터 처리와 서브워드(subword) 데이터의 벡터 처리가 바람직하다. 이러한 조건과 적은 면적을 만족하는 멀티미디어 프로세서는 연산의 유형에 따라 재구성 가능한 구조 또는 reduced instruction set computer(RISC) 혹은 very long instruction word (VLIW) 등의 범용 프로세서와 고정 소수점과 복소수데이터를 효율적으로 처리할 수 있는 전용 연산 회로로 구성된 프로그램 가능한 프로세서 구조로 나누어진다[3].
	멀티미디어 신호 처리 분야의 핵심 연산은 무엇인가?	멀티미디어 신호 처리 분야의 핵심 연산은 다양한 크기의 데이터에 대한 곱셈과 multiply-and-accumulate (MAC) 연산이다. 그림 1은 다양한 크기의 데이터에 대한 3가지 유형의 병렬 곱셈을 나타낸다.
	곱셈기에서 캐리-보존 형식의 데이터를 처리할 때 발생하는 문제점은 무엇인가?	그림 5의 곱셈기에서 해결되지 않은 문제는 캐리-보존 형식의 곱셈 결과에 대한 부호 확장 처리이다. 일반적인 부호화 데이터의 경우 부호 비트의 단순한 반복 확장을 통해 처리가 가능한데[8-10], 캐리-보존 형식의 데이터의 경우 부호 비트를 결정하려면 하위 비트 순차적인 덧셈이 필요하다는 문제가 있다.

참고문헌 (11)

Ruby B. Lee, "Subword Parallelism with MAX-2," IEEE Micro, vol.16, no. 4, pp.51-59, August 1996.

상세보기
Ruby B. Lee, "Accelerating Multimedia with Enhanced Microprocessors," IEEE Micro, vol.15, no.2, pp.22-32, April, 1995.

상세보기
QualComm, Hexagon V2 Programmer's Reference Manual, 80-NB419-1 Rev.A, August 2011.
Israel Koren, Computer Arithmetic Algorithms, ch.5-6, CRC Press, 1993.
Aamir Alam Farooqui, "VLSI Arithmetic for Media Signal Processing," Ph.D dissertation, ECE department, UC. Davis, 2000.
Hyuk-Jun Lee and Michael Flynn, "Designing a Partitionable Multiplier," Stanford University, Technical Report CSL-TR-98-772, October 1998.
Hesham Al-Twaijry and Michael Flynn. "Performance/Area Tradeoffs in Booth Multipliers," Stanford University, Technical Report CSL-TR-95-684, November 1995.
Alexander F. Tenca, Song Park, and Lo'al A. Tawalbeh, "Carry-Save Representation Is Shift-Unsafe: The Problem and Its Solution," IEEE Transactions on Computers, vol. 55, no.5, pp.630-635, May 2006.

상세보기
Stuart F. Oberman, and Ming Y. Siu, "A High-Performance Area-Efficient Multifunction Interpolator," Proc. of the 17th IEEE Symposium on Computer Arithmetic(ARITH'05), pp.271-279, 2005.
M. Roorda, "Method to reduce the sign bit extension in a multiplier that uses the modified booth algorithm," Electronics Letters, vol.22. no.20, pp.1061-1062, 25th September 1986.

상세보기
Christoper Fritz and Adly T. Farm, "The Interlaced Partition Multiplier," IEEE Trans. on Computer[online], no. 1, pp. 1, PrePrints, doi:10.1109/TC.2015.2481379, Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber7274668.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증