$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계
Hardware Design of High Performance Arithmetic Unit with Processing of Complex Data for Multimedia Processor 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.20 no.1, 2016년, pp.123 - 130  

최병윤 (Department of Computer Engineering, Dongeui University)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 멀티미디어용 알고리즘을 고속으로 처리하기 위한 고성능 연산 회로를 설계하였다. 3단 파이프라인 구조로 동작하는 연산회로는 4개의 16-비트${\times}$16-비트 곱셈기의 효율적인 구성, 캐리 보존 형식 데이터에 대한 새로운 부호 확장 기법과 다수 개의 부분 곱셈 결과의 통합과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 복소수 데이터와 가변 길이 고정 소수점 데이터에 대한 38개의 연산을 처리할 수 있다. 설계한 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300 MHz이며 약 37,000 게이트로 구성되며 300 MCOPS의 연산 성능을 갖는다. 연산 프로세서는 높은 연산 속도와 응용 분야에 특화된 다양한 연산 지원으로 멀티미디어 프로세서에 효율적으로 응용 가능하다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, a high-performance arithmetic unit which can efficiently accelerate a number of algorithms for multimedia application was designed. The 3-stage pipelined arithmetic unit can execute 38 operations for complex and fixed-point data by using efficient configuration for four 16-bit by 16-b...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 본 연산 회로는 4개의 16비트×16비트 부호/무부호 곱셈기의 결과를 적절하게 병합하여 다양한 크기의 다수 개의 MAC을 구현한다.
  • 두 번째 방안은 작은 크기의 다수 개의 곱셈을 병렬로 생성한 후, 중간 결과를 가중치(weight)에 따라 스케일링(scaling)하고 부호 확장하여 더해 원하는 결과를 얻는 병렬 곱셈-병합(parallel multiply and scaled merge) 방식이다. 그림 3은 16-비트 곱셈기를 병렬로 생성한 후 중간 결과를 적절한 비트 수 만큼 스케일링하여 2개의 16-비트 곱셈 혹은 1개의 32-비트 곱셈을 구현하는 동작을 나타낸다.
  • 첫째, 멀티미디어 신호 처리 분야에서 핵심 연산인MAC과 곱셈 연산을 다양한 크기의 데이터에 대해 고속으로 처리한다. 입력값으로 0 또는 1을 사용하여 덧셈 기능도 일부 지원한다.
  • 단, 곱셈의 경우 결과 출력 부호(MUL_sign)를 입력데이터의 부호와 곱셈 연산 종류로 바로 결정할 수 있으므로, 캐리 보존 형식 출력의 부호 비트(최대 결과 범위보다 1-비트 상위 비트, 즉, 무부호 16-비트 곱셈의 기준 33-번째 비트), CV[n-1], SV[n-1]과 출력 부호(MUL_sign) 값을 사용하여,  캐리 보존 형식 곱셈 결과에 대한 부호 확장 비트를 생성하는 방안을 제시한다.
  • 본 연산 회로는 38가지의 다양한 연산을 지원하므로 16-비트 곱셈 결과를 적절히 마스킹하고 가중치로 스케일링 처리를 하여, 다수개의 중간 곱셈 결과를 더하거나 빼게 되는데, 이때 캐리 보존 형식의 데이터에 대해 2의 보수 처리와 부호 확장을 통한 통합이 필요하다. 본 연구에서는 참고문헌[10]에서 제안된 방식을 변형해서다수 개의 캐리 보존된 곱셈 결과를 부호 확장하여 더하는데 적용하였다. A4가 부호 비트인 경우 식(2)이 성립한다는 원리에 기반을 두고 있다.
  • 설계한 연산 회로는 38가지 연산을 지원하고 높은 동작 속도를 위해 3단 파이프라인 구조로 구성된다. 그림 9는 전체 연산 회로의 구조를 나타낸다.
  • 설계한 연산 회로에 대한 검증을 단순화하기 위해 두 가지 방식으로 Verilog-2001 HDL로 모델링하였다. 논리 합성을 위해 기능 수준으로 모델링함과 동시에 38개의 연산에 대해 곱셈 연산자(*), 덧셈 연산자(+)와 시프트 연산자(<<,<<<) 등을 조합하여 동작 수준의 시뮬레이션 모델을 별도로 작성하여, 검증 과정에 두 개의 결과가 일치하는 지 쉽게 판단할 수 있도록 하였다.
  • 설계한 연산 회로는 45nm CMOS 표준 셀 공정에서 Synopsys 합성 툴로 합성한 결과 약 300 MHz 동작 주파수와 약37,000 게이트를 가지고 있음을 확인하였다. 그리고 연산 회로는 캐리 보존 데이터에 대한 효율적인 부호 확장 비트 생성과 여러 개의 캐리 보존 곱셈 결과에 대한 덧셈 과정에 교정 상수를 통한 효율적인 부호 확장 제거 방안을 사용하여 면적을 최소화하고 동작 속도를 개선하였다. 또한 오버플로와 언더플로에 의한 예외처리 문제를 배제하기 위해 포화 연산을 지원하며, 정밀도 향상을 위해 반올림 연산 기능을 지원한다.
  • 설계한 연산 회로는 다양한 크기의 정수 및 복소수 MAC 연산, 8개의 8-비트 데이터의 뺄셈의 절대치에 대한 누적합을 구하는 SAD 명령 등 멀티미디어 분야에 특화된 38개의 연산을 지원한다. 그리고 성능 향상을 위해 가변 크기 데이터 MAC 동작을 3가지 관점에서 기존 방식을 개선하였다. 첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다.
  • 첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다. 둘째로 캐리 보존 형식의 곱셈 결과에 대해 효율적인 1-비트의 쌍으로 구성된 부호 확장 비트 생성 방안을 제시하였다. 셋째, 다수 개의 캐리 보존형식의 곱셈 결과를 스케일링한 후 병합하는 연산 과정에 교정 상수를 통한 부호 확장 제거 방안을 제안하였다.
  • 둘째로 캐리 보존 형식의 곱셈 결과에 대해 효율적인 1-비트의 쌍으로 구성된 부호 확장 비트 생성 방안을 제시하였다. 셋째, 다수 개의 캐리 보존형식의 곱셈 결과를 스케일링한 후 병합하는 연산 과정에 교정 상수를 통한 부호 확장 제거 방안을 제안하였다. 그리고 디지털 신호 처리에서 요구되는 포화 연산과 반올림 기능을 지원하고 있다.

대상 데이터

  • 설계한 연산 회로는 다양한 크기의 정수 및 복소수 MAC 연산, 8개의 8-비트 데이터의 뺄셈의 절대치에 대한 누적합을 구하는 SAD 명령 등 멀티미디어 분야에 특화된 38개의 연산을 지원한다. 그리고 성능 향상을 위해 가변 크기 데이터 MAC 동작을 3가지 관점에서 기존 방식을 개선하였다.

이론/모형

  • 첫째 가변 데이터 크기를 지원하기 위해 4개의 범용 16-b ×16-b 곱셈기를 사용한 캐리 보존 형식의 중간 결과를 갖는 병렬 곱셈-병합 방식을 사용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
멀티미디어 신호 처리와 같이 복잡한 신호 처리 동작과 다양한 유형의 데이터에 대한 효율적인 처리를 위해서는 어떤 신호처리 기법이 필요한가? 디지털 신호 처리, 컴퓨터 비전, 디지털 통신 등의 다양한 분야에 응용할 수 있는 멀티미디어 신호 처리는 복잡한 신호 처리 동작과 다양한 유형의 데이터에 대한 효율적인 처리를 필요로 한다[1,2]. 이러한 요구조건을 만족하려면 범용 연산 기능과 함께 응용 분야에 특화된 복소수 데이터 처리와 서브워드(subword) 데이터의   벡터 처리가 바람직하다. 이러한 조건과 적은 면적을 만족하는 멀티미디어 프로세서는 연산의 유형에 따라 재구성 가능한 구조 또는 reduced instruction set computer(RISC) 혹은 very long instruction word (VLIW) 등의 범용 프로세서와 고정 소수점과 복소수데이터를 효율적으로 처리할 수 있는 전용 연산 회로로 구성된 프로그램 가능한 프로세서 구조로 나누어진다[3].
멀티미디어 신호 처리 분야의 핵심 연산은 무엇인가? 멀티미디어 신호 처리 분야의 핵심 연산은 다양한 크기의 데이터에 대한 곱셈과 multiply-and-accumulate (MAC) 연산이다. 그림 1은 다양한 크기의 데이터에 대한 3가지 유형의 병렬 곱셈을 나타낸다.
곱셈기에서 캐리-보존 형식의 데이터를 처리할 때 발생하는 문제점은 무엇인가? 그림 5의 곱셈기에서 해결되지 않은 문제는 캐리-보존 형식의 곱셈 결과에 대한 부호 확장 처리이다. 일반적인 부호화 데이터의 경우 부호 비트의 단순한 반복 확장을 통해 처리가 가능한데[8-10], 캐리-보존 형식의 데이터의 경우 부호 비트를 결정하려면 하위 비트 순차적인 덧셈이 필요하다는 문제가 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (11)

  1. Ruby B. Lee, "Subword Parallelism with MAX-2," IEEE Micro, vol.16, no. 4, pp.51-59, August 1996. 

  2. Ruby B. Lee, "Accelerating Multimedia with Enhanced Microprocessors," IEEE Micro, vol.15, no.2, pp.22-32, April, 1995. 

  3. QualComm, Hexagon V2 Programmer's Reference Manual, 80-NB419-1 Rev.A, August 2011. 

  4. Israel Koren, Computer Arithmetic Algorithms, ch.5-6, CRC Press, 1993. 

  5. Aamir Alam Farooqui, "VLSI Arithmetic for Media Signal Processing," Ph.D dissertation, ECE department, UC. Davis, 2000. 

  6. Hyuk-Jun Lee and Michael Flynn, "Designing a Partitionable Multiplier," Stanford University, Technical Report CSL-TR-98-772, October 1998. 

  7. Hesham Al-Twaijry and Michael Flynn. "Performance/Area Tradeoffs in Booth Multipliers," Stanford University, Technical Report CSL-TR-95-684, November 1995. 

  8. Alexander F. Tenca, Song Park, and Lo'al A. Tawalbeh, "Carry-Save Representation Is Shift-Unsafe: The Problem and Its Solution," IEEE Transactions on Computers, vol. 55, no.5, pp.630-635, May 2006. 

  9. Stuart F. Oberman, and Ming Y. Siu, "A High-Performance Area-Efficient Multifunction Interpolator," Proc. of the 17th IEEE Symposium on Computer Arithmetic(ARITH'05), pp.271-279, 2005. 

  10. M. Roorda, "Method to reduce the sign bit extension in a multiplier that uses the modified booth algorithm," Electronics Letters, vol.22. no.20, pp.1061-1062, 25th September 1986. 

  11. Christoper Fritz and Adly T. Farm, "The Interlaced Partition Multiplier," IEEE Trans. on Computer[online], no. 1, pp. 1, PrePrints, doi:10.1109/TC.2015.2481379, Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber7274668. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로