[논문]비압축 3D HD 영상 및 다채널 음성 전송

채종권; 이영한; 김종원; 김홍국

문제 정의

1채널 음성의 각 스트림을 비압축 HD 전송기술에 접목함으로써 협업 연구, 엔터테인먼트, 원격 의료 등의 요구를 만족시키는 시스템을 제안한다. 3D HD 영상을 재현하기 위한 방법을 위해 본 논문에서는 stereoscopic 영상을 사용해 입체감 있는 영상을 재현한다.
입체감 있는 영상을 획득, 전송, 재생해 고화질 저지연성을 갖는 HD 협업 환경의 가능성을 실험을 통해 보였으며 동기화를 위한 설계를 송수신 각각의 측면에서 다루었다. 다채널 음성 재생을 위해서, 본 논문에서는 오디오 프레임의 구조를 분석하고 채널 뒤섞임을 방지하기 위한 버퍼를 전처리로 추가하였다. 또한 프레임 손실에 의한 채널 뒤섞임을 방지하기 위해 입력신호와 시작 채널 메타 데이터를 비교하는 과정을 추가하였다.
기존의 비압축 전송 시스템에서 음성 재생을 이용하기 위해서는 이를 처리하기 위한 하드웨어의 설치가 필수적이었고, 이는 구축 비용 및 서비스의 확장을 막는 요소다. 따라서 본 논문에서는 음성 재생 하드웨어를 대체할 수 있는 다채널 음성 재생 소프트웨어를 구현한다. 이는 기존의 하드웨어로 재생된 음성을 일반 사운드카드를 이용하여 재생할 수 있기 때문에 수신부에서 음성 재생을 위한 하드웨어의 설치 없이 사용할 수 있다는 장점을 가진다.
MSB (Most Significant Bit) 24 bits은 음성 데이터, LSB (Least Significant Bit) 8 bits은 zero-padding이 된 형식을 가지기 때문에 소프트웨어로 재생하기 위해서는 LSB 8 bits을 제거하는 과정이 추가되거나 음성 샘플을 32 bits으로 재생해야 올바른 재생 결과를 얻을 수 있다. 본 논문에서는 음성 재생 소프트웨어의 연산에 대한 부담을 줄이기 위해 LSB 8 bits을 제거하는 방식을 사용하지 않고 음성 포맷을 32 bits 로 설정하는 방식을 선택하였다.
본 논문에서는 좌ㆍ우 2개의 비압축 HD 영상 전송과 5.1채널의 음성 재생을 이용해 실감 협업 응용을 목표로 한다. 특히, 2개의 영상 세션과 1개의 음성 세션의 동기화 기법 및 다채널의 음성을 소프트웨어적으로 재생하는 모듈의 구현에 초점을 둔다.
이를 위해, 비압축 HD 미디어 전송 시스템을 개선[11]해 음성 프레임의 패킷화를 위해 비압축 음성 전송을 위한 RTP 페이로드를 정의, 오디오 세션과 비디오 세션의 인터 미디어 동기화, RTP 패킷의 특정 패킷 손실상황에서의 버퍼 관리등을 다루었다. 본 논문은 한층 더 몰입감 있는 협업환경을 위해 3D HD 영상 및 5.1채널 음성의 각 스트림을 비압축 HD 전송기술에 접목함으로써 협업 연구, 엔터테인먼트, 원격 의료 등의 요구를 만족시키는 시스템을 제안한다. 3D HD 영상을 재현하기 위한 방법을 위해 본 논문에서는 stereoscopic 영상을 사용해 입체감 있는 영상을 재현한다.
지금까지는 하나의 송신 시스템에서 하나의 수신 시스템으로 영상과 음성이 전송될 경우에 대해 알아보았다. 본 연구에서 다루는 병렬 세션간의 송신을 통한 stereoscopic 영상재생을 위해 세션을 병렬적으로 구성해 이용해 좌측과 우측의 영상을 각각의 송수신 시스템에서 받도록 한다.
음성 세션을 통해 수신된 6채널의 음성 프레임은 Advanced Linux Sound Architecture (ALSA) 기반으로 개발한 재생 모듈을 이용해 재생한다. 비압축 24bit 48Khz 6채널 오디오를 전송하기 위한 RTP 패킷 포맷의 정의는 [11]에서 다루었으며 본 논문에서는 수신측에서 전송 받은 오디오 프레임을 재생하기 위해 구현 시에 고려한 사항에 대해 자세히 다룬다. 이는 5절에서 소개되며, 요약하면, 가변적인 오디오 프레임의 구조로 인해 채널 변경을 막기 위해 메타데이터와 여분의 샘플을 저장할 수 있는 버퍼를 이용해 전송 에러나 지연에 의한 프레임 손실로 인한 채널 변경을 막을 수 있다는 것이며 이를 통해 6채널 음성의 재생이 수행된다.
개발된 음성 모듈을 사용해 한국에서 보낸 다채널 음성을 미국 SuperComputing06 행사에서 재생하는 시연을 수행했다. 시연은 비압축 HD 미디어 전송 시스템의 다채널 비압축 오디오 재생부분에 중점을 맞춰 참석자들에게 방향성 있는 HD 미디어를 체감하게 해주는 것에 목적을 두고 진행되었다. 다채널 오디오를 재생하기 위해 영상은 8bit로 보내진다.
이 절에서는 HD 미디어를 IP를 이용해 전송할 때 필요한 배경 지식을 알아보고, 입체감 있는 영상을 전송하기 위해 기존에 제안된 방법들과 본 연구와의 차이점을 밝힌다.
이 절에서는 비압축 HD stereoscopic 영상 및 다채널 음성 전송 시스템의 전체 구성에 대해 소개한다. 하나의 비압축 HD 영상 세션을 전송/재생하기 위해 한 쌍의 송ㆍ수신 시스템을 이용하며, 좌ㆍ우측 영상을 전송해야 하므로 총 두 쌍의 독립된 송ㆍ수신 시스템이 사용된다.
수신측의 동기화를 위한 설계는 [그림 5]에 나타나 있다. 인터 미디어 동기화의 목표는 같은 시간에 획득된 좌ㆍ우 프레임이 수신되었을 때 늦게 수신된 프레임과 같이 재생 될 수 있게 일찍 수신된 프레임의 재생시간을 보정해주는 것이다. 그림에서 좌측 영상 세션을 기준으로 살펴보면, RTCP 메시지(left RTCP#1)가 수신되고 해당 메시지로부터 RTCP timestamp (RTPts_L)와 그에 해당하는 NTP timestamp(NTPts_L)를 알 수 있다.
이는 기존의 하드웨어로 재생된 음성을 일반 사운드카드를 이용하여 재생할 수 있기 때문에 수신부에서 음성 재생을 위한 하드웨어의 설치 없이 사용할 수 있다는 장점을 가진다. 제안하는 비압축 stereoscopic 영상 전송과 다채널 음성 재생 시스템을 활용하여 고품질 HD 스트리밍 서비스와 다채널을 활용한 다자간 화상회의 서비스가 가능하며 이를 위한 사용 시나리오를 살펴봄으로써 본 응용 기술의 가능성을 검토한다.

가설 설정

이 장에서는 병렬 구조를 이루는 미디어 세션간의 동기화 모듈 및 개발한 음성 재생모듈의 설계를 다룬다. 병렬 세션의 인터 미디어 동기화는 송신측과 수신측 별로 다루며, 좌ㆍ우 영상의 두 송수신 시스템들의 시스템 클럭 (system clock)은 서로 동일하지 않아도 되며, 시스템 클럭의 속도는 같다고 가정한다. 공통 레퍼런스 클럭 (common reference clock)은 NTP를 사용한다.

제안 방법

GIST가 stereoscopic 영상의 송신측이 되며 KISTI가 수신측이 됐다. CPU 부하를 줄이기 위해 송수신 측의 네트워크 인터페이스 카드의 MTU 크기를 9180 bytes (점보 프레임)로 설정해 전송되는 패킷의 개수를 줄였고, 송신큐의 크기는 3000 byte로 설정했다. 수신측에서 프로젝터를 이용해 재생하기 위해 8bit로 샘플링해 송신하게 되었고, 좌ㆍ우 영상 및 음성을 보내기 전송하기 위해 약 2 Gbps의 네트워크 대역폭이 사용되었다.
고속 IP망 위에서 1440x1080i의 HD MPEG-2 압축 영상을 이용해 입체 영상 구현 및 원격 의료에 활용[9]한 사례도 있다. HD 카메라에 비해 저비용의 HDV(High-definition Digital Video) 캠코더를 이용해 MPEG-2 MP@HL의 인코딩된 영상을 얻고, 이를 동기화된 다중화 기법을 이용해 stereoscopic 영상을 고속 네트워크를 통해 전송한다. 수신 측에서는 역다중화 시켜 좌ㆍ우 영상을 획득한 후 소프트웨어적인 방법으로 병렬적인 디코딩을 수행 후 프로젝터를 통해 입체화면으로 재생한다.
개발된 음성 모듈을 사용해 한국에서 보낸 다채널 음성을 미국 SuperComputing06 행사에서 재생하는 시연을 수행했다. 시연은 비압축 HD 미디어 전송 시스템의 다채널 비압축 오디오 재생부분에 중점을 맞춰 참석자들에게 방향성 있는 HD 미디어를 체감하게 해주는 것에 목적을 두고 진행되었다.
독립된 두 개의 송신 시스템은 획득한 영상 프레임 및 음성 프레임을 RTP/RTCP를 이용해 총 3개의 세션(영상-좌, 영상-우, 음성)을 맺은 후 전송한다. [그림 2]에서 보듯이, 수신 시스템은 하나의 영상 세션과 음성 세션을 받아들이며, 재생 버퍼에 저장 후, 재생 시간이 되면 프레임을 만든 후 출력장치를 통해 재생한다.
다채널 음성 재생을 위해서, 본 논문에서는 오디오 프레임의 구조를 분석하고 채널 뒤섞임을 방지하기 위한 버퍼를 전처리로 추가하였다. 또한 프레임 손실에 의한 채널 뒤섞임을 방지하기 위해 입력신호와 시작 채널 메타 데이터를 비교하는 과정을 추가하였다. 이를 통해 다채널 음성 재생을 위한 시스템 구성의 비용 절감을 이룰 수 있었다.
33 샘플에 대한 처리를 다음 프레임의 오디오 데이터와 함께 처리할 수 있기 때문에 채널 뒤섞임을 방지할 수 있다. 또한, 오디오 프레임의 손실에 대비하여 [그림 11]과 같이 시작 채널의 메타 데이터와 버퍼에 입력되는 첫 샘플의 채널을 비교하는 과정을 추가하였다. 본 개발에서는 버퍼의 크기를 4800 샘플로 정의하였고 링 버퍼의 구조를 이용하여 버퍼를 설계하였다.
본 논문에서 실감 협업 환경을 구성하는데 필요한 비압축 stereoscopic HD 미디어 전송 및 다채널 오디오 재생 시스템을 다루었다. 또한, 좌ㆍ우 영상 세션의 인터 미디어 동기화에 대한 설계 및 다채널 음성 재생 소프트웨어를 구현을 하고 이를 실제 환경에서 테스트를 수행해보았다.
마지막으로 제안한 시스템의 가능성 있는 고품질 실감형 HD 스트리밍 서비스와 채널 할당을 통한 다자간 화상협업 서비스의 사용 시나리오를 알아 보았다. 이와 같은 고품질의 HD 실감 협업 시스템은 과학 기술뿐만 아니라 stereoscopic 스트리밍 서비스를 지원할 수 있으며 이를 위해서는 기본적으로 고성능의 네트워크 자원을 필요로 한다.
본 논문에서 개발한 음성 재생 소프트웨어는 ALSA에서 제공하는 라이브러리를 이용하여 구현하였다[4]. ALSA는 리눅스에서 사운드카드의 설치를 위한 드라이버 및 사운드 관련 유틸리티, 사운드 프로그래밍을 위한 라이브러리 등을 제공하는 공개 소스 코드이다.
본 논문에서 실감 협업 환경을 구성하는데 필요한 비압축 stereoscopic HD 미디어 전송 및 다채널 오디오 재생 시스템을 다루었다. 또한, 좌ㆍ우 영상 세션의 인터 미디어 동기화에 대한 설계 및 다채널 음성 재생 소프트웨어를 구현을 하고 이를 실제 환경에서 테스트를 수행해보았다.
보다 더 정확한 동기화를 고려한 모듈의 설계는 4절에서 소개된다. 요약하면, 한 수신 시스템은 다른 수신 시스템과 같은 시간에 획득된 프레임들의 재생시간 정보 교환을 통해, 먼저 도착한 프레임을 지연시키는 방법(RTP 프로토콜에서 기본적으로 제안하는 방법)을 이용하되 병렬적인 세션간의 프레임 송신 시간 정보 교환이 필요하므로 이 부분을 추가하는 방식으로 설계를 했으며, 구현을 위해 송수신측의 시스템 클럭, 미디어 클럭은 동일하게 설정한다.
입체감 있는 영상을 전송하기 위해 제안된 방법 중 하나는 UCLP (User Controlled LightPath)를 이용한 글로리아드 망 위에서의 stereoscopic 영상 전송[8]이 있다. 이 연구에서는 1920x1080i의 MPEG-2 압축 영상으로 좌ㆍ우 영상을 획득하고 약 50Mbps의 대역폭을 사용해 전송을 수행했으며 stereoscopic 영상 전송 및 재생을 수행했다. 저비용의 HD 카메라로부터 영상을 IEEE1394 인터페이스를 통해 MPEG-2 TS(transport system)으로 받아 전송하는 해당 시스템은 3D 재생을 위해 두 개의 프로젝터를 사용해 재생을 한다.
특히, 2개의 영상 세션과 1개의 음성 세션의 동기화 기법 및 다채널의 음성을 소프트웨어적으로 재생하는 모듈의 구현에 초점을 둔다. 이를 위해, 비압축 HD 미디어 전송 시스템을 이용해 stereoscopic 영상 획득, 3Gbps급의 고속 네트워크를 이용한 전송, 3D 재생 장치를 통한 입체감 있는 영상 재현이 가능하도록 시스템을 구축했다. 제안하는 시스템은 좌, 우측 영상 획득을 서로 다른 송신 시스템에서 수행하며, 전송 후 재생 또한 서로 다른 수신 시스템에서 수행된다.
Flag 필드는 해당 페이로드 헤더가 마지막 인지 아닌지를 알려주는 역할을 한다. 이와 같은 RTP 패킷의 필드들을 프레임의 타입, 전송하는 미디어의 클럭 등의 정보를 반영해서 전송함으로써 각 세션 별로 미디어를 전송한다.
입체감 있는 영상을 획득, 전송, 재생해 고화질 저지연성을 갖는 HD 협업 환경의 가능성을 실험을 통해 보였으며 동기화를 위한 설계를 송수신 각각의 측면에서 다루었다. 다채널 음성 재생을 위해서, 본 논문에서는 오디오 프레임의 구조를 분석하고 채널 뒤섞임을 방지하기 위한 버퍼를 전처리로 추가하였다.
저지연성의 입체감 있는 stereoscopic HD 전송을 위해 3절에서 언급한 시스템 구성을 갖추고 실험을 수행했다. GIST가 stereoscopic 영상의 송신측이 되며 KISTI가 수신측이 됐다.
이를 위해, 비압축 HD 미디어 전송 시스템을 이용해 stereoscopic 영상 획득, 3Gbps급의 고속 네트워크를 이용한 전송, 3D 재생 장치를 통한 입체감 있는 영상 재현이 가능하도록 시스템을 구축했다. 제안하는 시스템은 좌, 우측 영상 획득을 서로 다른 송신 시스템에서 수행하며, 전송 후 재생 또한 서로 다른 수신 시스템에서 수행된다. 즉, 병렬 세션 구조를 가지게 되며, 이 세션들간의 동기화 기법을 제안한다.
제안한 시스템은 비압축 영상 및 음성을 전송한다. 따라서 별도의 음성 코덱를 필요로 하지 않으며 RAW 데이터를 이용하여 재생한다.
제안하는 시스템은 좌, 우측 영상 획득을 서로 다른 송신 시스템에서 수행하며, 전송 후 재생 또한 서로 다른 수신 시스템에서 수행된다. 즉, 병렬 세션 구조를 가지게 되며, 이 세션들간의 동기화 기법을 제안한다.
음성은 하나의 세션만으로도 6채널을 전송하므로 하나의 송수신 시스템만을 이용해 전송한다. 해당 영상 세션들과 음성 세션을 전송하기 위해 본 연구에서는 8bit 샘플링 및 영상의 위아래 부분을 일부 잘라내는 방법을 사용해 2Gbps(1Gbps x 2) 네트워크 대역폭 요구사항 하에서 전송 실험을 수행했다.

대상 데이터

또한, 오디오 프레임의 손실에 대비하여 [그림 11]과 같이 시작 채널의 메타 데이터와 버퍼에 입력되는 첫 샘플의 채널을 비교하는 과정을 추가하였다. 본 개발에서는 버퍼의 크기를 4800 샘플로 정의하였고 링 버퍼의 구조를 이용하여 버퍼를 설계하였다.
485Gbps이며 이 신호에는 영상 및 음성 정보가 들어있다. 카메라로부터 받은 SMPTE-292M 신호를 송신 시스템의 HD-SDI (High Definition Serial Digital Interface) 인터페이스를 이용해 획득하며, 이는 1920x1080i (interlaced)의 8bit/10bit 샘플링된 영상이다. 획득은 29.

이론/모형

전송을 위해 사용된 네트워크는 L3 대륙간 IP 망을 할당 받았고, L2가 아닌 L3이므로 네트워크 상황은 다른 트래픽에 의해 변하며 이는 미디어의 재생 품질에 영향을 주는 요소가 된다. 전송을 위해 네트워크 인터페이스 설정은 점보 프레임을 사용했다. [그림 13, 14]는 수신측에서 재생시 측정된 프레임 재생률 및 지터를 표현하고 있다.

성능/효과

본 논문에서 개발한 다채널 음성 재생 소프트웨어는 최대 6 개의 독립된 채널을 지원하기 때문에 [그림 16]과 같이 각 채널에 음성을 할당하여 최대 6명의 다자간 화상회의에서 이해도를 향상시킬 수 있다는 장점이 있다. 특히, 상호간섭 효과 및 사용자 특성에 민감한 HRTF를 이용하지 않고 독립된 채널에 음성을 할당하기 때문에 스피커 환경에서도 회의의 이해도를 높일 수 있는 서비스의 지원이 가능하다.
본 논문에서 개발한 음성 재생 모듈에서는 [그림 10]과 같이 전송된 음성 데이터에 대한 버퍼를 이용하여 채널 뒤섞임을 방지하였다. 버퍼를 이용할 경우 0.
시연은 5.1채널 음성이 들어있는 컨텐츠와 스테레오 음성이 있는 영상을 송수신하는 것이었으며, 네트워크 상황에 따라 가끔 음성 재생의 품질 저하가 있기는 했지만 분리된 채널이 각 스피커 별로 재생됨에 따라 입체적인 음향을 갖는 HDTV를 체감할 수 있는 가능성을 보여주었다.
또한 프레임 손실에 의한 채널 뒤섞임을 방지하기 위해 입력신호와 시작 채널 메타 데이터를 비교하는 과정을 추가하였다. 이를 통해 다채널 음성 재생을 위한 시스템 구성의 비용 절감을 이룰 수 있었다.

후속연구

이와 같은 고품질의 HD 실감 협업 시스템은 과학 기술뿐만 아니라 stereoscopic 스트리밍 서비스를 지원할 수 있으며 이를 위해서는 기본적으로 고성능의 네트워크 자원을 필요로 한다. 그렇기 때문에 개발된 시스템은 국가 간의 연구망을 활용한 입체 영상 스트리밍 서비스와 프리미엄급 미디어 서비스에 주로 활용될 것으로 전망된다.
본 논문에서 개발한 음성 재생 소프트웨어는 멀티캐스트를 이용한 다자간 화상회의 서비스에 활용이 가능하다. 다자간 화상회의 서비스는 1:1 화상회의와 달리 회의에서 여러명이 동시에 이야기하는 경우가 발생한다.
비압축 영상을 이용해 입체감 있는 영상을 전송하는 시스템은 현재 상황에서 새로운 시도이며 가능성 있는 서비스 모델로서 연구의 가치가 있다고 본다.

핵심어	질문	논문에서 추출한 답변
	다채널 음성 재생 소프트웨어의 장점은?	따라서 본 논문에서는 음성 재생 하드웨어를 대체할 수 있는 다채널 음성 재생 소프트웨어를 구현한다. 이는 기존의 하드웨어로 재생된 음성을 일반 사운드카드를 이용하여 재생할 수 있기 때문에 수신부에서 음성 재생을 위한 하드웨어의 설치 없이 사용할 수 있다는 장점을 가진다. 제안하는 비압축 stereoscopic 영상 전송과 다채널 음성 재생 시스템을 활용하여 고품질 HD 스트리밍 서비스와 다채널을 활용한 다자간 화상회의 서비스가 가능하며 이를 위한 사용 시나리오를 살펴봄으로써 본 응용 기술의 가능성을 검토한다.
	Gigabit 초고속 네트워크의 등장은 어떤 기술의 등장을 요구해왔는가?	Gigabit 초고속 네트워크의 등장은 네트워크 자원을 충분히 이용할 수 있는 고대역폭의 응용 기술의 등장을 요구해왔다. 커뮤니티 기반의 실시간 협업은 이러한 응용의 하나이며, 특히 비압축 HD급 미디어 전송 기술을 이용한 고대역폭, 저지연, 고화질의 실시간 미디어 스트리밍은 고품질을 요구하는 사용자의 수요를 만족시킬 수 있는 응용으로 대두되어 왔다.
	SMPTE-292M은 무엇인가?	비압축 HD 영상 전송을 위한 시스템은 크게 획득, 전송, 재생의 세 부분으로 나뉘어 동작한다. 비압축 HD 신호를 로컬 장치들 간에 전송하기 위한 표준은 SMPTE-292M이다. SMPTE-292M 신호의 최대 전송률은 1.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

비압축 3D HD 영상 및 다채널 음성 전송
Uncompressed 3D HD Video and Multi-channel Sound Transport 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

비압축 3D HD 영상 및 다채널 음성 전송 Uncompressed 3D HD Video and Multi-channel Sound Transport 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

비압축 3D HD 영상 및 다채널 음성 전송
Uncompressed 3D HD Video and Multi-channel Sound Transport 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper