파노라마 이미지는 현재 흔하게 사용되는 기술 중 하나이다. 하지만, 아직까지 파노라마 비디오 제작은 기술적 어려움이 존재한다. 360도 카메라와 같은 특수 카메라가 없을 경우, 파노라마 비디오 제작은 더욱 어려워진다. 파노라마 비디오를 제작하기 위해서는 여러 지점에서 촬영한 다수의 동영상의 시간축을 동기화할 필요가 있다. 하지만 카메라 내부 시계를 통한 시간축 동기화 기법은 내부 하드웨어 차이로 인해 오차가 발생할 수 있다. 이러한 문제를 해결하기 위해 영상 정보 또는 소리 정보를 이용한 다수 비디오 간 시간축 동기화 연구가 진행되었다. 하지만 영상 정보를 이용하는 경우 정확도와 프로세싱 시간에 문제가 있으며 소리 정보를 이용하는 경우 노이즈에 민감하거나 멜로디가 없으면 동기화가 없다는 문제점이 있다. 따라서 본 논문에서는 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법을 제안한다. 영상 정보 기반 시간축 동기화 기법보다 높은 동기화 정확도를 보여주며 시간적 효율성을 보여준다.
파노라마 이미지는 현재 흔하게 사용되는 기술 중 하나이다. 하지만, 아직까지 파노라마 비디오 제작은 기술적 어려움이 존재한다. 360도 카메라와 같은 특수 카메라가 없을 경우, 파노라마 비디오 제작은 더욱 어려워진다. 파노라마 비디오를 제작하기 위해서는 여러 지점에서 촬영한 다수의 동영상의 시간축을 동기화할 필요가 있다. 하지만 카메라 내부 시계를 통한 시간축 동기화 기법은 내부 하드웨어 차이로 인해 오차가 발생할 수 있다. 이러한 문제를 해결하기 위해 영상 정보 또는 소리 정보를 이용한 다수 비디오 간 시간축 동기화 연구가 진행되었다. 하지만 영상 정보를 이용하는 경우 정확도와 프로세싱 시간에 문제가 있으며 소리 정보를 이용하는 경우 노이즈에 민감하거나 멜로디가 없으면 동기화가 없다는 문제점이 있다. 따라서 본 논문에서는 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법을 제안한다. 영상 정보 기반 시간축 동기화 기법보다 높은 동기화 정확도를 보여주며 시간적 효율성을 보여준다.
Panoramic image is one of the technologies that are commonly used today. However, technical difficulties still exist in panoramic video production. Without a special camera such as a 360-degree camera, making panoramic video becomes more difficult. In order to make a panoramic video, it is necessary...
Panoramic image is one of the technologies that are commonly used today. However, technical difficulties still exist in panoramic video production. Without a special camera such as a 360-degree camera, making panoramic video becomes more difficult. In order to make a panoramic video, it is necessary to synchronize the timeline of multiple videos shot at multiple locations. However, the timeline synchronization method using the internal clock of the camera may cause an error due to the difference of the internal hardware. In order to solve this problem, timeline synchronization between multiple videos using visual information or auditory information has been studied. However, there is a problem in accuracy and processing time when using video information, and there is a problem in that, when using audio information, there is no synchronization when there is sensitivity to noise or there is no melody. Therefore, in this paper, we propose a timeline synchronization method between multiple video using audio waveform. It shows higher synchronization accuracy and temporal efficiency than the video information based time synchronization method.
Panoramic image is one of the technologies that are commonly used today. However, technical difficulties still exist in panoramic video production. Without a special camera such as a 360-degree camera, making panoramic video becomes more difficult. In order to make a panoramic video, it is necessary to synchronize the timeline of multiple videos shot at multiple locations. However, the timeline synchronization method using the internal clock of the camera may cause an error due to the difference of the internal hardware. In order to solve this problem, timeline synchronization between multiple videos using visual information or auditory information has been studied. However, there is a problem in accuracy and processing time when using video information, and there is a problem in that, when using audio information, there is no synchronization when there is sensitivity to noise or there is no melody. Therefore, in this paper, we propose a timeline synchronization method between multiple video using audio waveform. It shows higher synchronization accuracy and temporal efficiency than the video information based time synchronization method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 논문에서는 소리 파형을 이용한 시간축 동기화 기법을 제안한다. 2장에서는 다수 비디오간 시간축 동기화 기법과 관련된 연구를 소개하며, 3장에서는 본 논문에서 제안하는 소리 파형 기반 시간축 동기화 알고리즘에 대해 설명한다.
본 논문에서는 소리 파형을 이용하여 다수 동영상 간 시간축 동기화 기법을 제안한다. 그렇다면 왜 소리 파형일까?
본 논문에서는 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법을 제안하였다. 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법은 실험 결과 노이즈가 있는 상황에서도 높은 정확도의 시간축 동기화 결과를 보여주었으며, 영상 정보를 이용할 때보다 시간축 동기화 프로세싱 시간이 압도적으로 단축되는 것을 확인할 수 있었다.
가설 설정
소리 정보를 이용한 다수 비디오간 시간축 동기화 기법도 연구되었다. 오디오 핑거프린팅[8]을 이용한 비디오간 시간축 동기화 기법[5]이 제안되었는데 기존의 오디오 핑거프린팅을 변조해서 같은 핑거프린팅 값이 나왔을 때 같은 시간대임을 가정하고 시간축 동기화를 하였다. 하지만 오디오 핑거프린팅은 노이즈가 없다는 가정 하에 만들어진 개념이기 때문에 노이즈가 있는 일반적인 상황에서 촬영한 동영상의 시간축 동기화에는 어려움이 따라올 수 있다.
도 제시되었다. 이 기법은 SURF(Speed Up Robust Feature)[7]를 이용하여 동영상 내의 모든 프레임에서 키포인트와 특징을 추출하고 동영상 간 특징을 비교 및 매칭하여 유사도가 가장 높을 때 동일한 시간대라는 가정을 하고 시간축을 동기화한다. 하지만 이러한 방법은 비디오의 재생 길이가 길어질수록 시간이 오래 걸리게 되는데, 모든 프레임에서 키포인트 및 특징을 추출하기 때문이다.
영상 선택 후, 다른 파형 이미지와의 XOR 연산을 통해 비교를 하는데 흰색 픽셀이 가장 적은 때, 즉 파형의 모양이 가장 유사한 시점을 찾을 수 있다. 파형의 모양이 가장 유사한 시점이 두 비디오 간 동일한 시간대임을 가정하고 한 픽셀 씩 오른쪽으로 옮기면서 XOR 연산 후 흰색 픽셀이 가장 적은 때의 인덱스를 찾는다. 이후 기준 영상의 픽셀위치와 비교하여 두 비디오 간 프레임 차이 수를 계산할 수 있다.
제안 방법
수년간 영상 정보를 이용한 다수 비디오간 시간축 동기화 알고리즘이 연구되었다. RGB 히스토그램을 이용한 시간축 동기화[1] 기법 같은 경우 플래쉬 카메라를 이용하여 비디오 간 동일한 시간대를 찾는 방법을 제안하였다. 플래쉬가 터지는 순간 비디오 내 색상이 변하기 때문에 RGB 히스토그램도 변하게 되는데 이 순간을 포착하여 다수 동영상 간 시간축을 찾는 방식이다.
소리 파형은 물리학을 알고 있다면 다른 소리 정보에 비해 비교적 쉽게 이해할 수 있으며, 2차원 정보이기 때문에 스펙트로그램에 비해 다수 비디오의 소리 파형을 비교하는데 어려움이 따르지 않는다. 따라서 제안하는 알고리즘에서는 시간축 동기화에 필요한 수단으로 소리 파형으로 선택하였다.
영상 정보에 따른 시간축 동기화 프로세싱 시간과 소리 정보에 따른 시간축 동기화 프로세싱 시간 비교 실험 및 프레임 수 증가에 따른 시간축 동기화 프로세싱 시간 증가율에 대한 실험을 진행하였다. 본 실험에서 이용한 영상 정보는 SURF 기반 키포인트 및 특징 추출 정보이며 이미지 특징 매칭 기반 알고리즘[4]으로 실험하였으며 시간 및 컴퓨팅적 효율성을 위해 동영상의 해상도를 640 x 360으로 축소시켜 실험을 진행하였다. 시간 및 시간 증가율 비교 실험은 시간축 동기화 정확도 실험을 위해 구축한 테스트 세트를 활용하였으며 3개의 비디오로 구성된 테스트 세트의 경우 2개의 비디오만을 이용하였다.
본 실험에서 이용한 영상 정보는 SURF 기반 키포인트 및 특징 추출 정보이며 이미지 특징 매칭 기반 알고리즘[4]으로 실험하였으며 시간 및 컴퓨팅적 효율성을 위해 동영상의 해상도를 640 x 360으로 축소시켜 실험을 진행하였다. 시간 및 시간 증가율 비교 실험은 시간축 동기화 정확도 실험을 위해 구축한 테스트 세트를 활용하였으며 3개의 비디오로 구성된 테스트 세트의 경우 2개의 비디오만을 이용하였다.
영상 정보에 따른 시간축 동기화 프로세싱 시간과 소리 정보에 따른 시간축 동기화 프로세싱 시간 비교 실험 및 프레임 수 증가에 따른 시간축 동기화 프로세싱 시간 증가율에 대한 실험을 진행하였다.
테스트 세트 내 영상에는 다수 객체의 움직임이 포함되어 있으며 명확한 실험 결과를 위해 1 ~ 3초간의 시간 간격을 두고 촬영하였다. 제안한 알고리즘으로 시간축 동기화 알고리즘의 시간축 동기화 정확도를 실험하였으며, 추가적으로 정보 타입에 따른 시간축 동기화 프로세싱 시간 및 시간 증가율 비교 실험도 진행하였다. 실험 환경은 아래의 표1과 같으며 실험을 위해 구성한 테스트 세트에 대한 상세 정보는 표 2와 같으며 Video 1, Video 2, Video 3은 시간축 동기화 실험을 위해 구성한 임의의 비디오 2개 혹은 3개를 의미한다.
테스트 세트 구축을 위해 두 개 이상의 스마트 폰으로 실외에서 촬영하였으며 오디오에는 멜로디가 포함되어 있지 않고 실외에서 촬영할 때 얻을 수 있는 노이즈를 포함하고 있다. 테스트 세트 내 영상에는 다수 객체의 움직임이 포함되어 있으며 명확한 실험 결과를 위해 1 ~ 3초간의 시간 간격을 두고 촬영하였다. 제안한 알고리즘으로 시간축 동기화 알고리즘의 시간축 동기화 정확도를 실험하였으며, 추가적으로 정보 타입에 따른 시간축 동기화 프로세싱 시간 및 시간 증가율 비교 실험도 진행하였다.
대상 데이터
실험을 위해 해상도 1280 x 720의 초당 60프레임, 오디오 샘플링 레이트는 44100Hz인 비디오 2개로 구성된 테스트 세트 2개 해상도 1920 x 1080의 초당 30프레임, 오디오 샘플링 레이트는 위와 동일한 비디오 3개로 구성된 테스트 세트 4개를 구축하였다. 테스트 세트 구축을 위해 두 개 이상의 스마트 폰으로 실외에서 촬영하였으며 오디오에는 멜로디가 포함되어 있지 않고 실외에서 촬영할 때 얻을 수 있는 노이즈를 포함하고 있다.
실험을 위해 해상도 1280 x 720의 초당 60프레임, 오디오 샘플링 레이트는 44100Hz인 비디오 2개로 구성된 테스트 세트 2개 해상도 1920 x 1080의 초당 30프레임, 오디오 샘플링 레이트는 위와 동일한 비디오 3개로 구성된 테스트 세트 4개를 구축하였다. 테스트 세트 구축을 위해 두 개 이상의 스마트 폰으로 실외에서 촬영하였으며 오디오에는 멜로디가 포함되어 있지 않고 실외에서 촬영할 때 얻을 수 있는 노이즈를 포함하고 있다. 테스트 세트 내 영상에는 다수 객체의 움직임이 포함되어 있으며 명확한 실험 결과를 위해 1 ~ 3초간의 시간 간격을 두고 촬영하였다.
성능/효과
본 논문에서는 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법을 제안하였다. 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법은 실험 결과 노이즈가 있는 상황에서도 높은 정확도의 시간축 동기화 결과를 보여주었으며, 영상 정보를 이용할 때보다 시간축 동기화 프로세싱 시간이 압도적으로 단축되는 것을 확인할 수 있었다.
제안한 알고리즘을 기반으로 하여 소리 파형을 이용한 시간축 동기화 정확도 실험을 진행하였으며, 실험 결과 동영상 간 프레임 차이 수가 60Hz 기반 최대 5프레임, 약 83ms 차이가 나며, 30Hz 기반 최대 2 프레임, 약 66ms 차이가 나 높은 정확도의 시간축 동기화 정도를 보여주는 것을 확인할 수 있다. 표 3에서 말하는 Video 1, Video 2, Video 3은 시간축 동기화를 위해 입력한 다수 비디오의 인덱스를 의미하며 인덱스가 1인 비디오인 Video1이 가장 짧은 비디오를 말한다.
후속연구
하지만 제안한 알고리즘 기반 시간축 동기화 기법은 소리가 없는 특수한 상황에서의 파노라마 비디오 제작에 어려움이 발생할 수 있다. 향후 연구로 소리가 없는 상황에서도 다수 비디오 간 시간축 동기화를 할 수 있는 기법을 연구해야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
비디오 내 특징점간 매칭을 이용한 동기화 기법은 어떻게 동기화 되는가?
비디오 내 특징점간 매칭을 이용한 동기화 기법[3,4]도 제시되었다. 이 기법은 SURF(Speed Up Robust Feature)[7]를 이용하여 동영상 내의 모든 프레임에서 키포인트와 특징을 추출하고 동영상 간 특징을 비교 및 매칭하여 유사도가 가장 높을 때 동일한 시간대라는 가정을 하고 시간축을 동기화한다. 하지만 이러한 방법은 비디오의 재생 길이가 길어질수록 시간이 오래 걸리게 되는데, 모든 프레임에서 키포인트 및 특징을 추출하기 때문이다.
소리 파형을 이용하여 다수 동영상 간 시간축 동기화 기법을 이용하면 동기화 정확도는 어떻게 되는가?
제안한 알고리즘을 기반으로 하여 소리 파형을 이용한 시간축 동기화 정확도 실험을 진행하였으며, 실험 결과 동영상 간 프레임 차이 수가 60Hz 기반 최대 5프레임, 약 83ms 차이가 나며, 30Hz 기반 최대 2 프레임, 약 66ms 차이가 나 높은 정확도의 시간축 동기화 정도를 보여주는 것을 확인할 수 있다. 표 3에서 말하는 Video 1, Video 2, Video 3은 시간축 동기화를 위해 입력한 다수 비디오의 인덱스를 의미하며 인덱스가 1인 비디오인 Video1이 가장 짧은 비디오를 말한다.
영상 정보 기반 시간축 동기화 기법의 문제점은 무엇인가?
이러한 문제를 해결하기 위해 수년간 다수 비디오 간의 동일한 시간대를 찾기 위한 연구가 진행되었다. 색상 정보나 영상 특징 등을 이용하는 영상 정보 기반 시간축 동기화 기법[1,2,3,4]이 제시되었는데, 영상 특징이나 색상 정보 같은 경우 데이터 사이즈가 크기 때문에 엄청난 자원을 필요로 하며 시간이 오래 걸리거나 시간축 동기화 정확도가 떨어지는 문제점이 있다.
참고문헌 (8)
Shrestha Prarthana, et al. "Synchronization of multiple video recordings based on still camera flashes." Proceedings of the 14th ACM international conference on Multimedia. ACM, 2006.
Lei, Cheng, and Yee-Hong Yang. "Tri-focal tensor-based multiple video synchronization with subframe optimization." IEEE Transactions on Image Processing 15.9 , pp. 2473-2480, 2006.
M. Ko and K. Yoon. "Timeline synchronization of video clips based on image matching.", Conference on Korean Society of Broadcast Engineers, pp.144-145, November, 2016
S. Kim and K. Yoon. "Optimization technique for timeline synchronization of video clips." Conference on Korean Society of Broadcast Engineers, pp.109-110, June, 2017.
Shrstha Prarthana, Mauro Barbieri, and Hans Weda. "Synchronization of multi-camera video recordings based on audio." Proceedings of the 15th ACM international conference on Multimedia. ACM, 2007.
Shrestha Prarthana, et al. "Synchronization of multiple camera videos using audio-visual features." IEEE Transactions on Multimedia 12.1, pp. 79-92, 2010.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.