본 논문은 컬러이미지에서 소리를 연상하는 인간의 공감각적 기능을 모방하는 지능로봇의 개발을 위하여 색-음 상호변환에 기초한 응용 시스템의 구축을 목표로 하고 있다. 그 첫 번째 단계로서 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이에 기반한 기본 시스템을 구현하고자 한다. 본 연구에서는 컬러 영상이 갖고 있는 색상과 소리의 파동, 즉 상호 주파수 특성에서의 유사성을 이용하여 가시영역에서 가청영역으로 변환하는 방법을 제시하고, 컬러모델 변환 및 변환된 모델에서의 히스토그램을 이용하여 컬러 영상을 소리의 청각적인 요소로 변환 가능하게 하는 색-음 변환 방법을 제시하고 있다. 또한 본 연구에서 제시된 색-음 변환 방법을 토대로 Microsoft Visual C++을 이용하여 코딩하고 실제 기본 응용 시스템을 구현해 보았다. 그 결과 색채와 소리의 상호 연관성 즉, 색채의 색상(Hue), 채도(Saturation)및 명도(Intensity)를 음의 높이(Fundamental Frequency), 하모닉(Harmonics) 및 옥타브(Octave)에 각각 대응시키고, 변환된 음향 요소를 Csound로 합성하여 웨이브 파일로 변환됨을 확인하였다.
본 논문은 컬러이미지에서 소리를 연상하는 인간의 공감각적 기능을 모방하는 지능로봇의 개발을 위하여 색-음 상호변환에 기초한 응용 시스템의 구축을 목표로 하고 있다. 그 첫 번째 단계로서 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이에 기반한 기본 시스템을 구현하고자 한다. 본 연구에서는 컬러 영상이 갖고 있는 색상과 소리의 파동, 즉 상호 주파수 특성에서의 유사성을 이용하여 가시영역에서 가청영역으로 변환하는 방법을 제시하고, 컬러모델 변환 및 변환된 모델에서의 히스토그램을 이용하여 컬러 영상을 소리의 청각적인 요소로 변환 가능하게 하는 색-음 변환 방법을 제시하고 있다. 또한 본 연구에서 제시된 색-음 변환 방법을 토대로 Microsoft Visual C++을 이용하여 코딩하고 실제 기본 응용 시스템을 구현해 보았다. 그 결과 색채와 소리의 상호 연관성 즉, 색채의 색상(Hue), 채도(Saturation)및 명도(Intensity)를 음의 높이(Fundamental Frequency), 하모닉(Harmonics) 및 옥타브(Octave)에 각각 대응시키고, 변환된 음향 요소를 Csound로 합성하여 웨이브 파일로 변환됨을 확인하였다.
This paper aims for developing the intelligent robot emulating human synesthetic skills which associate a color image with sound, so that we are able to build an application system based on the principle of mutual conversion between color image and sound. As the first step, in this study, we have tr...
This paper aims for developing the intelligent robot emulating human synesthetic skills which associate a color image with sound, so that we are able to build an application system based on the principle of mutual conversion between color image and sound. As the first step, in this study, we have tried to realize a basic system using the color image to sound conversion. This study describes a new conversion method to convert color image into sound, based on the likelihood in the physical frequency information between light and sound. In addition, we present the method of converting color image into sound using color model conversion as well as histograms in the converted color model. In the basis of the method proposed in this study, we built a basic system using Microsoft Visual C++(ver. 6.0). The simulation results revealed that the hue, saturation and intensity elements of a input color image were converted into F0, harmonic and octave elements of a sound, respectively. The converted sound elements were synthesized to generate a sound source with WAV file format using Csound toolkit.
This paper aims for developing the intelligent robot emulating human synesthetic skills which associate a color image with sound, so that we are able to build an application system based on the principle of mutual conversion between color image and sound. As the first step, in this study, we have tried to realize a basic system using the color image to sound conversion. This study describes a new conversion method to convert color image into sound, based on the likelihood in the physical frequency information between light and sound. In addition, we present the method of converting color image into sound using color model conversion as well as histograms in the converted color model. In the basis of the method proposed in this study, we built a basic system using Microsoft Visual C++(ver. 6.0). The simulation results revealed that the hue, saturation and intensity elements of a input color image were converted into F0, harmonic and octave elements of a sound, respectively. The converted sound elements were synthesized to generate a sound source with WAV file format using Csound toolkit.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
즉, 본 논문에서의 색-음 변환은 이미지의 색상, 명도, 및 채도를 소리의 피치, 옥타브 및 음색(하모닉 요소)에 각각 대응시키고, 대응 변환된 음의 요소를 합성하여 웨이브 포맷 파일로 변환한다. 그러므로, 본 논문에서는 색-음 변환 원리로서 주파수 변환공식을 유추하여 단순 변환시키는 것이 아니라, HSI 컬러모델에 기반한 컬러요소 각각에 음의 3요소를 매핑하는 방법에 주안점을 두고 있다. 또한, 음의 3요소를 추출하기 위하여 HSI 컬러 히스토그램을 이용하였다.
본 논문은 컬러이미지에서 소리를 연상하는 인간의 공감 각적 기능을 모방하는 지능로봇의 개발을 궁극적인 목표로 하고 있고, 이를 위하여 색-음 상호변환에 기초한 응용 시스템을 구현하고자 한다. 그 첫 번째 기본연구로서, 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이를 바탕으로 기본 시스템을 구현하였다.
색-음 변환 기반 감성시스템에 관한 기초 연구로서, 본 논문의 주된 작업은 색상정보와 소리정보를 이용한 색채와 소리의 물리적 파동원리의 공통점을 기반으로 상호 연관성을 찾아 색채와 소리라는 두 감각을 변환이 가능하도록 연결하는 보다 직관적인 방법을 찾는 것이다. 본 논문에서는 색-음 변환방법으로서, HSI 컬러모델의 색상(Hue), 채도 (Saturation) 및 명도(Intensity) 성분의 각각의 히스토그램 값을 기반으로 최대값을 구하고 음의 3요소인 음의 높이 즉, 기본주파수(Fundamental Frequency), 하모닉 (Harmonics) 및 옥타브(Octave)로 각각 매핑하여 음원을 합성하는 방법을 제안한다.
본 논문에서는 색-음 변환방법으로서, HSI 컬러모델의 색상(Hue), 채도 (Saturation) 및 명도(Intensity) 성분의 각각의 히스토그램 값을 기반으로 최대값을 구하고 음의 3요소인 음의 높이 즉, 기본주파수(Fundamental Frequency), 하모닉 (Harmonics) 및 옥타브(Octave)로 각각 매핑하여 음원을 합성하는 방법을 제안한다. 이를 기반으로 최종적으로 컬러 입력 영상에서 소리로의 색-음 변환을 가능케 하는 기본 변환 시스템을 구현하고자 한다.
제안 방법
가시영역의 대표적인 RGB 주파수는 도미솔의 주파수 비율과 일치하지만, HSI 컬러모델의 색상 성분은 RGB 상호간에 120도의 관계를 가지고 있으므로 본 논문에서는 색상 성분을 30도씩 분리하여 피아노의 12음계로 매핑하였다.
본 논문은 컬러이미지에서 소리를 연상하는 인간의 공감 각적 기능을 모방하는 지능로봇의 개발을 궁극적인 목표로 하고 있고, 이를 위하여 색-음 상호변환에 기초한 응용 시스템을 구현하고자 한다. 그 첫 번째 기본연구로서, 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이를 바탕으로 기본 시스템을 구현하였다. 실험 결과, 입력 RGB 컬러 영상을 HSI 영상으로 변환 분리함으로써 각각의 색상, 채도 및 명도 값을 음의 3요소인 음의 높이, 하모닉 및 옥타브에 각각 매핑시킴으로써 최종 음원이 생성됨을 확인하였다.
본 논문에서는 RGB 컬러모델에서 HSI 컬러모델로 변환한 후, H, S 및 I 각각의 채널의 세로 픽셀영역을 시간축으로 계산하였다. 그리고 색상 채널의 가로 픽셀영역은 히스토그램을 이용하여 최대값을 음의 높이에 해당하는 값으로 매핑하고, 명도 채널의 가로 픽셀영역에서 같은 방식으로 최대값을 구한 후 옥타브에 해당하는 값으로 매핑하여 기본 적인 멜로디 성분을 합성하였다.
공기의 진동을 매개로 전달되는 음향 또는 소리는 진동 수(Hz)를 이용하여 표시하고, 사람이 들을 수 있는 청각 범위, 약 20Hz∼20kHz에 이르는 가청주파수 대역을 이룬다. 그림 6은 가청주파수와 가시주파수 대역사이의 주파수 범위를 각각 보여주고 있고, 본 논문에서는 가시주파수 영역의 컬러영상 이미지의 특징요소를 추출하여 가청주파수 대역의 특징요소로 각각 매핑한 후, 피아노(88 키보드)의 주파수 대역으로 제한하여 음원을 생성하였다.
본 논문에서는 한 종류의 악기 사용을 전제로 하였으므로 6개의 하모닉 성분을 가진 하나의 음색으로 고정하여 이용하였다. 또한 명도 채널의 픽셀 값들도 동일한 방식으로 히스토그램을 구하고, 피아노(88키보드) 건반의 7개의 옥타브 주파수 성분에 대응시켰다.
그러므로, 본 논문에서는 색-음 변환 원리로서 주파수 변환공식을 유추하여 단순 변환시키는 것이 아니라, HSI 컬러모델에 기반한 컬러요소 각각에 음의 3요소를 매핑하는 방법에 주안점을 두고 있다. 또한, 음의 3요소를 추출하기 위하여 HSI 컬러 히스토그램을 이용하였다.
이렇게 추출한 RGB 정보는 HSI와 같이 색상, 채도, 명도를 기준으로 하는 좌표 체계의 정보로 바꾸어 준다. 변환된 HSI 값 중 색상 채널의 각각의 가로축 픽셀 값들을 기준으로 12개의 그룹으로 나누어 히스토그램을 구하고, 히스토그램의 최대값을 음의 높이로 대응시킨다. 채도 채널의 픽셀 값들은 동일한 방법으로 음색에 영향을 끼치는 하모닉 주파수 성분에 대응시켰다.
본 논문에서는 RGB 컬러모델에서 HSI 컬러모델로 변환한 후, H, S 및 I 각각의 채널의 세로 픽셀영역을 시간축으로 계산하였다. 그리고 색상 채널의 가로 픽셀영역은 히스토그램을 이용하여 최대값을 음의 높이에 해당하는 값으로 매핑하고, 명도 채널의 가로 픽셀영역에서 같은 방식으로 최대값을 구한 후 옥타브에 해당하는 값으로 매핑하여 기본 적인 멜로디 성분을 합성하였다.
그림 11은 히스토그램을 이용한 색-음 변환 과정을 거쳐 변환, 생성된 음향파일을 Praat를 이용하여 스펙트로그램(Spectrogram) 및 포만트 (Formants)를 추출한 결과를 보여주고 있다. 본 논문에서는 기본주파수 성분을 제외한 6 개의 하모닉 성분을 가진 하나의 음색으로 고정하였고, Praat를 사용한 스펙트로그램 및 포만트 성분 추출에서 기본주파수 및 하모닉 성분을 확인할 수 있었다.
색-음 변환 기반 감성시스템에 관한 기초 연구로서, 본 논문의 주된 작업은 색상정보와 소리정보를 이용한 색채와 소리의 물리적 파동원리의 공통점을 기반으로 상호 연관성을 찾아 색채와 소리라는 두 감각을 변환이 가능하도록 연결하는 보다 직관적인 방법을 찾는 것이다. 본 논문에서는 색-음 변환방법으로서, HSI 컬러모델의 색상(Hue), 채도 (Saturation) 및 명도(Intensity) 성분의 각각의 히스토그램 값을 기반으로 최대값을 구하고 음의 3요소인 음의 높이 즉, 기본주파수(Fundamental Frequency), 하모닉 (Harmonics) 및 옥타브(Octave)로 각각 매핑하여 음원을 합성하는 방법을 제안한다. 이를 기반으로 최종적으로 컬러 입력 영상에서 소리로의 색-음 변환을 가능케 하는 기본 변환 시스템을 구현하고자 한다.
본 논문에서는 위에서 설명한 색-음 변환의 대표적인 기존 연구의 이론을 바탕으로, 그림 8에서 보여 지는 바와 같이 색채와 음의 대응관계를 정의하였다.
그림 5는 Csound를 이용한 음원 생성과정을 보여주고 있다. 본 논문에서는 입력된 RGB 컬러 영상을 우선 HSI 컬러모델로 분리한 후, 색-음 변환 과정 즉, 컬러영상의 세 가지 특징 요소들을 소리의 요소들로 매핑시킨다. 최종적으로 ORC 파일과 SCO 파일을 자동 생성하고, Csound를 이용하여 음원을 합성, 출력한다.
채도 채널의 픽셀 값들은 동일한 방법으로 음색에 영향을 끼치는 하모닉 주파수 성분에 대응시켰다. 본 논문에서는 한 종류의 악기 사용을 전제로 하였으므로 6개의 하모닉 성분을 가진 하나의 음색으로 고정하여 이용하였다. 또한 명도 채널의 픽셀 값들도 동일한 방식으로 히스토그램을 구하고, 피아노(88키보드) 건반의 7개의 옥타브 주파수 성분에 대응시켰다.
본 연구에서는 입력되는 RGB 컬러영상은 다음 식 (1)과 같은 변환식을 이용하여 HSI 컬러 모델로 변환한 다음 소리의 요소를 추출하는 과정을 거쳐 최종 음원을 생성하게 된다.
본 논문에서 제안한 색-음 변환 원리를 실험, 평가하기 위해 실험 도구로는 Microsoft Visual C++, Csound를 사용하고 생성된 음원의 평가 도구로서 Praat를 사용하였다. 즉, RGB 컬러영상에서 HSI 컬러모델로의 변환과 색-음 변환 프로그램을 C++로 코딩하였고, 음원 생성을 위해 Csound를 사용하였다. 또한, 생성된 음원의 분석 툴로는 Praat을 이용하여 분석하였다.
즉, 기존연구[8-10]에서처럼 주파수 변환 공식에 따라 12음계의 주파수비와 일치하도록 색상과 음을 대응시켜 주지 않고, 색상을 동일 간격이 되도록 30도씩 그룹화하여 12음계로 대응시키는 비교적 단순하고 직관적인 방법을 이용하였다.
색상, 명도, 채도가 바로 그것이며, 소리에도 그 음의 특성을 구분할 수 있는 속성이 있는데, 여기에는 음의 세기와 높이 그리고 음색 세 가지가 있다. 즉, 본 논문에서의 색-음 변환은 이미지의 색상, 명도, 및 채도를 소리의 피치, 옥타브 및 음색(하모닉 요소)에 각각 대응시키고, 대응 변환된 음의 요소를 합성하여 웨이브 포맷 파일로 변환한다. 그러므로, 본 논문에서는 색-음 변환 원리로서 주파수 변환공식을 유추하여 단순 변환시키는 것이 아니라, HSI 컬러모델에 기반한 컬러요소 각각에 음의 3요소를 매핑하는 방법에 주안점을 두고 있다.
이론/모형
예를 들면, 컬러로 된 그림을 출판하는 기업은 CMY 컬러 모델을 사용하며, 컬러 CRT 모니터와 컴퓨터 그래픽스 시스템들은 RGB 컬러 모델을 사용한다. 또한 색상, 채도 및 명도를 각각 다루어야 하는 시스템들은 HSI 컬러모델을 사용한다. 그림 1은 본 연구에서 기본적으로 사용하는 RGB 컬러모델의 Red, Green, Blue의 세 가지 요소와, HSI 컬러 모델의 Hue, Saturation, Intensity의 세 가지 요소 각각을 보여주고 있다[11,12].
즉, RGB 컬러영상에서 HSI 컬러모델로의 변환과 색-음 변환 프로그램을 C++로 코딩하였고, 음원 생성을 위해 Csound를 사용하였다. 또한, 생성된 음원의 분석 툴로는 Praat을 이용하여 분석하였다. 그림 11은 히스토그램을 이용한 색-음 변환 과정을 거쳐 변환, 생성된 음향파일을 Praat를 이용하여 스펙트로그램(Spectrogram) 및 포만트 (Formants)를 추출한 결과를 보여주고 있다.
본 논문에서 제안한 색-음 변환 원리를 실험, 평가하기 위해 실험 도구로는 Microsoft Visual C++, Csound를 사용하고 생성된 음원의 평가 도구로서 Praat를 사용하였다. 즉, RGB 컬러영상에서 HSI 컬러모델로의 변환과 색-음 변환 프로그램을 C++로 코딩하였고, 음원 생성을 위해 Csound를 사용하였다.
성능/효과
두 번째로, 음색에 영향을 끼치는 하모닉 성분은 음파를 구성하는 고조파의 구성 상태, 즉 하모닉 성분의 구조에 따라서 다르게 느껴진다. 즉, 외형상으로 매우 비슷한 악기라고 해도 고조파 배열과 크기가 다르면 두 악기는 서로 다른 음색을 가진다.
그 첫 번째 기본연구로서, 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이를 바탕으로 기본 시스템을 구현하였다. 실험 결과, 입력 RGB 컬러 영상을 HSI 영상으로 변환 분리함으로써 각각의 색상, 채도 및 명도 값을 음의 3요소인 음의 높이, 하모닉 및 옥타브에 각각 매핑시킴으로써 최종 음원이 생성됨을 확인하였다.
영역 3은 다양한 컬러영역이 혼합되어 있어 피치값도 그에 따라 변동됨을 알 수 있었다. 이와 같이 색상과 명도 채널로부터 최종 피치값을 추출하고, 이 값들은 입력되는 컬러 이미지의 색상의 변화에 따라 함께 변화함을 알 수 있었다.
후속연구
이를 위해 영상의 3요소인 색상, 질감 및 형태의 정보추출이 필요하다. 또한 추출된 영상의 3요소를 음악의 3요소인 화음, 멜로디 및 하모니에 매핑시키는 최적의 방식을 찾는 것이 앞으로의 연구 방향이 될 것이며, 최종 시스템을 검증하기 위해 시청각 실험을 통해 입력 이미지와 출력의 음악적인 요소의 연관성 여부도 설문 조사할 예정이다.
본 연구의 기대 효과로서 인간의 공감각적 기능을 모방하는 새로운 형태의 지능로봇 개발, 스마트폰 및 디지털카메라 등의 휴대형 디지털 단말기의 새로운 응용솔루션 제공, 기존 온/오프라인 광고 산업에 있어 새로운 광고전달매체로의 응용, 시각 및 청각장애인을 위한 컬러영상인식 및 청각인식 보조 장치의 개발 등 실로 다양한 분야의 산업영역에 응용 가능할 것으로 기대한다.
구현된 시스템의 문제점으로는 색-음 변환의 결과 음원의 소리는 뚜렷하게 출력 되지만 음악적인 요소가 배제되어 있어 음원만 듣기에는 부족한 점이 있었다. 앞으로의 연구 방향은 색-음 변환관계에 있어 컬러영상의 감성정보를 추출하여 음악적인 요소로 대응시키는 작업이 추가 되어야 할 것이다. 이를 위해 영상의 3요소인 색상, 질감 및 형태의 정보추출이 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
파동의 특성은 무엇인가?
파장과 진동수는 물리, 수학적으로 역비례 관계에 있어 수학적으로 상호변환이 가능한 물리량이다. 또한 파동으로 정의될 수 있으며, 파동의 특성인 진폭과 파장(또는 주파수)을 가진다. 이러한 파동의 특성은 가시영역에 있는 색채 신호와 가청영역에 포함되는 소리를 연결하는 근본적인 실마리를 제공한다.
컬러모델이란 무엇인가?
컬러모델(또는 컬러공간)은 일반적으로 컬러들과 다른 컬러들과의 관계를 표현하는 방법이다. 서로 다른 영상처리 시스템은 여러 이유 때문에 서로 다른 컬러모델을 사용한 다.
파동의 특성인 진폭과 파장은 어떤 실마리를 제공하는가?
또한 파동으로 정의될 수 있으며, 파동의 특성인 진폭과 파장(또는 주파수)을 가진다. 이러한 파동의 특성은 가시영역에 있는 색채 신호와 가청영역에 포함되는 소리를 연결하는 근본적인 실마리를 제공한다.
참고문헌 (15)
김민호, 정성환, 강민수, "음의 시각화와 그 표현의 경향", 디자인學硏究, Vol. 16, No. 3, pp. 101-110, 2003.
박진희, "음악과 색채의 유기적 관계에 관한 연구: 모드를 중심으로", 상명대 뉴미디어정보통신대학원, 석사논문, 2005.
N. Osmanovic, N. Hrustemovic, H. R. Myler, "A testbed for auralization of graphic art", IEEE Region 5, 2003 Annual Technical Conference, pp.45-49, 2003.
S. Matta, D. K. Kumar, X. Yu, M. Burry, "Discriminative analysis for image to sound mapping", Intelligent Sensing and Information Processing, pp. 119-122, 2004.
G. Bologna, B. Deville, T. Pun, "On the use of the auditory pathway to represent image scenes in real-time", Neurocomputing, Vol. 72, No. 4/6, pp. 839-849, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.