[논문]RNN Auto-Encoder의 시계열 임베딩을 이용한 자동작곡

김경환; 정성훈

doi:10.9717/kmms.2018.21.8.849

RNN Auto-Encoder의 시계열 임베딩을 이용한 자동작곡
Automatic Composition using Time Series Embedding of RNN Auto-Encoder 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.21 no.8, 2018년, pp.849 - 857

김경환 (Dept. of Electronics and Information Eng., Hansung University) , 정성훈 (Dept. of Electronics and Information Eng., Hansung University)

Abstract ▼ AI-Helper

In this paper, we propose an automatic composition method using time series embedding of RNN Auto-Encoder. RNN Auto-Encoder can learn existing songs and can compose new songs from the trained RNN decoder. If one song is fully trained in the RNN Auto-Encoder, the song is embedded into the vector values of RNN nodes in the Auto-Encoder. If we train a lot of songs and apply a specific vector to the decoder of Auto-Encoder, then we can obtain a new song that combines the features of trained multiple songs according to the given vector. From extensive experiments we could find that our method worked well and generated various songs by selecting of the composition vectors.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 RNN Auto-Encoder를 이용한 자동작곡 방법을 제안하였다. RNN Auto-Encoder를 구현하여 곡을 학습시켰다.
본 논문에서는 RNN과 Auto-Encoder를 결합한 새로운 구조의 신경망을 제안한다. RNN Auto- Encoder는 기존 Auto-Encoder의 Encoder와 Decoder를 RNN으로 구성한다.
그러므로 많은 곡을 학습시킨 후 작곡을 위한 벡터 입력을 적절히 넣어주면 다수의 학습시킨 곡의 특징을 갖는 곡이 출력된다. 본 논문에서는 작곡을 위한 새로운 벡터를 넣는 방법으로 학습된 두 곡의 벡터 평균을 넣는 방법과 무작위 벡터를 넣는 방법에 대하여 실험하였다. 실험결과 두 곡의 벡터 평균을 넣는 경우 해당 곡의 특징이 잘 섞이는 것을 볼 수 있었으며 무작위 벡터를 넣는 경우 다양한 곡의 특징이 융합되는 것을 볼 수 있었다.
또한 다수의 곡을 학습한 후에 임의의 상태벡터를 RNN Decoder에 넣어주면 기존 곡들의 상태벡터와 작곡을 위해 넣어준 상태벡터의 관계를 통하여 기존의 학습된 곡들의 특징을 갖는 새로운 곡을 출력할 수 있었다. 본 연구에서는 근음만을 학습하고 근음만을 작곡하는 것을 구현하였다. 추후 작곡된 근음으로 화성을 만들어 화성이 있는 곡을 만드는 연구를 진행할 예정이다.
이러한 문제를 해결하고자 본 논문에서는 다수의 곡을 잘 학습하기 위한 새로운 신경망 구조를 제안한다. 우리는 시계열 데이터를 학습하기에 적합한 Re- current Neural Network(RNN)과 학습 데이터의 특징을 은닉층에 압축시키는 신경망 구조인 Auto- Encoder를 결합했다.

가설 설정

그래서 우리는 쉼표의 경우 숫자 50을 사용하여 시계열 데이터를 만들었다[9,10]. 박자는 4/4박자에서 16분 음표를 1로 가정하고 하나의 점음표까지만 허용하여 1, 2, 3, 4, 6, 8, 12, 16의 총 8개의 박자를 사용하였다[9].

제안 방법

본 논문에서는 RNN Auto-Encoder를 이용한 자동작곡 방법을 제안하였다. RNN Auto-Encoder를 구현하여 곡을 학습시켰다. RNN Auto-Encoder에 곡을 학습하면 동일한 곡을 출력하는 상태벡터로 해당 곡이 임베딩 되었다.
이를 극복하기 위하여 LSTM에서는 은닉층의 상태정보(h_t)와 함께 RNN의 셀 상태 정보(s_t)를 추가하였으며 셀 상태 정보도 은닉층의 상태정보처럼 순환하도록 하였다. 그리고 장기의존성을 해결하기 위하여 셀 상태정보의 순환에 이전 셀 상태정보(s_t-1)를 잊기 위한 망각게이트(forget gate)와 현재 입력정보를 기억하기 위한 입력게이트(input gate)를 추가하였다. 망각 게이트와 입력게이트는 현재입력(x_t)과 은닉층의 이전 상태정보(h_t-1) 를 이용하여 만들어진다.
RNN Auto-Encoder에 곡을 학습하면 동일한 곡을 출력하는 상태벡터로 해당 곡이 임베딩 되었다. 다수의 곡을 학습한 후 학습한 곡 중 두 곡의 상태벡터 평균을 RNN Decoder에 넣으면 두 곡의 특징이 나타나는 곡을 출력하였다. 또한 다수의 곡을 학습한 후에 임의의 상태벡터를 RNN Decoder에 넣어주면 기존 곡들의 상태벡터와 작곡을 위해 넣어준 상태벡터의 관계를 통하여 기존의 학습된 곡들의 특징을 갖는 새로운 곡을 출력할 수 있었다.
본 절에서는 본 논문에서 제안한 RNN Auto- Encoder 의 구조 및 학습방법 그리고 작곡방법을 설명한다. 먼저 RNN Auto-Encoder와 관련이 있는 RNN 인공신경망과 Auto-Encoder를 설명하고 RNN Auto-Encoder의 구조 및 학습방법을 설명한다. 마지막으로 RNN Auto-Encoder를 이용하여 다수의 곡을 학습하고 작곡하는 방법을 설명한다.
본 논문에서는 RNN의 종류 중 장기의존성 문제를 해결한 LSTM(Long Short Term Memory) 구조를 사용한다.
우리는 제안한 RNN Auto-Encoder를 텐서플로우상에서 구현하였다. Auto-Encoder상의 Encoder 와 Decoder는 128개의 은닉노드를 갖는 RNN으로 구성된다.
우리는 제안한 RNN Auto-Encoder의 성능을 보기 위하여 텐서플로우 상에서 구현하고 다양한 실험을 수행하였다. RNN Auto-Encoder의 RNN Encoder와 RNN Decoder는 단층의 128개의 은닉노드를 갖는 구조를 사용하였다.
그러나 이렇게 하면 시간 간격이 긴 정보, 즉 오래 전에 입력한 정보에 의존해서 출력을 내야하는 경우 오래 전에 입력된 정보가 거의 사라져 이러한 의존관계를 학습할 수 없다. 이를 극복하기 위하여 LSTM에서는 은닉층의 상태정보(h_t)와 함께 RNN의 셀 상태 정보(s_t)를 추가하였으며 셀 상태 정보도 은닉층의 상태정보처럼 순환하도록 하였다. 그리고 장기의존성을 해결하기 위하여 셀 상태정보의 순환에 이전 셀 상태정보(s_t-1)를 잊기 위한 망각게이트(forget gate)와 현재 입력정보를 기억하기 위한 입력게이트(input gate)를 추가하였다.
하지만 인공신경망이 만들어 낸 곡은 시계열 데이터로 변환한 멜로디 데이터를 학습한 것이기 때문에 박자, 화성 그리고 조성 측면에서 음악적 이론과는 맞지 않는 곡을 출력하였다. 이를 보완하기 위해 박자, 화성, 그리고 조성 후처리 알고리즘을 출력된 곡에 적용하여 음악적 이론을 만족하는 곡을 출력시켰다[10-12].
박자의 경우 못갖춘마디가 발생하고 음표의 경우 특정 조성에 없는 음이 발생하거나 마디 내에서 어울리지 않는 화성의 음표가 발생하기도 한다. 이를 해결하기 위하여 박자후처리, 화성후처리, 조성후처리를 수행하였다[11]. 또한 음악적으로 완성된 곡을 위해서는 곡이 구성을 갖출 필요가 있다.
예를 들어 10개의 입력은 같은데 11번째의 출력이 다른 두 개의 학습 데이터가 있다면 인공신경망은 두 학습 데이터를 구분해서 학습할 수 없다. 이를 해결하기 위하여 입력 데이터에 마디구분을 추가하여 학습 데이터를 만들어서 학습시켰다[9,10]. 그러나 이러한 문제는 본 연구에서처럼 RNN을 사용할 경우에는 RNN이 내부에 상태를 갖기 때문에 발생하지 않는다.
우리는 작곡가 수준의 작곡을 위하여 비교적 최근에 작곡을 자동으로 하는 연구를 시작하였으며 주로 인공신경망을 이용해서 연구를 진행해왔다 [9-13]. 인간 작곡가가 작곡할 때 기존 곡을 듣고 영감을 받아 새로운 곡을 작곡하듯이 인공신경망에 기존 곡을 학습시킨 후 학습된 신경망을 이용해 새로운 곡을 작곡하게 하였다. 하지만 인공신경망이 만들어 낸 곡은 시계열 데이터로 변환한 멜로디 데이터를 학습한 것이기 때문에 박자, 화성 그리고 조성 측면에서 음악적 이론과는 맞지 않는 곡을 출력하였다.
먼저 학습할 다수의 midi 파일을 전 처리 한다. 전처리는 화음이 있는 곡에 대해서 근음만을 추출하고 추출한 근음에 대해서 음표와 쉼표 그리고 박자를 추출한다. 음의 경우 학습 곡 데이터에 사용된 음의 범위를 고려해 2 옥타브 솔부터 6 옥타브 도(G2～C#6)까지 총 42개의 음을 사용한다.
우리는 기존연구에서 곡의 데이터를 회귀적으로 구성하여 이를 전방향 인공신경망에 오류역전파알고리즘으로 학습하였다[9-13]. 학습에 사용한 인공신경망은 내부적으로 세 개로 구성하여 각각 음표/ 쉼표/박자를 학습하였다. 학습할 곡의 멜로디는 음표/쉼표/박자의 시계열 숫자 데이터로 표현하여 학습데이터로 사용하였다.
긴 곡도 잘 학습할 수 있도록 RNN은 LSTM (Long Short-Term Memory) 모델을 사용하였다. 학습할 곡은 멜로디와 박자로 나뉘어져서 one-hot encoding 된 형태로 두 개의 RNN Auto-Encoder에 학습된다. 하나의 곡 전체가 Auto-Encoder의 Encoder에 입력된 후 Encoder에 저장된 128개의 상태 가 Decoder에 복사되고 시작태그인 <S>와 함께 Decoder에 학습된다.

대상 데이터

7. Generated song using a random vector after training 26 number of songs.
우리는 제안한 RNN Auto-Encoder의 성능을 보기 위하여 텐서플로우 상에서 구현하고 다양한 실험을 수행하였다. RNN Auto-Encoder의 RNN Encoder와 RNN Decoder는 단층의 128개의 은닉노드를 갖는 구조를 사용하였다. 하나의 곡을 학습한 후 해당 곡의 상태벡터를 넣어주면 원곡이 그대로 출력됨을 볼 수 있었다.
6에서 보듯이 작곡된 곡이 학습된 두 곡의 특징을 모두 반영한 것을 볼 수 있다. 대규모 학습실험으로는 26개의 곡을 학습하고 임의의 상태벡터를 넣어서 작곡한 결과를 살펴보았다. Fig.
전처리는 화음이 있는 곡에 대해서 근음만을 추출하고 추출한 근음에 대해서 음표와 쉼표 그리고 박자를 추출한다. 음의 경우 학습 곡 데이터에 사용된 음의 범위를 고려해 2 옥타브 솔부터 6 옥타브 도(G2～C#6)까지 총 42개의 음을 사용한다. 박자의 경우 4분 음표를 1.
학습에 사용한 인공신경망은 내부적으로 세 개로 구성하여 각각 음표/ 쉼표/박자를 학습하였다. 학습할 곡의 멜로디는 음표/쉼표/박자의 시계열 숫자 데이터로 표현하여 학습데이터로 사용하였다. 음표는 전체 7옥타브 중에 2～4옥타브를 사용하여 1～36까지의 숫자로 표현하였다.

이론/모형

기존 연구에서는 곡을 학습하는 인공신경망으로 80년대에 개발된 전 방향 인공신경망(Feedforward Artificial Neural Network)을 사용하였다. 일반적으로 전 방향 인공신경망은 시계열데이터를 학습하지 못하기 때문에 학습할 곡의 데이터를 회귀적으로 구성하여 학습하였다[9,10].
Auto-Encoder상의 Encoder 와 Decoder는 128개의 은닉노드를 갖는 RNN으로 구성된다. 긴 곡도 잘 학습할 수 있도록 RNN은 LSTM (Long Short-Term Memory) 모델을 사용하였다. 학습할 곡은 멜로디와 박자로 나뉘어져서 one-hot encoding 된 형태로 두 개의 RNN Auto-Encoder에 학습된다.
우리는 기존연구에서 곡의 데이터를 회귀적으로 구성하여 이를 전방향 인공신경망에 오류역전파알고리즘으로 학습하였다[9-13]. 학습에 사용한 인공신경망은 내부적으로 세 개로 구성하여 각각 음표/ 쉼표/박자를 학습하였다.

성능/효과

다수의 곡을 학습한 후 학습한 곡 중 두 곡의 상태벡터 평균을 RNN Decoder에 넣으면 두 곡의 특징이 나타나는 곡을 출력하였다. 또한 다수의 곡을 학습한 후에 임의의 상태벡터를 RNN Decoder에 넣어주면 기존 곡들의 상태벡터와 작곡을 위해 넣어준 상태벡터의 관계를 통하여 기존의 학습된 곡들의 특징을 갖는 새로운 곡을 출력할 수 있었다. 본 연구에서는 근음만을 학습하고 근음만을 작곡하는 것을 구현하였다.
본 논문에서는 작곡을 위한 새로운 벡터를 넣는 방법으로 학습된 두 곡의 벡터 평균을 넣는 방법과 무작위 벡터를 넣는 방법에 대하여 실험하였다. 실험결과 두 곡의 벡터 평균을 넣는 경우 해당 곡의 특징이 잘 섞이는 것을 볼 수 있었으며 무작위 벡터를 넣는 경우 다양한 곡의 특징이 융합되는 것을 볼 수 있었다.

후속연구

그러나 작곡이라는 것은 기존 곡들의 특징을 적절히 융합하는 것이 중요하기 때문에 큰 문제는 되지 않는 다. 장르별로 다수의 곡을 학습하고 장르별 평균과 편차를 이용하여 작곡용 상태벡터를 생성하면 장르별 작곡도 가능할 수 있을 것으로 판단된다. 차후 연구에서 장르별 대량의 곡을 학습하여 장르별로 작곡하는 것을 실험해볼 예정이다.
장르별로 다수의 곡을 학습하고 장르별 평균과 편차를 이용하여 작곡용 상태벡터를 생성하면 장르별 작곡도 가능할 수 있을 것으로 판단된다. 차후 연구에서 장르별 대량의 곡을 학습하여 장르별로 작곡하는 것을 실험해볼 예정이다.
본 연구에서는 근음만을 학습하고 근음만을 작곡하는 것을 구현하였다. 추후 작곡된 근음으로 화성을 만들어 화성이 있는 곡을 만드는 연구를 진행할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	인공신경망으로 작곡할 때 갖는 장점은 무엇인가?	마디구분으로 사용하는 수는 그 값 자체가 중요한 것이 아니라 학습 시와 작곡 시에 마디를 구분만하면 되는 것이기 때문에 무작위로 만들어도 된다. 학습된 인공신경망으로 작곡 할 때 학습 시 사용한 마디구분을 이용하여 곡의 위치를 설정할 수 있으며 또한 학습 시에 사용한 마디구분 값을 변형함으로서 작곡하는 멜로디에 변형을 가할 수 있는 등 많은 장점이 있다. 더 나아가 작곡 시에 마디구분을 반복적으로 배치함으로서 반복적인 곡을 생성할 수 있다.
	Auto-Encoder는 어떤 것인가?	Auto-Encoder는 출력레이블 없이 입력 데이터만으로 신경망을 학습하여 은닉층에 데이터의 특징을 압축시키는 비지도 학습 방법이다. Encoder와 Decoder로 구성되어 있으며 Fig.
	인공신경망이 출력한 곡이 지닌 문제는 무엇인가?	그러나 인공신경망이 출력한 음표/쉼표/박자는 학습된 음표/쉼표/박자 공간의 값을 출력한 것으로 음악적 이론에 맞지 않는 경우가 종종 발생한다. 박자의 경우 못갖춘마디가 발생하고 음표의 경우 특정 조성에 없는 음이 발생하거나 마디 내에서 어울리지 않는 화성의 음표가 발생하기도 한다. 이를 해결하기 위하여 박자후처리, 화성후처리, 조성후처리를 수행하였다[11].

참고문헌 (14)

B. Johanson and R. Poli, "GP-music: An Interactive Genetic Programming System for Music Generation with Automated Fitness Raters," Proceeding of the Third Annual Conference, pp. 181-186, 1998.
N. Tokui and H. Iba, "Music Composition with Interactive Evolutionary Computation," Proceeding of the Third International Conference on Generative Art, pp. 215-226, 2000.
C. Chen and R. Miikkulainen, "Creating Melodies with Evolving Recurrent Neural Networks," Proceedings of the 2001 International Joint Conference on Neural Networks, pp. 2241-2246, 2001.
T. Oliwa and M. Wagner, "Composing Music with Neural Networks and Probabilistic Finitestate Machines," Applications of Evolutionary Computing, pp. 503-508, 2008.
H. Kim, B. Kim, and B. Zhang, "Learning Music and Generation of Crossover Music Using Evolutionary Hypernetworks," Proceeding of Korea Computer Congress, pp. 134-138, 2009.
G. Bickerman, S. Bosley, P. Swire, and Rober M. Keller, "Learning to Create Jazz Melodies Using Deep Belief Nets," Proceeding of the International Conference on Computational Creativity, pp. 228-237, 2010.
A.E. Coca, R.A.F. Romero, and L. Zhao, "Generation of Composed Musical Structures Through Recurrent Neural Networks Based on Chaotic Inspiration," Proceeding of International Joint Conference on Neural Networks, pp. 3220-3226, 2011.
J.D. Fernandez and F. Vico, "AI Methods in Algorithmic Composition: A Comprehensive Survey," Journal of Artificial Intelligence Research, Vol. 48, pp. 513-582, 2013.

상세보기
J. Cho, E.M. Ryu, J. Oh, and S.H. Jung, "Training Method of Artificial Neural Networks for Implementation of Automatic Composition Systems," Korea Information Processing Society Transactions on Software and Data Engineering, Vol. 3, No. 8, pp. 315-320, 2014.
J. Oh, J. Song, K. Kim, and S.H. Jung, "Automatic Composition Using Training Capability of Artificial Neural Networks and Chord Progression," Journal of Korea Multimedia Society, Vol. 18, No. 11, pp. 1358-1366, 2015.

원문보기 상세보기
K. Kim and S.H. Jung, "Postprocessing for Tonality and Repeatability, and Average Neural Networks for Training Multiple Songs in Automatic Composition," Journal of Korean Institute of Intelligent Systems, Vol. 26, No. 6, pp. 445-451, 2016.

원문보기 상세보기
K. Kim and S.H. Jung, "Adoption of Artificial Neural Network for Rest, Enhanced Post-processing of Beats and Initial Melody Processing for Automatic Composition System," Journal of Korea Digital Contents Society, Vol. 17, No. 6, pp. 449-459, 2016.

원문보기 상세보기
K. Kim and S.H. Jung, "Automatic Generation of a Configured Song with Hierarchical Artificial Neural Networks," Journal of Korea Digital Contents Society, Vol. 18, No. 4, pp. 641-647, 2017.
S. Nitish, M. Elman, and S. Ruslan, "Unsupervised Learning of Video Representations Using LSTMs," Proceeding of the 32nd International Conference on Machine Learning, Vol. 37, No. 10, pp. 843-852, 2015.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증