[논문]허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구

김태헌; 정기철; 이인성

doi:10.9717/kmms.2022.25.5.748

Abstract ▼ AI-Helper

Thanks to the competition of AlphaGo and Sedol Lee, machine learning has received world-wide attention and huge investments. The performance improvement of computing devices greatly contributed to big data processing and the development of neural networks. Artificial intelligence not only imitates h...

Thanks to the competition of AlphaGo and Sedol Lee, machine learning has received world-wide attention and huge investments. The performance improvement of computing devices greatly contributed to big data processing and the development of neural networks. Artificial intelligence not only imitates human beings in many fields, but also seems to be better than human capabilities. Although humans' creation is still considered to be better and higher, several artificial intelligences continue to challenge human creativity. The quality of some creative outcomes by AI is as good as the real ones produced by human beings. Sometimes they are not distinguishable, because the neural network has the competence to learn the common features contained in big data and copy them. In order to confirm whether artificial intelligence can express the inherent characteristics of different arts, this paper proposes a new neural network model called Humming. It is an experimental model that combines vgg16, which extracts image features, and DeepJ's architecture, which excels in creating various genres of music. A dataset produced by our experiment shows meaningful and valid results. Different results, however, are produced when the amount of data is increased. The neural network produced a similar pattern of music even though it was a different classification of images, which was not what we were aiming for. However, these new attempts may have explicit significance as a starting point for feature transfer that will be further studied.

주제어

표/그림 (8)

그림 Fig. 1. Combining LSTM and Feed Forward Network.
그림 Fig. 2. DeepJ Architecture.
그림 Fig. 3. Humming's pre-model architecture.
그림 Fig. 4. Humming Architecture.
그림 Fig. 5. Humming prototype architecture.
그림 Fig. 6. Comparison midi score from train set and generated sample. (a) Train Seed Image, (b) Train Midi Score, (c) Generation Seed Image, and (d) Generation Result Midi Score.
그림 Fig. 7. Image embedding vectors through t-SNE visualization. (a) sea, (b) mountain, and (c) glacier.
표 Table 1. Composer list used for training.

AI 본문요약
AI-Helper

제안 방법

이 모델을 통하면 어떠한 이미지의 종류 혹은 그 안의 컨텐츠의 특징을 파악하여 그에 맞는 특정 작곡가나 장르의 자동작곡이 가능하다. 본 논문에서는 사진 속에 등장하는 풍경을 분류하여 각각을 클래식 음악사조에 대응시켰다. 모델에서 이미지를 입력받으면 해당 이미지를합성곱층(convolution layer)을 통과시켜서 고수 준 특징 벡터로 바꾼다.

대상 데이터

프리모델이 이미지 안의 컨텐츠와 특성을 잘 찾아내려면 데이터셋을 통해 미리 학습되어야 하지만, 이미 이미지 분류 문제는 연구가 많이 진행된 부분이다. 따라서 학습이 완료되어 파라미터가 공개된 신경망 중에서 Image Net 챌린지에서 높은 성능을 보였던 VGG16[11]의 합성곱층의 학습이 끝난 모듈을 사용하여 프리모델을 구성하였다. 합성곱층을 통과한 이미지 데이터는 3차원 벡터로 바뀌는데 원본보다 크기가 작아졌지만 시드 벡터로 사용하기에는 여전히 크기가 큰 편이다.
사용하는 midi셋의 음악사조가 크게 세 가지:바로크, 낭만주의, 고전주의이므로 이미지 셋에서도 차이가 가장 크게 구분되는 빙하, 산, 바다를 활용했다. 메모리 크기를 고려하여 각 음악사조별로 midi 파일을 10개씩 뽑아 쌍으로 만들어 학습데이터를 완성했다. 신경망은 이미지의 임 베딩을 담당할 프리모델과 자동작곡을 담당하는 메인 모델로 구분되며, 프리모델은 학습된 vgg16의 합성곱층과 완전연결계층으로만 이루어진다.
그리고 kaggle의 이미지셋의 경우에는 의미 없는 노이즈 샘플 제거 및 분류에 부합하지 않거나 모호한 샘플들을 직접 수작업으로 제거하여 데이터를 정제하였다. 사용하는 midi셋의 음악사조가 크게 세 가지:바로크, 낭만주의, 고전주의이므로 이미지 셋에서도 차이가 가장 크게 구분되는 빙하, 산, 바다를 활용했다. 메모리 크기를 고려하여 각 음악사조별로 midi 파일을 10개씩 뽑아 쌍으로 만들어 학습데이터를 완성했다.
방법을 개선한 후에 C장조로의 조 변환, 연주 속도통일, 곡 길이 제한 등을 통해 데이터셋을 가공하였다. 사용한 작곡가 리스트는 Table1과 같으며 해당 작곡가들의 곡 중에서 메모리의 한계를 고려하여 길이가 5분 이내의 곡들로 선정하여 midi데이터셋을 완성했다.
경음악 계열의 작곡가인 Sereno, July 두 사람의 곡을 각각 3개씩 midi 파일로 준비하였고, 조 변환을 통해 모두 C장조로 통일하고 연주 속도도 서로 동일하게 맞추었다. 사진은 이미지의 특징이 확실하게 차이 나는 상상도들로 선정하였고, 각 midi 파일 하나당 사진 하나씩 일대일대응 관계로 쌍을 지어 학습데이터로 만들었다. 그리고 이후 스타일 입력부와 임베딩을 담당하는 완전연결계층의 활성 함수를 튜닝하여 최적의 결과를 찾아냈다.

이론/모형

그리고 이것을 음악 생성의 시드 (seed)벡터를 사용하여 작곡을 진행하게 된다. 작곡을 맡는 모듈은 DeepJ[5]의 신경망 모델을 차용하였다. 이후 kaggle의 intel image데이터셋과 maestro midi데이터셋을 사용하여 학습을 진행하였으나, 아쉽게도 원하던 결과를 얻지 못하였다.

성능/효과

데이터양이 적은 초기 실험 단계에서는 이미지에 있는 특징들을 인지하여 유사한 멜로디가 나타났다. 이후 데이터 양을 늘려도 대부분이 유사한 특징을 보이는 빙하의 이미지 셋에서는 대체로 유사한 스타일과 느낌을 지닌 음악들이 생성되었다.
둘째, 이미지 데이터 간의 이질감이다. t-SNE을통해 시각화한 산포도에서 알 수 있는 것처럼 분 명동 일한 분류에 속함에도 각 분류의 분포가 길게 늘어진 형태를 띈다.
이를 통해 처음에 제시한 ‘이미지의 특징을 시드로 사용한 자동작곡’이 충분히 가능성이 있음이 확인되었다
그에 대한 이유로는 크게 두 가지로 추측된다. 첫째, 추가적인 midi데이터셋의 정제와 보정이다. 각장르 간의 샘플들의 재생 시간에 차이가 있는데 이것들은 결국 전체 데이터셋에서 각 장르의 샘플들이 가지게 되는 비율의 차이를 불러올 것이다.

후속연구

그렇기에 위의 문제들을 해결하기 위해서 이미지의 분류를 좀 더 세분화하거나, 이미지 내에 존재하는 콘텐츠들의 유사성을 분류의 기준에 포함하여 군집이 잘 이루어지도록 하면 임 베딩 된 스타일 벡터 가곡 생성의 시드의 역할이 개선될 것으로 판단된다.
이후 연구에서는 이미지셋의 개선과 midi 파일들의 정밀한 정제와 가공이 이루어진다면, 충분히 예술영역 간의 변환이 절대 불가능한 일이 아님을 본 논문에서 증명했다고 생각한다. 이는 인공지능이 정말 사람처럼 무언가를 보거나 경험한 것을 자신만의 예술 분야로 표현하는 것이 가까운 시일 내에 가능하다는 점을 시사한다.
현재생성모델링 연구들은 ‘음악-음악’ 혹은 ‘그림-그림 ‘과 같이 동일한 영역 간의 변환이 연구되어 왔지만 이 논문을 통해서 서로 다른 예술영역 간의 특징 전이가 가능함이 알려진다면 차후 더 많은 분야에서 활용될 수 있을 것이다

참고문헌 (11)

D.P. Kingma and M. Welling, "Auto-Encoding Variational Bayes," arXiv preprint, arXiv:1312.6114, 2013.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, et al., "Generative Adversarial Nets," Proceedings of the 27th International Conference on Neural Information Processing Systems, Vol. 2, pp. 2672-2680, 2014.
S. Dieleman, A.V.D. Oord, and K. Simonyan, "The Challenge of Realistic Music Generation: Modelling Raw Audio at Scale," arXiv P reprint, arXiv:1806.10474, 2018.
H.J. Choi, J.-H. Hwang, S. Ryu, and S. Kim, "Music Generation Algorithm based on the Color-Emotional Effect of a Painting," Journal of Korea Multimedia Society, Vol. 23, No. 6, pp. 765-771, 2020.
H.H. Mao, T. Shin, and G. Cottrell, "DeepJ: Style-Specific Music Generation," IEEE 12th International Conference on Semantic Computing (ICSC), pp. 377-382, 2018.
J.P. Briot, G. Hadjeres, and F.D. Pachet, "Deep Learning Techniques for Music Generation--A Survey," arXiv preprint, arXiv:1709.01620, 2017.
S. Hochreiter, and J. Schmidhuber, "Long Short-Term Memory," Neural Computation, Vol. 9, No. 8, pp. 1735-1780, 1997.

상세보기
D. Eck and J. Schmidhuber, "A First Look at Music Composition using LSTM Recurrent Neural Networks," Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, Vol. 103, pp. 48, 2002.
D. Makris, M. Kaliakatsos-Papakostas, I. Karydis, and K.L. Kermanidis, "Combining LSTM and Feed Forward Neural Networks for Conditional Rhythm Composition," InterNational Conference on Engineering Applications of Neural Networks, Springer, Cham, pp. 570-582, 2017.
D.D Johnson, "Generating Polyphonic Music using Tied Parallel Networks," International Conference on Evolutionary and Biologically Inspired Music and Art, Springer, Cham, pp. 128-143, 2017.
K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv preprint, arXiv:1409.1556, 2014.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구
Humming: Image Based Automatic Music Composition Using DeepJ Architecture 원문보기

Abstract ▼ AI-Helper

주제어

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구 Humming: Image Based Automatic Music Composition Using DeepJ Architecture 원문보기

Abstract ▼ AI-Helper

주제어

표/그림 (8) 모든 표/그림 보기

표/그림 (8) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

정기철 (37)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

허밍: DeepJ 구조를 이용한 이미지 기반 자동 작곡 기법 연구
Humming: Image Based Automatic Music Composition Using DeepJ Architecture 원문보기

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper