[보고서]TDNN을 이용한 음악장르 분류시스템 개발

김상균

TDNN을 이용한 음악장르 분류시스템 개발 원문보기

보고서 정보
주관연구기관	인제대학교 Inje University
연구책임자	김상균
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2002-06
주관부처	과학기술부
사업 관리 기관	한국과학재단 Korea Science and Engineering Foundtion
등록번호	TRKO200900072114
DB 구축일자	2013-04-18

초록 ▼

컴퓨팅 환경이 발달하고 인터넷이 보편화되면서 오디오 데이터 사용이 증가하고 있다. 따라서 효과적인 오디오 데이터 검색 시스템의 개발이 필요하다. 그러d나 오디오 데이터에 대한 내용 기반 검색 관련 연구는 드물다. 인터넷상에서 오디오 데이터 서비스를 제공하는 업체들은 수작업에 의존하고 있다. 즉 전문가가 모든 곡들에 대해 해당 장르, 분위기, 빠르기 등의 다양한 정보를 수작업으로 추출하고, 이를 데이터베이스에 저장하여 사용자 질의에 사용한다. 이는 텍스트기반의 검색이며, 새로운 곡들을 추가할 때마다 수작업으로 곡에 대한 정보를 추출해야하므로 많은 정보화 비용이 요구된다. 내용기반의 검색을 위해 일부 연구에서는 허밍이나 노래 멜로디의 계명을 질의어로 사용한다. 이러한 연구는 오디오 매칭 알고리즘의 개발이 선행되어야 하며 무엇보다도 오디오 데이터베이스를 구축하기 위해 곡중에서 대부분의 사용자가 기억할 것으로 예상되는 부분을 추출해야하는 문제를 안고 있다. 따라서 효과적인 오디오검색시스템을 개발하기 위해서는 데이터베이스를 구축하기 위한 특징추출 및 분류방법의 개발이 필수적이다. 본 연구에서는 내용기반의 오디오검색시스템을 개발하기 위한 기반 연구로 음악들의 장르를 분류하는 시스템을 개발하였다. 특징으로는 오디오데이터로부터 추출된 마디를 사용하며 분류기로는 시간지연신경망을 사용한다. 마디는 곡 중에서 스네어 악기영역을 기준으로 추출한다. 추출된 오디오 데이터의 한 마디를 푸리에 변환하여 시간지연신경망 분류기의 학습 패턴으로 사용한다. 제안한 시스템의 유효성을 검증하기 위하여 제한된 장르, Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno, Trash Metal의 8종류에 대하여 실험하였다. 장르별 10곡씩 총 80곡의 학습 데이터와 장르별 5곡씩 총 40곡의 테스트 데이터에 대하여 각각 92.5%와 60%의 정인식율을 보였다. 이러한 결과는 제안한 시스템이 웹상의 내용 기반 오디오 분류 엔진으로 실용화할 수 있는 가능성을 제시한다. 본 연구는 인터넷상에서의 멀티미디어 검색 엔진 개발을 위한 기본적인 기술을 개발하였다. 따라서 영상 처리, 패턴 인식, 데이터베이스, 인터넷 프로그래밍 등의 기술을 결합 응용한, 정보처리 및 검색의 예로써의 학술적 의의를 가진다. 또한 음향, 음성, 비디오 정보검색의 기반 기술을 제공하여 아직 초보적 단계에 머무르고 있는 내용 기반 정보 검색 시스템 개발 분야에 있어서 가치 있는 연구로 평가 될 것이다. 나아가서는 실용적인 검색 시스템을 개발하고자 하는 국내의 벤쳐 기업에 기술을 전수하여 상당한 경제적 효과를 거둘 수 있다.

Abstract ▼

With the rapid progress of computer and Internet technology, enormous information is generated in the form of multimedia data such as digital audios. As a result, efficient and effective retrieval of these audios is required. However we cannot find easily researches for content based audio retrieval. Audio information Services on the Internet also depend on human intervention. Music experts manually extract audio information such as genre, tempo and musical scale, and store this information into database for audio retrieval. These text based systems need much costs to update the database. Some content based retrieval systems use humming or syllable names as query languages. However there are problems with these retrieval systems. First of all, it is difficult to extract important part of music that users are impressed by. Another problem is an efficient audio matching algorithm. Therefore, for the content based audio retrieval system, development of a feature extraction method and a classifier is the front-end step. In this study, we developed a music genre classification system as a essential research for the content based audio retrieval system. The feature is a measure extracted from audio data and the classifier uses Time Delay Neural Network(TDNN). The measure is based on snare drum sound. Training patterns for the TDNN classifier are Fourier transformed frequency feature vectors from the measure. To verify the validity of the classifier, we tested it with limited eight music genres such as Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno and Trash Metal. On eighty training data from ten musics for each genres and forty test data from five musics for each genres, the test showed correct classification rates of 92.5% and 60%, respectively. This result suggests that the proposed classifier has the possibility of a practical use for a content based audio retrieval system on the Web. This research deals with fundamental technology for the multimedia data retrieval. So, in the information processing and retrieval, application areas of combining technology of image processing, pattern recognition, database management, and Internet programming, it may be recognized as being of significance. It also advances techniques of extracting features and constructing classifiers for multimedia data in the development of information retrieval systems. Further, the domestic venture companies developing a practical retrieval system may be successful with our research.

목차 Contents

표지...1
요약문...2
Summary...2
I. 연구내용...3
II. 관련연구...5
2.1 멀티미디어 내용기반 검색시스템...5
2.2 오디오 데이터 검색 관련 연구...6
III. 음악 장르 분석 및 분류 대상 장르...7
IV. 음악 장르 분류 시스템...9
4.1 시간 지연 신경망(TDNN : Time Delay Neural Network)...9
4.1.1 시간 지연 신경망의 구조...10
4.1.2 시간지연 신경망의 학습...12
4.1.3 음악 장르 분류 시스템의 TDNN 구성...13
V. 특징 추출 및 학습 패턴 구성...14
5.1 오디오 데이터의 특성...16
5.2 마디 시작점 찾기...16
5.3 데이터 정규화...23
5.4 입력 패턴 생성...24
VI. 실험 및 결과 분석...24
VII. 결론 및 향후 연구 방향...28
< 참고문헌 >...29

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

TDNN을 이용한 음악장르 분류시스템 개발 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

TDNN을 이용한 음악장르 분류시스템 개발 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트