보고서 정보
주관연구기관 |
인제대학교 Inje University |
연구책임자 |
김상균
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2002-06 |
주관부처 |
과학기술부 |
사업 관리 기관 |
한국과학재단 Korea Science and Engineering Foundtion |
등록번호 |
TRKO200900072114 |
DB 구축일자 |
2013-04-18
|
초록
▼
컴퓨팅 환경이 발달하고 인터넷이 보편화되면서 오디오 데이터 사용이 증가하고 있다. 따라서 효과적인 오디오 데이터 검색 시스템의 개발이 필요하다. 그러d나 오디오 데이터에 대한 내용 기반 검색 관련 연구는 드물다. 인터넷상에서 오디오 데이터 서비스를 제공하는 업체들은 수작업에 의존하고 있다. 즉 전문가가 모든 곡들에 대해 해당 장르, 분위기, 빠르기 등의 다양한 정보를 수작업으로 추출하고, 이를 데이터베이스에 저장하여 사용자 질의에 사용한다. 이는 텍스트기반의 검색이며, 새로운 곡들을 추가할 때마다 수작업으로 곡에 대한 정보를 추출해
컴퓨팅 환경이 발달하고 인터넷이 보편화되면서 오디오 데이터 사용이 증가하고 있다. 따라서 효과적인 오디오 데이터 검색 시스템의 개발이 필요하다. 그러d나 오디오 데이터에 대한 내용 기반 검색 관련 연구는 드물다. 인터넷상에서 오디오 데이터 서비스를 제공하는 업체들은 수작업에 의존하고 있다. 즉 전문가가 모든 곡들에 대해 해당 장르, 분위기, 빠르기 등의 다양한 정보를 수작업으로 추출하고, 이를 데이터베이스에 저장하여 사용자 질의에 사용한다. 이는 텍스트기반의 검색이며, 새로운 곡들을 추가할 때마다 수작업으로 곡에 대한 정보를 추출해야하므로 많은 정보화 비용이 요구된다. 내용기반의 검색을 위해 일부 연구에서는 허밍이나 노래 멜로디의 계명을 질의어로 사용한다. 이러한 연구는 오디오 매칭 알고리즘의 개발이 선행되어야 하며 무엇보다도 오디오 데이터베이스를 구축하기 위해 곡중에서 대부분의 사용자가 기억할 것으로 예상되는 부분을 추출해야하는 문제를 안고 있다. 따라서 효과적인 오디오검색시스템을 개발하기 위해서는 데이터베이스를 구축하기 위한 특징추출 및 분류방법의 개발이 필수적이다. 본 연구에서는 내용기반의 오디오검색시스템을 개발하기 위한 기반 연구로 음악들의 장르를 분류하는 시스템을 개발하였다. 특징으로는 오디오데이터로부터 추출된 마디를 사용하며 분류기로는 시간지연신경망을 사용한다. 마디는 곡 중에서 스네어 악기영역을 기준으로 추출한다. 추출된 오디오 데이터의 한 마디를 푸리에 변환하여 시간지연신경망 분류기의 학습 패턴으로 사용한다. 제안한 시스템의 유효성을 검증하기 위하여 제한된 장르, Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno, Trash Metal의 8종류에 대하여 실험하였다. 장르별 10곡씩 총 80곡의 학습 데이터와 장르별 5곡씩 총 40곡의 테스트 데이터에 대하여 각각 92.5%와 60%의 정인식율을 보였다. 이러한 결과는 제안한 시스템이 웹상의 내용 기반 오디오 분류 엔진으로 실용화할 수 있는 가능성을 제시한다. 본 연구는 인터넷상에서의 멀티미디어 검색 엔진 개발을 위한 기본적인 기술을 개발하였다. 따라서 영상 처리, 패턴 인식, 데이터베이스, 인터넷 프로그래밍 등의 기술을 결합 응용한, 정보처리 및 검색의 예로써의 학술적 의의를 가진다. 또한 음향, 음성, 비디오 정보검색의 기반 기술을 제공하여 아직 초보적 단계에 머무르고 있는 내용 기반 정보 검색 시스템 개발 분야에 있어서 가치 있는 연구로 평가 될 것이다. 나아가서는 실용적인 검색 시스템을 개발하고자 하는 국내의 벤쳐 기업에 기술을 전수하여 상당한 경제적 효과를 거둘 수 있다.
Abstract
▼
With the rapid progress of computer and Internet technology, enormous information is generated in the form of multimedia data such as digital audios. As a result, efficient and effective retrieval of these audios is required. However we cannot find easily researches for content based audio retrieval
With the rapid progress of computer and Internet technology, enormous information is generated in the form of multimedia data such as digital audios. As a result, efficient and effective retrieval of these audios is required. However we cannot find easily researches for content based audio retrieval. Audio information Services on the Internet also depend on human intervention. Music experts manually extract audio information such as genre, tempo and musical scale, and store this information into database for audio retrieval. These text based systems need much costs to update the database. Some content based retrieval systems use humming or syllable names as query languages. However there are problems with these retrieval systems. First of all, it is difficult to extract important part of music that users are impressed by. Another problem is an efficient audio matching algorithm. Therefore, for the content based audio retrieval system, development of a feature extraction method and a classifier is the front-end step. In this study, we developed a music genre classification system as a essential research for the content based audio retrieval system. The feature is a measure extracted from audio data and the classifier uses Time Delay Neural Network(TDNN). The measure is based on snare drum sound. Training patterns for the TDNN classifier are Fourier transformed frequency feature vectors from the measure. To verify the validity of the classifier, we tested it with limited eight music genres such as Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno and Trash Metal. On eighty training data from ten musics for each genres and forty test data from five musics for each genres, the test showed correct classification rates of 92.5% and 60%, respectively. This result suggests that the proposed classifier has the possibility of a practical use for a content based audio retrieval system on the Web. This research deals with fundamental technology for the multimedia data retrieval. So, in the information processing and retrieval, application areas of combining technology of image processing, pattern recognition, database management, and Internet programming, it may be recognized as being of significance. It also advances techniques of extracting features and constructing classifiers for multimedia data in the development of information retrieval systems. Further, the domestic venture companies developing a practical retrieval system may be successful with our research.
목차 Contents
- 표지...1
- 요약문...2
- Summary...2
- I. 연구내용...3
- II. 관련연구...5
- 2.1 멀티미디어 내용기반 검색시스템...5
- 2.2 오디오 데이터 검색 관련 연구...6
- III. 음악 장르 분석 및 분류 대상 장르...7
- IV. 음악 장르 분류 시스템...9
- 4.1 시간 지연 신경망(TDNN : Time Delay Neural Network)...9
- 4.1.1 시간 지연 신경망의 구조...10
- 4.1.2 시간지연 신경망의 학습...12
- 4.1.3 음악 장르 분류 시스템의 TDNN 구성...13
- V. 특징 추출 및 학습 패턴 구성...14
- 5.1 오디오 데이터의 특성...16
- 5.2 마디 시작점 찾기...16
- 5.3 데이터 정규화...23
- 5.4 입력 패턴 생성...24
- VI. 실험 및 결과 분석...24
- VII. 결론 및 향후 연구 방향...28
- < 참고문헌 >...29
※ AI-Helper는 부적절한 답변을 할 수 있습니다.