[논문]만 3-5세 유아의 한국어 음성 데이터베이스 구축

유재권; 이경옥; 이경미

doi:10.5392/jkca.2012.12.04.052

만 3-5세 유아의 한국어 음성 데이터베이스 구축
Speech Database for 3-5 years old Korean Children 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.4, 2012년, pp.52 - 59

유재권 (덕성여자대학교 컴퓨터학과) , 이경옥 (덕성여자대학교 유아교육학과) , 이경미 (덕성여자대학교 컴퓨터학과)

초록
AI-Helper

유아는 만3~5세 사이에 언어 능력이 빠르게 발달하게 된다. 유아의 언어발달에 맞는 다양한 경험을 위해서는 그 시기에 맞는 콘텐츠 개발이 필요하다. 다양한 콘텐츠 개발을 위해 유아에 맞는 음성 인터페이스를 이용하는 것이 필요하지만, 한국어에서는 유아를 대상으로 한 데이터베이스가 구축이 되지 않았다. 본 논문에서는 한국어에서 만 3~5세 유아들의 객관화되고 정확한 음성 데이터 수집을 설계하기 위하여 발달시기에 맞는 적절한 단어 선정 및 성인과 다른 유아의 행동 특성 유형을 파악하는 과정을 거쳐 음성 데이터 베이스를 구축하였다. 단어의 경우 MCDI-K에서 두 단계를 걸쳐 선정하였고, 유아는 한 단어 당 세 번씩 발성하였다. 이렇게 수집된 음성 데이터는 유아별, 단어별 파일 토큰화 과정을 거쳐 데이터베이스로 구축되었다. 한국어 유아 음성 데이터베이스는 웹 페이지를 통한 기술 이전을 할 계획이며, 이를 통하여 유아들의 언어 발달에 유익한 다양한 콘텐츠 개발에 그 익일을 담당할 것으로 기대한다.

Abstract ▼ AI-Helper

Children develop their language skill rapidly between age 3 and 5. To meet the child's language development through a variety of experiences, it is necessary to develop age-appropriate contents. So it needs to develop various contents using speech interface for children, but there is no speech database of korean children. In this paper, we develop speech database of 3 to 5 years old children in korean. For collecting accurate children's speech, child education experts examine in the speech database development process. The words for database are selected from MCDI-K in two stage and children speak a word three times. Such collected speech are tokenized by child and word and stored in database. This speech database will be transferred through web and, hopefully, be the foundation of development of children-oriented contents.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 언어발달의 중요한 시기인 만 3~5세 유아의 말하기 능력을 강화하기 위한 음성 인터페이스 구축의 기반을 마련하고자 했다. 현재 한국에서는 대부분 성인 대상의 음성 데이터베이스가 구축되어 있고, 유아 대상의 음성 데이터베이스는 없었다.
본 논문에서는 한국어에서 만 3~5세 유아의 음성인식에 기초한 교육 콘텐츠 개발을 위해 음성 데이터베이스를 구축하는 것을 목적으로 하였다.

제안 방법

1차 음성 수집 방법을 수정하여 성인의 정확한 발음을 들려 준 후 발음을 하도록 하였다. 1차 수집 방법의 단점을 보완하여 35단어를 3번씩 발성하게 하여 5~7분 정도 음성을 수집하였다[10-13].
녹음 수집 장소에는 성인 진행자와 유아 한 명이 참여하여 진행했다. 1차 음성 수집 방법을 수정하여 성인의 정확한 발음을 들려 준 후 발음을 하도록 하였다. 1차 수집 방법의 단점을 보완하여 35단어를 3번씩 발성하게 하여 5~7분 정도 음성을 수집하였다[10-13].
1차 음성 수집 후 음성 인식기를 이용해 인식률이 낮은 저조한 단어와 집중력 저하를 야기하는 수집 방법에 대한 문제를 보완하여 2차 유아 음성 수집을 진행했다.
유아의 음성 수집을 위하여 [그림 1]과 같은 단계로 설계했다. 각 단계에서는 유아들의 객관화되고 정확한 음성 수집을 설계하기 위하여 유아교육전문가의 검토를 통하여 음성 수집의 단계를 진행하도록 설계 하였다.
준비된 화면은 성인 진행자에 의해 유아가 혼자 한 단어 당 세 번씩 발성하도록 했다. 녹음 진행 시간은 10~15분으로 약 50개의 단어를 3회씩 150번의 발성을 했다.
유아 음성 수집 설계와 기관 섭외 후 음성 시험 수집을 위해 MCDI-K(MacArthur Communicative Development Inventory - Korean)를 참고하여 1차 단어를 선정하였다. 단어 선정 완료 후 수집 환경에 대한 유아의 행동 유형을 분석하기 위해 1차 유아 음성 수집을 진행했다. 이 과정에서 녹음 시간방법에 대한 보완점을 발견하고 2차 음성 수집 방법을 수정했다.
따라서 유아가 그 시기에 배울 수 있는 단어를 중심으로 선정되었다. 단어 선정은 한국의 영유아가 사용하는 어휘를 설계한 MCDI-K를 바탕으로 유아교육전문가를 통해 내용의 타당성을 검토받았다. 유아 대상의 다양한 체감형 게임콘텐츠에서 사용될 수 있는 단어 개념으로 구성되어 있으며 1차 선정된 단어는 [표 2]와 같다.
따라서 예비연구를 통하여 한 번에 수집할 수 있는 단어를 측정하여 한 번에 수집되는 단어의 수를 제한하였다. 따라서 기존 유아 연구에서 사용한 25~40개의 단어를 5~10분 정도 수집한 것을 참고하여 35단어를 3번씩 발성하게 하여 5~7분 정도 음성을 수집하도록 2차 음성 수집 방법에 반영했다[10-13].
마지막으로 이탈리아에서 ChildIt 음성데이터베이스를 구축했다[9]. 데이터베이스 구축에 참여한 유아는 아동 문학에 나오는 58 혹은 65개의 문장을 읽는다.
국외의 이전 연구를 살펴보면 초등학생 이하 대상의 음성 수집 시 인터페이스 구축 시 사용될 장소로 예상되는 공공장소, 사무실, 학교의 컴퓨터실을 이용했다[7-9]. 본 논문에서도 데이터베이스 구축 목표에 맞게 음성 수집은 유아의 교육, 혹은 놀이를 할 수 있는 장소로 예상되는 유치원에서 진행했다. 유치원 공간은 잡음이 정제된 환경은 아니므로 조용한 빈 교실에서 녹음을 시행했다.
사용자의 편의를 위해 유아가 발성한 단어별로 음성 데이터의 토큰화 작업을 실시했다. 음성 데이터의 토큰화를 위해 사용되는 소프트웨어는 음성 녹음 시 사용하는 소프트웨어와 같은 CoolEdit Pro 2.
본 논문에서도 데이터베이스 구축 목표에 맞게 음성 수집은 유아의 교육, 혹은 놀이를 할 수 있는 장소로 예상되는 유치원에서 진행했다. 유치원 공간은 잡음이 정제된 환경은 아니므로 조용한 빈 교실에서 녹음을 시행했다.
음성 수집을 위한 장비는 노트북과 코리아 디지털의 MBL센서 KDS-1012 마이크를 사용했다. 음성 녹음을 위한 소프트웨어는 편집이 용이한 CoolEdit Pro 2.1을 사용하여 16KHz Sample Rate, Mono Channels, 16bit Resolution으로 설정하여 녹음을 진행했다.
음성 데이터베이스 수집 시 유아의 성별과 나이, 거주지, 형제관계 정보도 포함하여 설계했다.
1을 이용한다. 음성 데이터의 토큰화 과정에서 음성 데이터베이스를 이용하는 사용자를 위해 원본 파일 이름 규칙과 같이 파일 이름 규칙을 부여했다.
단어 선정 완료 후 수집 환경에 대한 유아의 행동 유형을 분석하기 위해 1차 유아 음성 수집을 진행했다. 이 과정에서 녹음 시간방법에 대한 보완점을 발견하고 2차 음성 수집 방법을 수정했다. 또한 선정된 단어 중 인식률이 낮은 단어를 발견하고 2차 단어 수집 과정에 반영했다

대상 데이터

KidCC는 “Go to Lotus organizer”와 같은 컴퓨터 명령어와 제어 문구를 다섯 명의 남자와 여섯 명의 여자가 참여했다.
다양한 분야의 응용이 가능한 발성 목록의 구성은 4연 숫자 340종, PBW 452종, 명령어와 지시어 400종, 단독숫자 41종으로 구성되어 있다. 구성된 발성 목록은 총 1,233종으로 1명의 학생이 발성하기에는 양이 많기 때문에 단독 숫자의 경우를 제외한 목록은 20개의 세트로 나누어 수집했다. 수집된 데이터의 남녀 성비는 1:1이며 1인당 발성량은 100~101단어이다.
녹음 수집 장소에는 성인 진행자와 유아 한 명이 참여하여 진행했다. 1차 음성 수집 방법을 수정하여 성인의 정확한 발음을 들려 준 후 발음을 하도록 하였다.
방문 전에 유아 음성 데이터베이스의 수집 목적과 앞으로의 발전 가능성, 방문 날짜, 참여연구원을 기재하여 기관의 동의를 구했다. 또한 명확한 음성 데이터베이스를 수집하기 위해 유치원의 조용한 빈 교실에서 데이터를 수집하였다
만 3~5세 대상의 유아 음성데이터베이스 수집은 추후 음성 인터페이스가 장착된 어플리케이션의 사용이 예상될 장소인 유치원에서 이뤄졌다.
만3~5세 대상의 음성데이터베이스 구축을 위한 음성 수집 과정과 동시에 유아 음성 데이터베이스 공개를 위해 음성 데이터의 토큰화와 수집에 참여한 유아의 정보를 기록한다. 토큰화 과정을 통해 저장될 파일은 사용자의 편의를 생각해 파일 규칙을 생성해 이름을 붙인다.
수집된 데이터의 남녀 성비는 1:1이며 1인당 발성량은 100~101단어이다. 수집 환경은 추후 음성인터페이스가 활용된 어플리케이션을 사용할 수 장소로 예상되는 사무실 또는 가정집에서 이루어졌다.
구성된 발성 목록은 총 1,233종으로 1명의 학생이 발성하기에는 양이 많기 때문에 단독 숫자의 경우를 제외한 목록은 20개의 세트로 나누어 수집했다. 수집된 데이터의 남녀 성비는 1:1이며 1인당 발성량은 100~101단어이다. 수집 환경은 추후 음성인터페이스가 활용된 어플리케이션을 사용할 수 장소로 예상되는 사무실 또는 가정집에서 이루어졌다.
KidCC는 “Go to Lotus organizer”와 같은 컴퓨터 명령어와 제어 문구를 다섯 명의 남자와 여섯 명의 여자가 참여했다. 실험을 목적으로 구축된 kidAM은 395명의 유아가 참여했고 유아가 자주 사용하는 단어 중심의 음성을 수집했고, 각각의 유아는 70단어를 발성한다.
음성 수집을 위한 장비는 노트북과 코리아 디지털의 MBL센서 KDS-1012 마이크를 사용했다. 음성 녹음을 위한 소프트웨어는 편집이 용이한 CoolEdit Pro 2.

이론/모형

유아 음성 수집 설계와 기관 섭외 후 음성 시험 수집을 위해 MCDI-K(MacArthur Communicative Development Inventory - Korean)를 참고하여 1차 단어를 선정하였다. 단어 선정 완료 후 수집 환경에 대한 유아의 행동 유형을 분석하기 위해 1차 유아 음성 수집을 진행했다.

성능/효과

명칭 수의 경우 중복되는 개, 마리, 명, 사람의 단어 때문에 인식률의 저하가 발생했다. 제목에 해당되는 단어는 다섯 개의 음절로 이루어져 다른 단어에 비해 유아가 발성하는 시간이 길었고, 같은 음절로 인해 인식에 혼동이 일어남을 확인했다. 이런 사실을 근거로 1차 음성 수집의 보완점을 발견했다.
1차 수집 과정 중 인식률 저하의 원인이 되는 단어는 삭제하고 새로운 단어의 대체가 필요했다. 특히 명칭 수의 경우 중복되는 개, 마리, 명, 사람의 단어 때문에 인식률 저하가 일어나는 것을 확인했다. 유아의 경우 성인보다 발음이 불명확하기 때문에 중복되는 음절을 최소화하여 2차 단어 선정에 반영했다.

후속연구

놀이와 교육적 측면 이외에 음성인식기 측면에서 한국 유아의 음성 특징 분석을 통해 유아에게 맞는 음성인식기의 인식률 향상을 도모할 수 있다. 구축된 한국 유아 음성 데이터베이스를 기초로 지속적인 유아의 음성 데이터를 확보하고, 구축내용과 방향에 대해 관련 연구자들의 많은 참여를 기대해 본다.
이는 유아의 음성을 연구자료로 배포하는데 있어 필요한 기초적인 정보를 포함하고 있을 뿐 해당 유아의 이름 및 구체적인 거주지는 포함하고 있지 않기 때문이다. 음성 데이터베이스 이술 이전을 통해 관련 연구의 기초자료가 되어 활발한 연구를 기대한다.
한국에서 유아 음성 데이터베이스 공개는 최초이며 이를 통해 유아 음성인식의 활발한 연구 진행의 기초가 될 것이다.
향후 유아 음성 데이터베이스 구축은 음성 인터페이스 개발의 기초자료가 되어 유아의 놀이와 교육과 관련한 다양한 콘텐츠에 활용할 것이다. 성인의 경우 현재 음성 인터페이스는 여가와 관련한 체감형 게임에 사용되지만, 유아의 경우 놀이와 교육에 동시에 이용될 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	CAI는 무엇인가?	현재 시대에 맞는 교육 환경 중 하나는 CAI(Computer-Assisted Instruction)개념이다. CAI는 교육 환경의 접근성을 용이하게 하여 학습 시간을 단축시켜주며 개개인이 필요한 학습을 선택할 수 있도록 하여 학습 효과를 증진시킨다[1]. 이런 정보통신 기술을 이용하여 시간과 장소에 구애받지 않는 교육활동의 학습 효과의 증진은 이미 이전 연구를 통해 입증된 사실이다[2-4].
	유아 언어 발달은 언제 급격하게 이루어지는가?	유아 언어 발달은 만3～5세까지 급격하게 발달하게 된다. 유아의 언어는 읽기, 쓰기, 듣기, 말하기로 구성되지만 유아의 언어발달은 이 모든 영역들이 통합되어 발달해간다.
	성인 음성 데이터베이스가 있음에도 불구하고 별도의 유아의 음성 데이터베이스가 필요한 이유는 무엇인가?	하지만 유아의 음성 데이터베이스가 구축이 되지 않은 상황에서 유아에 맞는 음성 인터페이스 구축은 어렵다. 한국어 기반의 성인 음성 데이터베이스는 구축이 되어 있지만 언어학적으로 성인과 유아는 해부학적, 생리학적 차이로 성인 음성인식기로 유아의 음성을 실험하게 되면 인식률에 큰 차이가 있다[6]. 따라서 유아에 맞는 음성 인터페이스를 구축하기 위해 대상에 맞는 음성 데이터베이스가 필요하다.

참고문헌 (15)

H. Deniz and H. Cakir, "Design principles for computer-assisted instruction in histology education : An exploratory study," Journal of Science Education and Technology, Vol.15, No.5, pp.399-408, 2006.

상세보기
G. J. Hwang and H. F. Chang, "A formative assessment-based mobile learning approach to improving the learning attitudes and achievements of students," Computers & Education, Vol.56, No.1, pp.1023-1031, 2011.

상세보기
S. Jane and C. Martyn, "E-learning and accessibility : An exploration of the potential role of generic pedagogical tools," Computers & Education, Vol.54, No.4, pp.1107-1116, 2010.

상세보기
L. M. Leslie, C. I. Chang, S. Wang, M. E. Beier, and Y. Klisch, "Learning and motivational impacts of a multimedia science game," Computers & Education, Vol.57, No.1, pp.1425-1433, 2011.

상세보기
이용주, 김봉완, 김영일, 최대림, "한국의 공동이용을 위한 음성언어자원의 구축 및 보급현황", 한국어정보학회, Vol.10, No.1, pp.81-85, 2008.
유재권, 이경미, "한국어에서의 성인과 유아의 음성인식 비교", 한국콘텐츠학회, Vol.11, No.5, pp.138-147, 2011.
S. Das, D. Nix, and M. Picheny, "Improvements in children's speech recognition performance," In: Proc. ICASSP 98, 1998.
L. Mahl, "Speech recognition and adaptation experiments on children's speech," KTH, Stockholm, Sweden, 2003.
M. Gerosa, D. Giuliani, and F. Brugnara, "Acoustic variability and automatic recognition of children's speech," Speech Communication, pp.847-869, 2007.
D. Giuliani and M. Gerosa. "Investigating recognition of children speech," In Proc. of ICASSP, pp.137-140, 2003.
B. W. Hwang, S. Kim, and S. W. Lee, "A full-body gesture database for automatic gesture recognition," In Proc. of IEEE Conf. on FGR, pp.243-248, 2006.
한나영, 저소득층 밀집지역에서 소득수준에 따른 만4, 5세 유아의 수용.표현 언어발달, 어휘력, 단어읽기 비교: G시 저소득층 밀집지역을 중심으로., 건국대학교 교육대학원 석사학위논문, 2011.
최은영, 초기 문해 기술이 유아의 단어읽기와 단어쓰기에 미치는 영향: 연령 및 가정의 사회경제적 지위별 분석, 건국대학교 교육대학원 박사학위논문, 2010.
J. Nicholas and A. Geers, "Effects of early auditory experience on the spoken language of deaf children at 3 years of age," Ear and hearing, Vol.27, No.3, pp.286-298, 2006.

상세보기
J. Piaget, Play, dreams and imitation in childhood, New York: Norton&company, 1962.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증