Objectives This study was aimed to analyze the reliability of vocal features and probabilities for being in Sasang constitutional types calculated from Sasang constitutional voice diagnosis system according to operator presence. Methods We acquired 96 voice recordings from one male and one female fo...
Objectives This study was aimed to analyze the reliability of vocal features and probabilities for being in Sasang constitutional types calculated from Sasang constitutional voice diagnosis system according to operator presence. Methods We acquired 96 voice recordings from one male and one female for 4 days. For the first 2 days, the subjects recorded their voice by themselves. For the last 2 days, they recorded according to the instruction of an operator following the standard operating procedure. We analyze the standard deviations of vocal features, probabilities for being three constitutional types, Tae-Eum (TE), So-Yang (SY), and So-Eum (SE) Results In the case of the female, coefficients of variations of the voice variables and the probabilities for being each constitutional type were all within 20%. In the case of the male, coefficients of variations were all within 20% except one variable. Even if there was no instruction from the operator, standard deviations of the probability did not increase for both genders. When recorded without the operator, for male, the probability for being SE decreased by 3.2%. For female, the probability for being TE increased by 5.438%, and that of SE decreased by 3.057%, and that of SY decreased by 2.394%. Conclusions When recorded without operators, for men, there was a significant difference in the probability for being SE. And for women, there were significant differences in the probabilities for all constitutional types.
Objectives This study was aimed to analyze the reliability of vocal features and probabilities for being in Sasang constitutional types calculated from Sasang constitutional voice diagnosis system according to operator presence. Methods We acquired 96 voice recordings from one male and one female for 4 days. For the first 2 days, the subjects recorded their voice by themselves. For the last 2 days, they recorded according to the instruction of an operator following the standard operating procedure. We analyze the standard deviations of vocal features, probabilities for being three constitutional types, Tae-Eum (TE), So-Yang (SY), and So-Eum (SE) Results In the case of the female, coefficients of variations of the voice variables and the probabilities for being each constitutional type were all within 20%. In the case of the male, coefficients of variations were all within 20% except one variable. Even if there was no instruction from the operator, standard deviations of the probability did not increase for both genders. When recorded without the operator, for male, the probability for being SE decreased by 3.2%. For female, the probability for being TE increased by 5.438%, and that of SE decreased by 3.057%, and that of SY decreased by 2.394%. Conclusions When recorded without operators, for men, there was a significant difference in the probability for being SE. And for women, there were significant differences in the probabilities for all constitutional types.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
동일 피험자에 대해서 반복 측정된 음성 특징들의 CV(Coefficient of Variation)값이 크거나 서로 다른 전문조작원(operator)에 의해 수행된 음성진단의 결과값이 상이하다면 체질진단의 신뢰성에 문제가 있을 수 있다. 따라서 본 논문에서는 체질진단툴의 음성진단 부분의 신뢰성을 검증하기 위해서, 전문조작원의 유무에 따라 음성 특징 변수들과 체질 확률값의 변화 정도를 살펴보기로 한다.
예전부터 개인에 대한 사상체질 진단은 한의사의 경험에서 나오는 주관적인 판단 기준에 의해서 결정되기에 현대 한의학에서는 사상체질과 과학, 공학기술을 접목하여 체질을 객관적이고 정량적으로 표현하고자 하는 연구가 계속 진행되고 있으며1, 한국한의학연구원에서는 웹기반 체질진단툴 서비스를 제공하고 있다2. 본 연구는 체질진단툴에서 음성진단 부분에 관한 것이다.
본 연구는 체질진단툴의 음성진단 부분의 신뢰성을 알아보고자 전문조작원의 유무에 따라 측정 변수들의 표준편차와 체질 확률 값의 차이를 분석하였다.
체질진단툴 음성진단의 신뢰성 검증에 있어서 전문조작원간의 차이보다 전문조작원이 있을 경우와 없을 경우 오차가 더 크기 때문에 본 연구에서는 전문조작원이 있는 경우와 없는 경우에 대한 실험을 진행하였다. 20대 남녀 각각 1명씩 총 4일간 24번씩 반복측정하여 96번의 음성데이터를 얻었다.
제안 방법
체질진단툴 음성진단의 신뢰성 검증에 있어서 전문조작원간의 차이보다 전문조작원이 있을 경우와 없을 경우 오차가 더 크기 때문에 본 연구에서는 전문조작원이 있는 경우와 없는 경우에 대한 실험을 진행하였다. 20대 남녀 각각 1명씩 총 4일간 24번씩 반복측정하여 96번의 음성데이터를 얻었다. 4일중 2일은 전문 조작원 없이 피험자가 직접 자신의 음성을 녹음하여 분석하였고, 나머지 2일은 표준작업지침을 충분히 숙지하고 있는 전문조작원의 지시에 따라서 녹음을 하였다.
20대 남녀 각각 1명씩 총 4일간 24번씩 반복측정하여 96번의 음성데이터를 얻었다. 4일중 2일은 전문 조작원 없이 피험자가 직접 자신의 음성을 녹음하여 분석하였고, 나머지 2일은 표준작업지침을 충분히 숙지하고 있는 전문조작원의 지시에 따라서 녹음을 하였다. 피험자는 평상시 음성으로 5개의 모음(‘아’, ‘에’, ‘이’, ‘오’, ‘우’)와 문장 (“우리는 높은 산에 올라가 맑은 공기를 마시고 왔습니다.
k={1,2,3}는 각각, 태음, 소음, 소양 그룹을 나타내고, {#k0 , #k,lasso(#)}는 각 그룹에 대해 회귀 계수를 추정한 것이다. 남녀 구분하여 독립적으로 회귀 계수 추정을 수행하였다 (Table 2).
본 연구는 현재 사용되는 체질진단툴 음성진단 부분에 있어서, 음성변수들이 전문조작원 유무에 따라서 얼마나 반복성 있게 측정되는지 보기위해, 남성과 여성에 대해서 각각 24회 반복 측정하여 통계 분석을 수행하였다. 또한 음성변수들로부터 계산되는 체질 확률값의 변화에 대해서도 분석하였다.
본 연구는 현재 사용되는 체질진단툴 음성진단 부분에 있어서, 음성변수들이 전문조작원 유무에 따라서 얼마나 반복성 있게 측정되는지 보기위해, 남성과 여성에 대해서 각각 24회 반복 측정하여 통계 분석을 수행하였다. 또한 음성변수들로부터 계산되는 체질 확률값의 변화에 대해서도 분석하였다.
마이크를 스탠드에 고정하는 등 전문조작원 유무를 제외한 다른 설정은 동일하게 하였다. 음성 녹음을 위해서는 GoldWave13 프로그램을 이용하여 mono, 샘플링 주파수 44,100Hz 설정으로 녹음하였다.
벡터는 Table 2에 정리한 음성특징벡터이다. 음성특징벡터는 비슷한 연령대 특징값들의 평균과 표준편차로 정규화 하여 사용하였다. k={1,2,3}는 각각, 태음, 소음, 소양 그룹을 나타내고, {#k0 , #k,lasso(#)}는 각 그룹에 대해 회귀 계수를 추정한 것이다.
피험자는 평상시 음성으로 5개의 모음(‘아’, ‘에’, ‘이’, ‘오’, ‘우’)와 문장 (“우리는 높은 산에 올라가 맑은 공기를 마시고 왔습니다. ”)을 각각 2번씩 녹음 하였다.
대상 데이터
기존 연구들과의 동일한 음성 녹음 절차를 따라서 모음과 문장을 모두 녹음하였지만, 본 연구에서는 현재 체질진단툴에서 활용하고 있는 문장 부분만 대상으로 분석하였다5,6. 음성 변수는 2회 녹음된 문장에서 추출하여 평균값을 사용하였다.
음성 변수는 2회 녹음된 문장에서 추출하여 평균값을 사용하였다. 본 논문에서 사용한 변수들은 총 24개 이다 (Table 1).
사운드카드는 Sound Blaster Live 24-bit External을 사용 하였다. 사용된 마이크는 Sennheiser e-835s이며, 마이크의 주파수 응답은 40~16,000Hz이고, 민감도는 2.7mV/Pa 이다. 마이크를 스탠드에 고정하는 등 전문조작원 유무를 제외한 다른 설정은 동일하게 하였다.
데이터처리
. 음성 변수는 2회 녹음된 문장에서 추출하여 평균값을 사용하였다. 본 논문에서 사용한 변수들은 총 24개 이다 (Table 1).
전문조작원이 표준작업지침을 준수하여 실험할 때 음성변수와 체질 확률 값들의 표준편차가 더 줄어드는 지를 검정하기 위해 등분산 검정(Levene)을 하였다. 체질 확률값 계산에 사용되는 모든 음성변수에 대한 등분산 검정결과, 남성은 전문조작원이 있을 때 sDT(Duration time), sMFCC(Mel-Frequenay Cepstral Coefficients)1, 2, 3, 4, 10 변수의 표준편차가 작게 나타났다.
성능/효과
πk (k=1,2,3)를 구할 때 계수값을 보면 알 수 있듯이 π1(=pTE) 구하는 식에서 가중치가 큰 sF10, sMFCC12 변수에서 차이가 나타났고, π2(=pSE)와 π3(=pSY) 구하는 식에서는 가중치가 큰 sF50, sF90 변수들에서 차이가 나타났다 (Table 2, Table 8).
여성의 경우에도 sFHL변수만 제외하고 모든 변수의 CV값이 20% 이내로 나오는 것을 확인하였다. CV값을 비교 했을 때 가장 큰 차이는 pTE(태음 확률값)에서 18.63%(전문조작원 무)에서 12.03%(전문조작원 유)로 6.61%만큼 가장 많이 감소하였고, pSY(소양 확률값)에서 7.98%에서 12.41%로 4.42%만큼 가장 많이 증가 하였다. 전체적으로 전문조작원이 있을 때 CV가 줄어드는 경향을 확인할 수 있었다 (Table 4).
성별에 따른 음성 변수의 CV값을 살펴보면, 남성의 경우 sFHL(Ratio of average fundamental frequency percentile(sF90-sF50)/(sF50-sF10))변수를 제외하고 모든 변수의 CV값이 20% 이내로 나오는 것을 확인 하였다. CV값을 비교해보면 가장 큰 차이는 sFHL변수에서 74.59%(전문조작원 무)에서 65.02%(전문조작원 유)로 9.57%만큼 가장 많이 감소하였고 sFCV(Coefficient of variation of average fundamental frequency)변수에서 14.15%에서 16.14%로 1.99%만큼 가장 많이 증가 하였으나 그 차이는 크지 않다. 여성의 경우에도 sFHL변수만 제외하고 모든 변수의 CV값이 20% 이내로 나오는 것을 확인하였다.
결과로 체질 확률값의 표준편차는 전문조작원의 영향을 받지 않았지만, 체질 확률값의 차이는 T-test 결과 유의미하게 나타났다. 남성은 소음 체질 확률값에서 유의미한 차이가 나타났고 여성은 태음, 소음, 소양의 모든 체질 확률값에서 유의미한 차이가 나타났다.
마찬가지로 체질 확률값도 역시 CV값이 20% 이내로 나타났다. 남성과 여성 모두 전문 조작원이 없더라도 체질 확률값의 표준편차가 커지지 않고, CV값도 안정적으로 나오는 것을 보아 현재 체질 진단에 사용되는 음성변수들이 안정적인 변수임을 확인하였다.
결과로 체질 확률값의 표준편차는 전문조작원의 영향을 받지 않았지만, 체질 확률값의 차이는 T-test 결과 유의미하게 나타났다. 남성은 소음 체질 확률값에서 유의미한 차이가 나타났고 여성은 태음, 소음, 소양의 모든 체질 확률값에서 유의미한 차이가 나타났다. 유의확률 0.
남성의 경우 전문조작원 유무에 따른 변수들의 CV값이 sFHL변수만 제외하고 모든 변수들이 20% 이내로 들어오는 것을 확인하였다. 체질 확률값은 회귀모형을 통해 계산되는 값인데 sFHL이 체질 확률값을 구할 때 가중치가 낮은 변수이고 나머지 변수들이 안정적인 변수였기 때문에 체질 확률값 또한 CV값이 20% 이내로 나타났다.
성별에 따른 음성 변수의 CV값을 살펴보면, 남성의 경우 sFHL(Ratio of average fundamental frequency percentile(sF90-sF50)/(sF50-sF10))변수를 제외하고 모든 변수의 CV값이 20% 이내로 나오는 것을 확인 하였다. CV값을 비교해보면 가장 큰 차이는 sFHL변수에서 74.
여성의 경우 음성변수들은 13개(sF50, sF90, sFHL, sF0, sFCV, sMFCC1, 6, 7, 9, 10, 12, sHNR, sCPP)에서 유의하게 차이가 나타났다. 14개 변수중 sFHL, sMFCC9 값을 제외한 모든 변수에서 유의확률이 0.
99%만큼 가장 많이 증가 하였으나 그 차이는 크지 않다. 여성의 경우에도 sFHL변수만 제외하고 모든 변수의 CV값이 20% 이내로 나오는 것을 확인하였다. CV값을 비교 했을 때 가장 큰 차이는 pTE(태음 확률값)에서 18.
유의확률 0.05 기준으로 남성의 경우 체질 확률값을 보면 pSE가 유의하게 차이가 나타났고, 변수들은 11개(sF50, sDT, sMFCC2, 3, 6, 8, 9, 10, 11, 12, sCPP)에서 유의하게 차이가 나타났다. sMFCC2, 3, 6, 8, 10, 12값은 유의확률이 0.
Table 2, Table 3의 계수들은 모두 표준작업지침을 따라 녹음한 데이터를 바탕으로 만들어진 식이기 때문에 전문조작원 없이 측정할 경우 체질 확률값을 정확하게 측정하지 못한다. 이번 연구에서 여성은 체질 확률값 중 가장 큰 값이 전문조작원이 있을 때 평균 37.513% 이었다. 이렇게 가장 큰 체질 확률값이 37% 수준일때는 3~5%정도만 확률값이 달라져도 체질 판별을 잘못 할 수 있기 때문에 전문조작원의 역할이 중요하다고 볼 수 있다.
42%만큼 가장 많이 증가 하였다. 전체적으로 전문조작원이 있을 때 CV가 줄어드는 경향을 확인할 수 있었다 (Table 4).
전문조작원이 표준작업지침을 준수하여 실험할 때 음성변수와 체질 확률 값들의 표준편차가 더 줄어드는 지를 검정하기 위해 등분산 검정(Levene)을 하였다. 체질 확률값 계산에 사용되는 모든 음성변수에 대한 등분산 검정결과, 남성은 전문조작원이 있을 때 sDT(Duration time), sMFCC(Mel-Frequenay Cepstral Coefficients)1, 2, 3, 4, 10 변수의 표준편차가 작게 나타났다. 하지만 변수들의 회귀모형을 통해 나온 체질 확률 값인 pTE, pSE, pSY는 표준작업지침 대로 음성진단을 하더라도 표준편차가 작게 나타나지 않았다 (Table 5).
남성의 경우 전문조작원 유무에 따른 변수들의 CV값이 sFHL변수만 제외하고 모든 변수들이 20% 이내로 들어오는 것을 확인하였다. 체질 확률값은 회귀모형을 통해 계산되는 값인데 sFHL이 체질 확률값을 구할 때 가중치가 낮은 변수이고 나머지 변수들이 안정적인 변수였기 때문에 체질 확률값 또한 CV값이 20% 이내로 나타났다. 여성의 경우는 전문조작원 유무에 따른 변수들의 CV값이 모든 음성변수들에서 20% 이내로 나왔다.
001 이하였다. 체질 확률값을 보면 pTE, pSE, pSY값 모두 유의하게 차이가 나타났다. πk (k=1,2,3)를 구할 때 계수값을 보면 알 수 있듯이 π1(=pTE) 구하는 식에서 가중치가 큰 sF10, sMFCC12 변수에서 차이가 나타났고, π2(=pSE)와 π3(=pSY) 구하는 식에서는 가중치가 큰 sF50, sF90 변수들에서 차이가 나타났다 (Table 2, Table 8).
하지만 전문조작원 유무에 따른 음성변수들과 체질 확률값의 차이는 남성, 여성 모두 나타났는데, 남성의 경우 pSE값이 전문조작원이 있을 때, 평균값의 차이가 3.221%만큼 유의하게 증가하였고 여성의 경우 모든 확률값이 유의하게 차이가 나타났다. 전문조작원이 있을 경우 pTE값이 가장 크게 5.
흥미로운 점은 남성은 전문조작원이 있을 때 6개의 변수들의 표준편차가 줄어들었지만 체질 확률값은 하나만 차이가 나타났고, 여성은 변수들의 표준편차는 변동이 없었지만 체질 확률값은 모두 유의하게 차이가 나타났다. Table 2, Table 3의 계수들은 모두 표준작업지침을 따라 녹음한 데이터를 바탕으로 만들어진 식이기 때문에 전문조작원 없이 측정할 경우 체질 확률값을 정확하게 측정하지 못한다.
후속연구
본 연구는 자가 녹음이 가능한 일반인에 한정되어 있는데, 음성 녹음 절차가 복잡하지 않기 때문에 대부분의 일반인은 자가 녹음이 가능하다고 볼 수 있다. 앞으로 사상체질진단 전용 음성 녹음 프로그램의 사용자 편의성 향상 등을 통하여 표준작업절차가 간소화 되면 더 많은 사람들이 쉽게 자가 녹음을 할 수 있을 것이며, 또한 표준작업절차의 간소화는 전문조작원 유무에 따른 음성 특징값 및 체질 확률값의 변화를 더욱 최소화할 수 있을 것으로 생각된다.
향후 음성진단에 있어서 본 연구의 결과를 바탕으로 전문조작원 유무와 같은 환경변화에 강인한 변수 추출, 진단 알고리즘, 표준작업지침이 개선되어 자가 음성 모니터링이 필요한 U(Ubiquitous)헬스 시대에 성공적으로 활용되기를 희망한다.
질의응답
핵심어
질문
논문에서 추출한 답변
사상의학이란 무엇인가
사상의학은 조선시대 이제마 선생으로부터 창안되어 개개인의 특성을 4가지(‘태양인’, ‘태음인’, ‘소양인’, ‘소음인’)로 분류하여 특성에 맞게 치료하는 의학이다. 따라서 개개인을 체질별로 정확하게 구별하는 것이 중요한데, 한의학에서 주로 체형, 얼굴, 음성, 피부를 파악하여 구별한다.
음성분석을 통한 체질진단에서는 어떤 요인들을 고려하는가
음성분석을 바탕으로 체질진단을 하기 위해 많은 선행연구가 있었는데, 음성대의 기본 진동수, 피치, 발성지속 시간 등으로 체질을 분류하려는 연구가 있었다4,5. 신6은 문장의 발음속도, 포먼트, 대역폭을 분석하여 체질을 분류하기도 하였다.
사상의학에서는 주로 어떤 요인에 따라서 개개인을 구분하는가
사상의학은 조선시대 이제마 선생으로부터 창안되어 개개인의 특성을 4가지(‘태양인’, ‘태음인’, ‘소양인’, ‘소음인’)로 분류하여 특성에 맞게 치료하는 의학이다. 따라서 개개인을 체질별로 정확하게 구별하는 것이 중요한데, 한의학에서 주로 체형, 얼굴, 음성, 피부를 파악하여 구별한다. 예전부터 개인에 대한 사상체질 진단은 한의사의 경험에서 나오는 주관적인 판단 기준에 의해서 결정되기에 현대 한의학에서는 사상체질과 과학, 공학기술을 접목하여 체질을 객관적이고 정량적으로 표현하고자 하는 연구가 계속 진행되고 있으며1, 한국한의학연구원에서는 웹기반 체질진단툴 서비스를 제공하고 있다2.
참고문헌 (14)
Do JH, Jang E, Ku B, Jang JS, Kim H, Kim JY. Development of an integrated Sasang constitution diagnosis method using face, body shape, voice, and questionnaire information. BMC Complement Altern Med. 2012;12(1):85.
So JH, Kim JW, Nam JH, Lee BJ, Kim YS, Kim JY, et al. The Web Application of Constitution Analysis System - SCAT (Sasang Constitution Analysis Tool) -. J. of Sasang Constitutional Medicine. 2016;28(1):1-10.(Korean)
Lee JM: Longevity and life preservation in oriental medicine (東醫壽世保元). Seoul, Korea: Kyung Hee Univ. Press; 1996.(Korean)
Kim DR. A study about five-sounds of Sasang constitutional sound analysis, J. of Sasang Constitutional Medicine. 2003;15(1):50-59.(Korean)
Yang SH, Kim DR. A study on the correlation between voice print and Sasang constitution. J. of Sasang Constitutional Medicine. 1996;8(2):191-202.(Korean)
Shin MR, Kim DR. A study on the correlation between sound characteristics and Sasang constitution by CSL. J. of Sasang Constitutional Medicine. 1999;11(1):137-157.(Korean)
Kwon CH, Kim JY, Kim KH, Han SM. A Study on Correlation between Sasang Constitution and Speech Features. Korea Institute of Oriental Medicine. 2011;19(2):219-227.(Korean)
Jang ES, Jin HJ, Do JH, Lee SW, Kim JY. The Preliminary Study on the Coincidence between Sasang Constitutional Analysis Tool ${\beta}$ -version and Expert of Sasang Constitution. Sasang Constitutional Medicine. 2012;24(2):1-7.(Korean)
Kang JH, Yoo JH, Lee HJ, Kim JY. Automated speech analysis applied to Sasang constitution classification. Phonetics and Speech Sciences. 2009;1(3):155-163. (Korean)
Kim KH, Kim SG, Kang NS, Kim JY. Study for Extraction of Stable Vocal Features and Definition of the Features. Korea Journal od Oriental Medicine. 2011;17(3):97-104.(Korean)
Kim KH, Jang JS, Kim YS, Kim JY. Study of Developing SOP for Extracting Stable Vocal Features for Accurate Diagnosis. Korean J. Oriental Physiology & Pathology. 2011;25(6):1108-1112.(Korean)
Kim YS, Nam JH, Kim JY, Jang JS. Robustness Evaluation of Sasang Constitutional Voice Diagnosis System in Different Recording Environments. Proc. of the Institute of Electronics Engineers of Korea Summer Conf. 2013:1817-1819.(Korean)
※ AI-Helper는 부적절한 답변을 할 수 있습니다.