[논문]좌표계산을 통해 동영상의 안면 특징점 분석을 중심으로 한 웹 기반 발표 태도 교정 프로그램 개발

권기현; 안수호; 박찬정

doi:10.5392/jkca.2022.22.02.010

좌표계산을 통해 동영상의 안면 특징점 분석을 중심으로 한 웹 기반 발표 태도 교정 프로그램 개발
Development of a Web-based Presentation Attitude Correction Program Centered on Analyzing Facial Features of Videos through Coordinate Calculation 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.22 no.2, 2022년, pp.10 - 21

권기현 (제주대학교 컴퓨터교육과) , 안수호 (제주대학교 컴퓨터교육과) , 박찬정 (제주대학교 컴퓨터교육과)

초록
AI-Helper

학생들의 취업을 위한 면접 발표와 회사에서의 프로젝트 결과 발표 등과 같은 형식적인 발표 태도가 개선되려면 동료나 교수자의 관찰에 의한 방법 이외에 자동화된 방법은 드물다. 기존 연구에 따르면, 발표자의 안정적인 발화와 시선 처리가 발표에서의 전달력에 영향을 미친다고 한다. 또한, 본인 발표에 대한 적절한 피드백이 발표자의 발표 역량을 늘이는 효과가 있다는 연구도 있다. 본 연구에서는 이와 같은 교정의 긍정적 측면을 고려하여 대학생들의 잘못된 발표 습관과 태도를 동영상의 안면 분석을 통해 지능적으로 교정해 주는 프로그램을 개발하고 성능을 분석하였다. 개발하는 프로그램은 웹 기반으로 군말 사용 여부를 확인하고 안면 인식과 발표 내용 텍스트화를 통해 개발되었다. 이를 위해 군말 분류 인공지능 모델을 개발하였고, 동영상 객체 추출 후, 좌표에 기반으로 얼굴 특징점을 인식하였다. 이후 4,000개 안면 데이터를 이용해 Teachable Machine에서 안면 인식한 경우와 본 연구의 알고리즘 성능을 비교·분석하였다. 프로그램을 이용해 발표 태도를 자기스스로 교정하여 발표자들에게 도움을 준다.

Abstract ▼ AI-Helper

In order to improve formal presentation attitudes such as presentation of job interviews and presentation of project results at the company, there are few automated methods other than observation by colleagues or professors. In previous studies, it was reported that the speaker's stable speech and gaze processing affect the delivery power in the presentation. Also, there are studies that show that proper feedback on one's presentation has the effect of increasing the presenter's ability to present. In this paper, considering the positive aspects of correction, we developed a program that intelligently corrects the wrong presentation habits and attitudes of college students through facial analysis of videos and analyzed the proposed program's performance. The proposed program was developed through web-based verification of the use of redundant words and facial recognition and textualization of the presentation contents. To this end, an artificial intelligence model for classification was developed, and after extracting the video object, facial feature points were recognized based on the coordinates. Then, using 4000 facial data, the performance of the algorithm in this paper was compared and analyzed with the case of facial recognition using a Teachable Machine. Use the program to help presenters by correcting their presentation attitude.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 발표자의 잘못된 발표 습관을 확인하여 교정하는 기능을 제공하는 영상 기반 발표 태도 교정 프로그램을 개발한다. 본 연구는 사용자가 발표 영상을 업로드하면 분석하여 발표의 태도의 잘못된 부분을 지적한다.
본 논문에서는 발표자의 잘못된 발표 습관을 확인하여 교정하는 기능을 제공하는 영상 기반 발표 태도 교정 프로그램을 개발한다. 본 연구는 사용자가 발표 영상을 업로드하면 분석하여 발표의 태도의 잘못된 부분을 지적한다. 예를 들어 영상에서 발표자의 안면을 분석하여 설정된 얼굴 탐지 알고리즘에 따라 정면 응시 여부를 체크하고 사용자에게 알려준다.
셀프뷰는 각각의 면접 문항에 대해서 음성 데이터를 수집하며 해당 문항에 한하여 데이터를 분석한다. 본연구는 발표의 상황에서 발표자의 음성을 분석하는데 내용의 특정한 항목에 제한되지 않고 행동 분석 영역도 상대적으로 넓은 거리에서 발표자의 태도를 분석하고 할 수 있도록 개선한다.
이를 위해 본 연구에서는 영상에서 발표자의 음성 인식을 위한 파이썬 기반의 API (Application Programming Interface), 발표자의 눈의 위치 등 안면 인식을 위한 API, 음성을 문자로 바꾸는 STT(Speech To Text) API를 통하여 발표자의 태도를 분석하고 발표자가 군말(redundant words)을 사용하고 있는지 발표자가 발표문이나 발표 스크린만을 응시하고 있지 않은지를 군말에 대한 필터(speech filter)를 이용하여 분석하고 판단해 주는 웹 기반의 프로그램을 개발하고자 한다.

가설 설정

그리고 제한조건에 따라 아랫면 인식이 되면 일정 시간 동안 해당 상태를 유지할 시 카운트하도록 하였다. 여기서는 발표자 앞에 발표문이나 컴퓨터 화면이 있는 발표 상황을 가정하여 5초를 기준으로 일정 시간의 정도를 결정하였다.

제안 방법

Librosa 라이브러리 같은 경우 영상에서 음성 데이터를 추출하였다. numpy와 Opencv 라이브러리를 통해 haar cascade를 이용하여 눈, 코, 입을 인식하고 인식된 특징점을 연산하여 발표자가 청중을 제대로 응시하고 있는지 판단하였다.
본 연구에서 진행한 내용은 다음 [표 1]과 같다. 군말 사용 여부 확인, 안면 인식, 발표 내용 텍스트화, 웹 프로그램 인터페이스 구현을 통해 발표 태도를 지능적으로 교정할 수 있도록 한다.
먼저 음성 인식 과정에서는 입력된 영상에서 음성을 추출할 수 있도록 하였다. 군말 여부 확인 과정에서는 군말 데이터셋을 미리 학습시킨 군말 분류 인공지능 모델을 이용하여 음성에서 사용한 군말을 분류하도록 하였다. 하지만 앞서 음성에서 분류한 군말에는 문장에서 의도적으로 사용한 군말이 존재한다.
먼저 얼굴 인식에서는 입력된 영상에서 얼굴을 인식하고 해당 얼굴을 토대로 특징점을 찍어 이후 정면 여부를 판단할 수 있도록 하였다. 그리고 정면 여부 탐지 과정에서는 특징점을 이용하여 옆면과 아랫면의 탐지 기준을 설정하고 제한조건을 넘어가면 탐지하도록 설계하였다. 탐지된 결과는 시간, 내용, 횟수를 포함하도록 하였다.
본 연구에서 개발한 앱의 구현 환경은 [표 2]와 같다. 본 연구에서 개발한 프로그램은 웹사이트 형식으로 영상을 업로드하면 해당 서비스를 제공한다. HTML, CSS, JavaScript와 같은 웹 언어와 python 프로그래밍 언어를 이용하여 앱을 구현하였다.

대상 데이터

본 연구에서 개발한 프로그램은 웹사이트 형식으로 영상을 업로드하면 해당 서비스를 제공한다. HTML, CSS, JavaScript와 같은 웹 언어와 python 프로그래밍 언어를 이용하여 앱을 구현하였다. 웹 기반으로 프로그램을 구현하면 다른 응용 프로그램과 달리 추가로 파일을 설치하거나 다운로드하지 않고 웹상에서 직접 서비스를 이용할 수 있는 이점이 있다.

성능/효과

Ⅴ. 결론

결론적으로 영상에서의 얼굴 분석 기능에 대해서는 모범 탐지 데이터와 비교하여 좌표연산 알고리즘이 부족한 정확도를 보였으나 같이 비교한 얼굴 탐지 인공지능에 비해 높은 정확도를 보였다. 또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다.
결론적으로 영상에서의 얼굴 분석 기능에 대해서는 모범 탐지 데이터와 비교하여 좌표연산 알고리즘이 부족한 정확도를 보였으나 같이 비교한 얼굴 탐지 인공지능에 비해 높은 정확도를 보였다. 또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다. 아직 인공지능이 학습한 데이터양이 약 4, 000개로 부족하고 학습 데이터의 질이 낮아 현재 상황으로써 좌표연산 알고리즘이 우세한 양상을 보여주지만 이후 얼굴 탐지 인공지능이 더 많은 데이터를 학습한다면 정확도에서는 상대적으로 떨어지겠으나 여전히 연산 속도에서 우세할 것이다.
본 논문은 영상에서의 얼굴 회전을 탐지하기 위해 알고리즘을 설계하는 과정을 통해 인공지능과 비교하여 성능이 비슷하거나 높으면서도 탐지 속도를 높이려 노력한 점에 의의가 있다. 얼굴 검출에서는 머신러닝으로 학습된 Haar-based cascade 분류기를 이용하였지만, 이후 검출 영역에서 특징점을 통한 얼굴의 회전 탐지는 벡터의 외적을 통해 비교 영역을 구성하고 상, 하, 좌, 우의 회전 정도를 계산하여 4, 000개가량의 데이터가 학습된 인공지능을 사용했을 때보다 신경망에 따른 연산량을 획기적으로 줄이면서도 성능을 높이는 결과를 보였다.

후속연구

이 상황을 고려하여 유연하게 탐지함으로써 발표자에게 정확한 탐지 결과를 제공할 수 있다. 그리고 본 논문에 적용한 얼굴 탐지 알고리즘처럼 얼굴 특징점을 이용해 영역을 구성하고 이들 영역을 이용해 비율을 구한다면 연산 방식을 다른 분야에도 적용 가능하다. 예를 들어 얼굴 특징점을 통한 영역을 약간 달리 구성하여 얼굴 내 요소끼리 엮어 놓고 각 영역의 비율을 연산한다면 일반적인 표정 패턴에 따른 눈, 입술, 눈썹의 위치나 모양 비율에 따라 표정 탐지에도 적용할 수 있는 등 얼굴 내 영역을 통한 다양한 사례에 활용할 수 있다.
현재 연구에서는 음성 탐지 영역에서 설정해 놓은어, 음, 그를 탐지할 수 있지만 탐지한 어, 음, 그가 군말인지 ‘그림’의 ‘그’와 같이 필요한 단어인지 명확히 분별하지 못한다는 점에서 한계가 있다. 그리고 영상 탐지 영역에서는 얼굴의 회전 정도를 고려할 때 거리에 따른 얼굴 탐지의 한계로 얼굴 영역의 눈동자도 같이 고려하지 않고 특징점을 통해 지정한 각 영역의 면적 비율만을 고려한 점에서 한계가 있다. 얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다.
앞선 한계점을 보완하고 기능을 확장한다면 음성 탐지 영역에서 더 정확한 군말 분별을 통해 발표자에게 자주 사용하는 군말 등 통계를 내어 제시할 수 있고, 좀 더 넓은 범위에서의 말실수를 학습시켜 발표 상황뿐만이 아니라 발화에 익숙지 못하거나 어려움을 겪는 아동의 언어치료에도 활용할 수 있을 것이다. 그리고 영상탐지 영역에서는 단순히 옆을 보거나 아래를 일정 시간 이상 본다는 것만으로 상황을 단편적으로 해석하여 탐지하지 않고 좀 더 다양한 상황을 조사해 조건을 추가로 구성하여 발표 태도 탐지를 할 수 있을 것이다. 예를 들어 발표 중 스크린에 제시된 그림을 가리키면서 설명하는 경우 옆을 일정 시간 이상 볼 수 있으나 이는 발표 태도에 있어서 문제가 된다고 볼 수 없다.
또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다. 아직 인공지능이 학습한 데이터양이 약 4, 000개로 부족하고 학습 데이터의 질이 낮아 현재 상황으로써 좌표연산 알고리즘이 우세한 양상을 보여주지만 이후 얼굴 탐지 인공지능이 더 많은 데이터를 학습한다면 정확도에서는 상대적으로 떨어지겠으나 여전히 연산 속도에서 우세할 것이다.
앞선 한계점을 보완하고 기능을 확장한다면 음성 탐지 영역에서 더 정확한 군말 분별을 통해 발표자에게 자주 사용하는 군말 등 통계를 내어 제시할 수 있고, 좀 더 넓은 범위에서의 말실수를 학습시켜 발표 상황뿐만이 아니라 발화에 익숙지 못하거나 어려움을 겪는 아동의 언어치료에도 활용할 수 있을 것이다. 그리고 영상탐지 영역에서는 단순히 옆을 보거나 아래를 일정 시간 이상 본다는 것만으로 상황을 단편적으로 해석하여 탐지하지 않고 좀 더 다양한 상황을 조사해 조건을 추가로 구성하여 발표 태도 탐지를 할 수 있을 것이다.
그리고 영상 탐지 영역에서는 얼굴의 회전 정도를 고려할 때 거리에 따른 얼굴 탐지의 한계로 얼굴 영역의 눈동자도 같이 고려하지 않고 특징점을 통해 지정한 각 영역의 면적 비율만을 고려한 점에서 한계가 있다. 얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다. 정확도가 모범 데이터와 비교해 떨어지는 점에서 한계가 있다.
얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다. 정확도가 모범 데이터와 비교해 떨어지는 점에서 한계가 있다.
현재 연구에서는 음성 탐지 영역에서 설정해 놓은어, 음, 그를 탐지할 수 있지만 탐지한 어, 음, 그가 군말인지 ‘그림’의 ‘그’와 같이 필요한 단어인지 명확히 분별하지 못한다는 점에서 한계가 있다

참고문헌 (32)

https://www.moe.go.kr/boardCnts/viewRenew.do?boardID294&boardSeq89671&lev0&searchTypenull&statusYNW&page1&smoe&m020402&opTypeN
송인섭, "학습자 중심의 21세기 패러다임: 방법과 전망," 교육심리연구, 제22권, 제4호, pp.881-896, 2008.
윤여경, "효과적인 의사소통을 위한 스피치 교육 앱 디자인 연구," 상품문화디자인학연구, 제66권, pp.43-52, 2020. https://doi.org/10.18555/kicpd2020.60.05
도원영, "말하기에서의 동작언어에 대한 고찰," 한국어학, 제39권, pp.191-221, 2008.
변정민, "청중을 고려한 발표자의 언어적.비언어적 표현 연구," 새국어교육, 제81권, pp.133-158, 2009.
김예지, 대학생 발표 불안 연구, 전남대학교 교육대학원, 석사학위논문, 2012.
https://play.google.com/store/apps/details?idcom.enhanceu.selfview&hlko&glUS
송재민, 이새봄, 박아름, "이미지 인식 기술의 산업 적용 동향 연구," 한국콘텐츠학회논문지, 제20권, 제 7호, pp.86-96, 2020. https://doi.org/10.5392/JKCA.2020.20.07.086

원문보기 상세보기
조병모, 김기한, 이필규, "필터 및 특징 선택 기반의 적응형 얼굴 인식 방법," 한국콘텐츠학회논문지, 제9권, 제6호, pp.1-8, 2009.

원문보기 상세보기
이우리, 황민철, "한국인 표준 얼굴 표정 이미지의 감성 인식 정확률," 한국콘텐츠학회논문지, 제14권, 제9호, pp.467-483, 2014. https://doi.org/10.5392/JKCA.2014.14.09.476

원문보기 상세보기
N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol.1, IEEE, 2005.
J. Chen, Z. Chen, Z. Chi, and H. Fu, "Facial Expression Recognition Based on Facial Components Detection and HOG Features," Proceedings for the 2014 Scientific Cooperations International Workshops on Electrical and Computer Engineering Subfields, pp.884-888, 2014.
유원필, 실외환경에 강인한 도로기반 저가형 자율주행기술개발, 한국전자통신연구원, 2015.
T. Ahonen, A. Hadid, and M. Pietikainen, "Face Description with Local Binary Patterns: Application to Face Recognition," Proceedings of the 2006 IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, Vol.28, No.12, pp.2037-2041, 2006.
S. Liao, X. Zhu, Z. Lei, L. Zhang, and S. Z. Li, "Learning Multi-scale Block Local Binary Patterns for Face Recognition," International Conference on Biometrics. Springer, Berlin, Heidelberg, 2007.
P. Viola and M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. Vol.1, pp.I-I. 2001.
https://docs.opencv.org/4.x/d2/d99/tutorial_js_face_detection.html
김상훈, 정선태, 정수환, 오두식, 김재민, 조성원, "다중 스케일 가버 특징 벡터 모델 기반 눈좌표 검출," 한국콘텐츠학회논문지, 제7권, 제1호, pp.48-57, 2007.

원문보기 상세보기
김성영, "가버 필터에 기반한 관심 객체 검출," 한국컴퓨터정보학회논문지, 제13권, 제2호, pp.87-94, 2008.

원문보기 상세보기
A. L. A. Ramos and B. G. Dadiz, "A Facial Expression Emotion Detection using Gabor Filter and Principal Component Analysis to Identify Teaching Pedagogy," 2018 IEEE 10th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management (HNICEM), pp.1-6, 2018, doi: 10.1109/HNICEM.2018.8666274.
이형일, 김진명, 이재원, "딥러닝 객체인식을 통한 경로보정 자율 주행 로봇의 구현," 한국콘텐츠학회논문지, 제19권, 제12호, pp.164-172, 2019.

원문보기 상세보기
이도연, 장병희, "딥러닝을 이용한 음악흥행 예측모델 개발 연구," 한국콘텐츠학회논문지, 제20권, 제8호, pp.10-18, 2020.

원문보기 상세보기
http://wiki.hash.kr/index.php/합성곱_신경망
모경현, 박재선, 장명준, 강필성, "단어와 자소 기반 합성곱 신경망을 이용한 문서 분류," 대한산업공학회지, 제44권, 제3호, pp.180-188, 2018.

상세보기
박현정, 송민채, 신경식, "CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로," 지능정보연구, 제24권, 제2호, pp.59-83, 2018.

원문보기 상세보기
신경식, 유신우, 오혁준, "MFCC와 CNN을 이용한 저고도 초소형 무인기 탐지 및 분류에 대한 연구," 한국정보통신학회 논문지, 제24권, 제3호, pp.364-370, 2020.

원문보기 상세보기
https://librosa.org/doc/latest/index.html
N. Dave, "Feature Extraction Methods LPC PLP and MFCC in Speech Recognition," Proceeding of the International Journal for Advance Research in Engineering and Technology, Vol.1, pp.1-5, 2013.
https://tech.kakaoenterprise.com/66
https://generated.photos/
https://teachablemachine.withgoogle.com/
이종익, 발표능력 향상 프로그램이 여중생의 발표불안 감소 및 자기효능감 향상에 영향을 미치는 효과, 강원대학교 교육대학원, 석사학위논문, 2009.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증