좌표계산을 통해 동영상의 안면 특징점 분석을 중심으로 한 웹 기반 발표 태도 교정 프로그램 개발 Development of a Web-based Presentation Attitude Correction Program Centered on Analyzing Facial Features of Videos through Coordinate Calculation원문보기
학생들의 취업을 위한 면접 발표와 회사에서의 프로젝트 결과 발표 등과 같은 형식적인 발표 태도가 개선되려면 동료나 교수자의 관찰에 의한 방법 이외에 자동화된 방법은 드물다. 기존 연구에 따르면, 발표자의 안정적인 발화와 시선 처리가 발표에서의 전달력에 영향을 미친다고 한다. 또한, 본인 발표에 대한 적절한 피드백이 발표자의 발표 역량을 늘이는 효과가 있다는 연구도 있다. 본 연구에서는 이와 같은 교정의 긍정적 측면을 고려하여 대학생들의 잘못된 발표 습관과 태도를 동영상의 안면 분석을 통해 지능적으로 교정해 주는 프로그램을 개발하고 성능을 분석하였다. 개발하는 프로그램은 웹 기반으로 군말 사용 여부를 확인하고 안면 인식과 발표 내용 텍스트화를 통해 개발되었다. 이를 위해 군말 분류 인공지능 모델을 개발하였고, 동영상 객체 추출 후, 좌표에 기반으로 얼굴 특징점을 인식하였다. 이후 4,000개 안면 데이터를 이용해 Teachable Machine에서 안면 인식한 경우와 본 연구의 알고리즘 성능을 비교·분석하였다. 프로그램을 이용해 발표 태도를 자기스스로 교정하여 발표자들에게 도움을 준다.
학생들의 취업을 위한 면접 발표와 회사에서의 프로젝트 결과 발표 등과 같은 형식적인 발표 태도가 개선되려면 동료나 교수자의 관찰에 의한 방법 이외에 자동화된 방법은 드물다. 기존 연구에 따르면, 발표자의 안정적인 발화와 시선 처리가 발표에서의 전달력에 영향을 미친다고 한다. 또한, 본인 발표에 대한 적절한 피드백이 발표자의 발표 역량을 늘이는 효과가 있다는 연구도 있다. 본 연구에서는 이와 같은 교정의 긍정적 측면을 고려하여 대학생들의 잘못된 발표 습관과 태도를 동영상의 안면 분석을 통해 지능적으로 교정해 주는 프로그램을 개발하고 성능을 분석하였다. 개발하는 프로그램은 웹 기반으로 군말 사용 여부를 확인하고 안면 인식과 발표 내용 텍스트화를 통해 개발되었다. 이를 위해 군말 분류 인공지능 모델을 개발하였고, 동영상 객체 추출 후, 좌표에 기반으로 얼굴 특징점을 인식하였다. 이후 4,000개 안면 데이터를 이용해 Teachable Machine에서 안면 인식한 경우와 본 연구의 알고리즘 성능을 비교·분석하였다. 프로그램을 이용해 발표 태도를 자기스스로 교정하여 발표자들에게 도움을 준다.
In order to improve formal presentation attitudes such as presentation of job interviews and presentation of project results at the company, there are few automated methods other than observation by colleagues or professors. In previous studies, it was reported that the speaker's stable speech and g...
In order to improve formal presentation attitudes such as presentation of job interviews and presentation of project results at the company, there are few automated methods other than observation by colleagues or professors. In previous studies, it was reported that the speaker's stable speech and gaze processing affect the delivery power in the presentation. Also, there are studies that show that proper feedback on one's presentation has the effect of increasing the presenter's ability to present. In this paper, considering the positive aspects of correction, we developed a program that intelligently corrects the wrong presentation habits and attitudes of college students through facial analysis of videos and analyzed the proposed program's performance. The proposed program was developed through web-based verification of the use of redundant words and facial recognition and textualization of the presentation contents. To this end, an artificial intelligence model for classification was developed, and after extracting the video object, facial feature points were recognized based on the coordinates. Then, using 4000 facial data, the performance of the algorithm in this paper was compared and analyzed with the case of facial recognition using a Teachable Machine. Use the program to help presenters by correcting their presentation attitude.
In order to improve formal presentation attitudes such as presentation of job interviews and presentation of project results at the company, there are few automated methods other than observation by colleagues or professors. In previous studies, it was reported that the speaker's stable speech and gaze processing affect the delivery power in the presentation. Also, there are studies that show that proper feedback on one's presentation has the effect of increasing the presenter's ability to present. In this paper, considering the positive aspects of correction, we developed a program that intelligently corrects the wrong presentation habits and attitudes of college students through facial analysis of videos and analyzed the proposed program's performance. The proposed program was developed through web-based verification of the use of redundant words and facial recognition and textualization of the presentation contents. To this end, an artificial intelligence model for classification was developed, and after extracting the video object, facial feature points were recognized based on the coordinates. Then, using 4000 facial data, the performance of the algorithm in this paper was compared and analyzed with the case of facial recognition using a Teachable Machine. Use the program to help presenters by correcting their presentation attitude.
본 논문에서는 발표자의 잘못된 발표 습관을 확인하여 교정하는 기능을 제공하는 영상 기반 발표 태도 교정 프로그램을 개발한다. 본 연구는 사용자가 발표 영상을 업로드하면 분석하여 발표의 태도의 잘못된 부분을 지적한다.
본 논문에서는 발표자의 잘못된 발표 습관을 확인하여 교정하는 기능을 제공하는 영상 기반 발표 태도 교정 프로그램을 개발한다. 본 연구는 사용자가 발표 영상을 업로드하면 분석하여 발표의 태도의 잘못된 부분을 지적한다. 예를 들어 영상에서 발표자의 안면을 분석하여 설정된 얼굴 탐지 알고리즘에 따라 정면 응시 여부를 체크하고 사용자에게 알려준다.
셀프뷰는 각각의 면접 문항에 대해서 음성 데이터를 수집하며 해당 문항에 한하여 데이터를 분석한다. 본연구는 발표의 상황에서 발표자의 음성을 분석하는데 내용의 특정한 항목에 제한되지 않고 행동 분석 영역도 상대적으로 넓은 거리에서 발표자의 태도를 분석하고 할 수 있도록 개선한다.
이를 위해 본 연구에서는 영상에서 발표자의 음성 인식을 위한 파이썬 기반의 API (Application Programming Interface), 발표자의 눈의 위치 등 안면 인식을 위한 API, 음성을 문자로 바꾸는 STT(Speech To Text) API를 통하여 발표자의 태도를 분석하고 발표자가 군말(redundant words)을 사용하고 있는지 발표자가 발표문이나 발표 스크린만을 응시하고 있지 않은지를 군말에 대한 필터(speech filter)를 이용하여 분석하고 판단해 주는 웹 기반의 프로그램을 개발하고자 한다.
가설 설정
그리고 제한조건에 따라 아랫면 인식이 되면 일정 시간 동안 해당 상태를 유지할 시 카운트하도록 하였다. 여기서는 발표자 앞에 발표문이나 컴퓨터 화면이 있는 발표 상황을 가정하여 5초를 기준으로 일정 시간의 정도를 결정하였다.
제안 방법
Librosa 라이브러리 같은 경우 영상에서 음성 데이터를 추출하였다. numpy와 Opencv 라이브러리를 통해 haar cascade를 이용하여 눈, 코, 입을 인식하고 인식된 특징점을 연산하여 발표자가 청중을 제대로 응시하고 있는지 판단하였다.
본 연구에서 진행한 내용은 다음 [표 1]과 같다. 군말 사용 여부 확인, 안면 인식, 발표 내용 텍스트화, 웹 프로그램 인터페이스 구현을 통해 발표 태도를 지능적으로 교정할 수 있도록 한다.
먼저 음성 인식 과정에서는 입력된 영상에서 음성을 추출할 수 있도록 하였다. 군말 여부 확인 과정에서는 군말 데이터셋을 미리 학습시킨 군말 분류 인공지능 모델을 이용하여 음성에서 사용한 군말을 분류하도록 하였다. 하지만 앞서 음성에서 분류한 군말에는 문장에서 의도적으로 사용한 군말이 존재한다.
먼저 얼굴 인식에서는 입력된 영상에서 얼굴을 인식하고 해당 얼굴을 토대로 특징점을 찍어 이후 정면 여부를 판단할 수 있도록 하였다. 그리고 정면 여부 탐지 과정에서는 특징점을 이용하여 옆면과 아랫면의 탐지 기준을 설정하고 제한조건을 넘어가면 탐지하도록 설계하였다. 탐지된 결과는 시간, 내용, 횟수를 포함하도록 하였다.
본 연구에서 개발한 앱의 구현 환경은 [표 2]와 같다. 본 연구에서 개발한 프로그램은 웹사이트 형식으로 영상을 업로드하면 해당 서비스를 제공한다. HTML, CSS, JavaScript와 같은 웹 언어와 python 프로그래밍 언어를 이용하여 앱을 구현하였다.
대상 데이터
본 연구에서 개발한 프로그램은 웹사이트 형식으로 영상을 업로드하면 해당 서비스를 제공한다. HTML, CSS, JavaScript와 같은 웹 언어와 python 프로그래밍 언어를 이용하여 앱을 구현하였다. 웹 기반으로 프로그램을 구현하면 다른 응용 프로그램과 달리 추가로 파일을 설치하거나 다운로드하지 않고 웹상에서 직접 서비스를 이용할 수 있는 이점이 있다.
성능/효과
Ⅴ. 결론
결론적으로 영상에서의 얼굴 분석 기능에 대해서는 모범 탐지 데이터와 비교하여 좌표연산 알고리즘이 부족한 정확도를 보였으나 같이 비교한 얼굴 탐지 인공지능에 비해 높은 정확도를 보였다. 또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다.
결론적으로 영상에서의 얼굴 분석 기능에 대해서는 모범 탐지 데이터와 비교하여 좌표연산 알고리즘이 부족한 정확도를 보였으나 같이 비교한 얼굴 탐지 인공지능에 비해 높은 정확도를 보였다. 또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다. 아직 인공지능이 학습한 데이터양이 약 4, 000개로 부족하고 학습 데이터의 질이 낮아 현재 상황으로써 좌표연산 알고리즘이 우세한 양상을 보여주지만 이후 얼굴 탐지 인공지능이 더 많은 데이터를 학습한다면 정확도에서는 상대적으로 떨어지겠으나 여전히 연산 속도에서 우세할 것이다.
본 논문은 영상에서의 얼굴 회전을 탐지하기 위해 알고리즘을 설계하는 과정을 통해 인공지능과 비교하여 성능이 비슷하거나 높으면서도 탐지 속도를 높이려 노력한 점에 의의가 있다. 얼굴 검출에서는 머신러닝으로 학습된 Haar-based cascade 분류기를 이용하였지만, 이후 검출 영역에서 특징점을 통한 얼굴의 회전 탐지는 벡터의 외적을 통해 비교 영역을 구성하고 상, 하, 좌, 우의 회전 정도를 계산하여 4, 000개가량의 데이터가 학습된 인공지능을 사용했을 때보다 신경망에 따른 연산량을 획기적으로 줄이면서도 성능을 높이는 결과를 보였다.
후속연구
이 상황을 고려하여 유연하게 탐지함으로써 발표자에게 정확한 탐지 결과를 제공할 수 있다. 그리고 본 논문에 적용한 얼굴 탐지 알고리즘처럼 얼굴 특징점을 이용해 영역을 구성하고 이들 영역을 이용해 비율을 구한다면 연산 방식을 다른 분야에도 적용 가능하다. 예를 들어 얼굴 특징점을 통한 영역을 약간 달리 구성하여 얼굴 내 요소끼리 엮어 놓고 각 영역의 비율을 연산한다면 일반적인 표정 패턴에 따른 눈, 입술, 눈썹의 위치나 모양 비율에 따라 표정 탐지에도 적용할 수 있는 등 얼굴 내 영역을 통한 다양한 사례에 활용할 수 있다.
현재 연구에서는 음성 탐지 영역에서 설정해 놓은어, 음, 그를 탐지할 수 있지만 탐지한 어, 음, 그가 군말인지 ‘그림’의 ‘그’와 같이 필요한 단어인지 명확히 분별하지 못한다는 점에서 한계가 있다. 그리고 영상 탐지 영역에서는 얼굴의 회전 정도를 고려할 때 거리에 따른 얼굴 탐지의 한계로 얼굴 영역의 눈동자도 같이 고려하지 않고 특징점을 통해 지정한 각 영역의 면적 비율만을 고려한 점에서 한계가 있다. 얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다.
앞선 한계점을 보완하고 기능을 확장한다면 음성 탐지 영역에서 더 정확한 군말 분별을 통해 발표자에게 자주 사용하는 군말 등 통계를 내어 제시할 수 있고, 좀 더 넓은 범위에서의 말실수를 학습시켜 발표 상황뿐만이 아니라 발화에 익숙지 못하거나 어려움을 겪는 아동의 언어치료에도 활용할 수 있을 것이다. 그리고 영상탐지 영역에서는 단순히 옆을 보거나 아래를 일정 시간 이상 본다는 것만으로 상황을 단편적으로 해석하여 탐지하지 않고 좀 더 다양한 상황을 조사해 조건을 추가로 구성하여 발표 태도 탐지를 할 수 있을 것이다. 예를 들어 발표 중 스크린에 제시된 그림을 가리키면서 설명하는 경우 옆을 일정 시간 이상 볼 수 있으나 이는 발표 태도에 있어서 문제가 된다고 볼 수 없다.
또한, 순수 탐지 시간을 비교하였을 때, 좌표연산 알고리즘은 얼굴 탐지 인공지능과 비교해 연산 속도 면에서 우세하였다. 아직 인공지능이 학습한 데이터양이 약 4, 000개로 부족하고 학습 데이터의 질이 낮아 현재 상황으로써 좌표연산 알고리즘이 우세한 양상을 보여주지만 이후 얼굴 탐지 인공지능이 더 많은 데이터를 학습한다면 정확도에서는 상대적으로 떨어지겠으나 여전히 연산 속도에서 우세할 것이다.
앞선 한계점을 보완하고 기능을 확장한다면 음성 탐지 영역에서 더 정확한 군말 분별을 통해 발표자에게 자주 사용하는 군말 등 통계를 내어 제시할 수 있고, 좀 더 넓은 범위에서의 말실수를 학습시켜 발표 상황뿐만이 아니라 발화에 익숙지 못하거나 어려움을 겪는 아동의 언어치료에도 활용할 수 있을 것이다. 그리고 영상탐지 영역에서는 단순히 옆을 보거나 아래를 일정 시간 이상 본다는 것만으로 상황을 단편적으로 해석하여 탐지하지 않고 좀 더 다양한 상황을 조사해 조건을 추가로 구성하여 발표 태도 탐지를 할 수 있을 것이다.
그리고 영상 탐지 영역에서는 얼굴의 회전 정도를 고려할 때 거리에 따른 얼굴 탐지의 한계로 얼굴 영역의 눈동자도 같이 고려하지 않고 특징점을 통해 지정한 각 영역의 면적 비율만을 고려한 점에서 한계가 있다. 얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다. 정확도가 모범 데이터와 비교해 떨어지는 점에서 한계가 있다.
얼굴이 회전된 상태에서 일정 시간을 결정할 때 다양한 발표 상황을 고려하지 않고 단편적 기준만으로 결정한 점에서 한계가 있다. 정확도가 모범 데이터와 비교해 떨어지는 점에서 한계가 있다.
현재 연구에서는 음성 탐지 영역에서 설정해 놓은어, 음, 그를 탐지할 수 있지만 탐지한 어, 음, 그가 군말인지 ‘그림’의 ‘그’와 같이 필요한 단어인지 명확히 분별하지 못한다는 점에서 한계가 있다
N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol.1, IEEE, 2005.
J. Chen, Z. Chen, Z. Chi, and H. Fu, "Facial Expression Recognition Based on Facial Components Detection and HOG Features," Proceedings for the 2014 Scientific Cooperations International Workshops on Electrical and Computer Engineering Subfields, pp.884-888, 2014.
T. Ahonen, A. Hadid, and M. Pietikainen, "Face Description with Local Binary Patterns: Application to Face Recognition," Proceedings of the 2006 IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, Vol.28, No.12, pp.2037-2041, 2006.
S. Liao, X. Zhu, Z. Lei, L. Zhang, and S. Z. Li, "Learning Multi-scale Block Local Binary Patterns for Face Recognition," International Conference on Biometrics. Springer, Berlin, Heidelberg, 2007.
P. Viola and M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. Vol.1, pp.I-I. 2001.
A. L. A. Ramos and B. G. Dadiz, "A Facial Expression Emotion Detection using Gabor Filter and Principal Component Analysis to Identify Teaching Pedagogy," 2018 IEEE 10th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management (HNICEM), pp.1-6, 2018, doi: 10.1109/HNICEM.2018.8666274.
N. Dave, "Feature Extraction Methods LPC PLP and MFCC in Speech Recognition," Proceeding of the International Journal for Advance Research in Engineering and Technology, Vol.1, pp.1-5, 2013.
https://tech.kakaoenterprise.com/66
https://generated.photos/
https://teachablemachine.withgoogle.com/
이종익, 발표능력 향상 프로그램이 여중생의 발표불안 감소 및 자기효능감 향상에 영향을 미치는 효과, 강원대학교 교육대학원, 석사학위논문, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.