일상생활에서 디지털 스크린을 오랜 시간 사용하면 눈의 피로, 안구 건조, 두통 등 컴퓨터 시각 증후군을 경험하게 된다. 컴퓨터 시각 증후군을 예방하기 위해서는 스크린 사용 시간을 제한하고 수시로 휴식을 취하는 것이 중요하다. 최근 스마트폰에서는 스크린 사용 시간을 알 수 있도록 도와주는 다양한 애플리케이션이 존재한다. 하지만, 사용자는 스마트폰 스크린뿐만 아니라 데스크탑, 노트북, 태블릿 등 다양한 스크린을 보기 때문에 이러한 앱만으로는 한계가 있다. 본 논문에서는 color, IMU, lidar 센서 데이터를 이용하여, 사용 중인 스크린 디바이스를 감지하는 머신 러닝 기반 모델을 제안하고 여러 가지 모델의 성능을 비교한다. 성능 비교 결과 신경망 기반 모델이 전통적인 머신 러닝 모델보다 높은 F1 스코어를 보였다. 신경망 기반 모델에서는 MLP, CNN 기반 모델이 LSTM 기반 모델보다 높은 스코어를 보였으며, 전통적인 머신 러닝 모델에서는 RF 모델이 가장 우수했으며, 다음으로는 SVM 모델이었다.
일상생활에서 디지털 스크린을 오랜 시간 사용하면 눈의 피로, 안구 건조, 두통 등 컴퓨터 시각 증후군을 경험하게 된다. 컴퓨터 시각 증후군을 예방하기 위해서는 스크린 사용 시간을 제한하고 수시로 휴식을 취하는 것이 중요하다. 최근 스마트폰에서는 스크린 사용 시간을 알 수 있도록 도와주는 다양한 애플리케이션이 존재한다. 하지만, 사용자는 스마트폰 스크린뿐만 아니라 데스크탑, 노트북, 태블릿 등 다양한 스크린을 보기 때문에 이러한 앱만으로는 한계가 있다. 본 논문에서는 color, IMU, lidar 센서 데이터를 이용하여, 사용 중인 스크린 디바이스를 감지하는 머신 러닝 기반 모델을 제안하고 여러 가지 모델의 성능을 비교한다. 성능 비교 결과 신경망 기반 모델이 전통적인 머신 러닝 모델보다 높은 F1 스코어를 보였다. 신경망 기반 모델에서는 MLP, CNN 기반 모델이 LSTM 기반 모델보다 높은 스코어를 보였으며, 전통적인 머신 러닝 모델에서는 RF 모델이 가장 우수했으며, 다음으로는 SVM 모델이었다.
Long-term use of digital screens in daily life can lead to computer vision syndrome including symptoms such as eye strain, dry eyes, and headaches. To prevent computer vision syndrome, it is important to limit screen usage time and take frequent breaks. There are a variety of applications that can h...
Long-term use of digital screens in daily life can lead to computer vision syndrome including symptoms such as eye strain, dry eyes, and headaches. To prevent computer vision syndrome, it is important to limit screen usage time and take frequent breaks. There are a variety of applications that can help users know the screen usage time. However, these apps are limited because users see various screens such as desktops, laptops, and tablets as well as smartphone screens. In this paper, we propose and evaluate machine learning-based models that detect the screen device in use using color, IMU and lidar sensor data. Our evaluation shows that neural network-based models show relatively high F1 scores compared to traditional machine learning models. Among neural network-based models, the MLP and CNN-based models have higher scores than the LSTM-based model. The RF model shows the best result among the traditional machine learning models, followed by the SVM model.
Long-term use of digital screens in daily life can lead to computer vision syndrome including symptoms such as eye strain, dry eyes, and headaches. To prevent computer vision syndrome, it is important to limit screen usage time and take frequent breaks. There are a variety of applications that can help users know the screen usage time. However, these apps are limited because users see various screens such as desktops, laptops, and tablets as well as smartphone screens. In this paper, we propose and evaluate machine learning-based models that detect the screen device in use using color, IMU and lidar sensor data. Our evaluation shows that neural network-based models show relatively high F1 scores compared to traditional machine learning models. Among neural network-based models, the MLP and CNN-based models have higher scores than the LSTM-based model. The RF model shows the best result among the traditional machine learning models, followed by the SVM model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기존 연구[5-7]에서 초점을 둔 스크린 사용 감지뿐만 아니라 사용하는 스크린 디바이스의 종류를 분류하는 것을 목적으로 한다. 이를 위해 본 논문에서는 다양한 머신러닝 모델을 활용하여 스크린 디바이스 분류기를 학습하고 성능을 비교하였다.
본 논문에서는 color, IMU, lidar 센서 데이터를 이용하여, 스크린 사용 여부 및 사용 중인 스크린 디바이스를 감지하는 머신 러닝 기반 모델을 제안하고 다양한 모델의 성능을 비교하였다. 3개의 전통적인 머신 러닝 모델(RF, SVM, k-NN)과 3개의 신경망 기반 모델(MLP, CNN, LSTM)을 이용하여 스크린 사용 디바이스 분류기를 학습하고, 데크스탑 모니터, 노트북 모니터, 스마트폰, 스크린 미사용, 4개의 클래스를 분류하도록 하였다.
본 논문에서는 다중 센서 융합 기반으로 스크린 사용 여부 및 사용 디바이스를 감지하는 방법을 제안한다. 기존 연구[5-7]에서 초점을 둔 스크린 사용 감지뿐만 아니라 사용하는 스크린 디바이스의 종류를 분류하는 것을 목적으로 한다.
본 논문에서는 사용자가 다양한 스크린 디바이스를사용할 수 있는 상황에서 어떤 디바이스를 보고 있는지를 감지할 수 있는지, 그리고 어떤 모델이 이에 가장 좋은 성능을 보이는지 평가해보고자 한다. 여기서 대상으로 하는 스크린 디바이스는 데스크탑 모니터, 노트북 모니터, 스마트폰 총 3가지로 정하였다.
제안 방법
성능을 비교하였다. 3개의 전통적인 머신 러닝 모델(RF, SVM, k-NN)과 3개의 신경망 기반 모델(MLP, CNN, LSTM)을 이용하여 스크린 사용 디바이스 분류기를 학습하고, 데크스탑 모니터, 노트북 모니터, 스마트폰, 스크린 미사용, 4개의 클래스를 분류하도록 하였다. 성능 비교 결과 신경망 기반 모델이 전통적인 머신러닝 모델보다 높은 F1 스코어를 보였다.
초기값은 he 초기값[11]을 사용하였다. adam optimizer을 사용하여 손실 함수의 최소값을 찾기 쉽도록 적용하였다.
추가하였다. dropout 계층을 추가하여 오버피팅을 방지하였다.
k-NN 모델의 클래스 예측은 예측해야 할 데이터 포인트와 이웃 데이터 포인트 간 유클리디안 거리를 측정한 후, 가장 가까운 k개의 이웃 데이터 포인트 중에서 가장 많이 차지하고 있는 클래스로 예측하게 된다. 본 논문에서는 k개의 이웃 수를 경험적으로 5로 지정하였다.
SVM, RF, k-NN 모델은 sklearn 기계학습 라이브러리를 사용하였고, MLP, CNN, LSTM 모델은 keras 신경망 라이브러리를 사용하였다. 각 모델에는 실험적으로 도출된 적절한 파라미터 값을 적용하였다. 아래에서 별다른 언급이 없는 파라미터 값은 디폴트 설정 값을 적용하였다.
그런데 위에 언급한 것처럼 각 센서의 샘플링 레이트가 다르기 때문에 분류기의 입력으로 사용될수 있도록 3가지 센서 데이터를 15Hz로 다운샘플링 하여 레이트를 동일하게 맞춰주었다.
MLP 와는 다르게 활성화 함수는 모두 ReLU를 사용하였다. 기울기 감소 문제가 심하게 발생하지 않기 때문에 계산이 용이한 ReLU함수를 이용하여 모델을 구성하였다. 오버피팅을 방지하기 위해 dropout 계층을 출력층 직전에 배치하였으며 2개의 convolution 계층 다음에는 pooling 계층을 사용하였다.
논문[8]과 [9]는 사용자의 다양한 행동을 인식하는 방법으로 CNN과 LSTM이 결합된 모델을 설계하고 구현하였다. 논문[10]은 CNN을 기반으로 한 행동 인식 모델을 만들고 F1 스코어로 모델을 평가하였다.
다중 클래스 분류 모델에 사용될 수 있는 다양한 머신러닝 모델을 적용하여 그 성능을 비교해보기 위해 널리 사용되는 전통적인 머신 러닝 모델(SVM, RF, k-NN) 과신경망 기반 모델(MLP, CNN, LSTM)을 이용하여 분류기를 학습하였다. SVM, RF, k-NN 모델은 sklearn 기계학습 라이브러리를 사용하였고, MLP, CNN, LSTM 모델은 keras 신경망 라이브러리를 사용하였다.
그리고 스크린을보지 않는 상황을 따로 두었다. 따라서 본 논문에서 제시하는 스크린 사용 디바이스 분류 모델은 총 4개의 클래스를 구분하는 다중 클래스 분류 모델이 된다.
RF 모델은 학습을 위해 필요한 결정 트리의 생성 개수를 지정해야 한다. 본 논문에서는 결정 트리 생성 개수에 대한 하이퍼 파라미터를 경험적으로 90개로지정하였다.
본 연구에서 스크린 디바이스 분류를 위해 사용한 LSTM 네트워크는 2개의 LSTM 계층과 2개의 dropout 계층으로 이루어져 있고, 출력층 전 계층으로 완전 연결계층을 추가하였다. dropout 계층을 추가하여 오버피팅을 방지하였다.
각 fold마다 테스트 데이터에 의해 테스트 된 결과가 F1 스코어로 나오게 된다. 아래 결과에서는 각 모델의 F1 스코어를 박스 플롯으로 도식화하여 나타내고 10 fold의 평균값을 같이 보고한다. 각 분류 모델의 학습과 테스트는 Intel i7-7700 CPU와 NVIDIA Geforce 1060 GPU가 탑재된 컴퓨터를이용하여 수행되었다.
학습에 사용할 특징 데이터 추출을 위하여 본 논문에서는 이전 논문[7]에서 제시한 특징 추출과 차원 축소 방법을 사용하였다. 앞서 기술한 SVM, RF, k-NN 모델을 기반으로 스크린 사용 디바이스 분류기를 학습할 때는 이와 같은 특징 추출과 차원축소 과정을 거쳐 준비된 데이터를 이용하여 학습이 이루어졌다.
기울기 감소 문제가 심하게 발생하지 않기 때문에 계산이 용이한 ReLU함수를 이용하여 모델을 구성하였다. 오버피팅을 방지하기 위해 dropout 계층을 출력층 직전에 배치하였으며 2개의 convolution 계층 다음에는 pooling 계층을 사용하였다.
기존 연구[5-7]에서 초점을 둔 스크린 사용 감지뿐만 아니라 사용하는 스크린 디바이스의 종류를 분류하는 것을 목적으로 한다. 이를 위해 본 논문에서는 다양한 머신러닝 모델을 활용하여 스크린 디바이스 분류기를 학습하고 성능을 비교하였다. 여기서 사용된 모델은 총 6가지로 Support Vector Machine, Random Forest, k-Nearest Neighbors와 같은 전통적인 머신 러닝 모델과 Multi- Layer Perceptron, Convolutional Neural Network, Long Short-Term Memory와 같은 신경망 기반 모델이다.
SVMe 고차원에서의 선형경계를 저차원 환경에서 비선형 경계로 바꾸어서 클래스를 분류 할 수 있도록 학습하는 모델이다. 클래스 사이의 결정 경계를 확실히 하기 위해, 서포트 벡터라는 클래스 사이 경계에 위치한 데이터 포인트와 새로운 데이터 포인트 사이의 거리를 측정하여 클래스를 예측하도록 학습한다. SVM에서는 C와 gamma, 두 가지의 하이퍼 파라미터에 따라 성능에 차이를 보인다.
은닉층 1개의 출력층으로 구성되어있다. 활성화 함수로는 입력층과 가까운 5개 층은 ELU 함수를, 출력층과 가까운 3개 층은 ReLU 함수를 이용하였다. 다중 분류를 위해서 손실 함수는 categorical cross-entropy 함수를 사용하였다.
대상 데이터
∙스크린 디바이스: 참가자는 3가지 스크린 디바이스 (데스크탑 모니터, 노트북 모니터, 스마트폰)를 사용하였다.
아래 결과에서는 각 모델의 F1 스코어를 박스 플롯으로 도식화하여 나타내고 10 fold의 평균값을 같이 보고한다. 각 분류 모델의 학습과 테스트는 Intel i7-7700 CPU와 NVIDIA Geforce 1060 GPU가 탑재된 컴퓨터를이용하여 수행되었다.
모델의 학습 및 평가를 위해 이전 연구 [7]에서 사용된 데이터 셋을 활용하였다. 이 데이터 셋은 10명의 참가자(남:9, 여:1)로부터 수집된 데이터로서 랩 환경에서수집된 것이다.
일반적으로 DNN에 비해 연산량과 파라미터의 개수가 많지만 높은 정확도를 가지는 것이 장점이다. 본 연구에서 사용된 CNN 아키텍처는 convolution 계층 4개, pooling 계층 2개, dropout 계층 1개로 구성되었다. Convolution 계층의 필터 수는 입력층과 가까운 2개의 계층에서는 100개, 출력층과 가까운 2개의 계층에서는 160개, 커널의 크기는 4개의 계층 모두 10으로 설정하였다.
이를 위해 전체 데이터 셋을 임의적으로섞은 후 10개의 세트로 분할한다. 분할한 10개의 세트 중 9개는 학습 데이터로 사용하고, 나머지 1개는 테스트데이터로 사용하여 평가를 진행한다. 이 과정을 중복되지 않게 총 10번(fold) 진행한다.
여기에는 참가자가 다양한 조건에서 스크린을 사용하는 도중 총 3가지 센서에서 수집된 데이터가 포함되어 있다. 사용된 센서는 color 센서, IMU 센서, lidar 센서로 샘플링 레이트는 각각 26Hz, 80Hz, 66Hz이었다. 데이터 수집 조건으로는 다음과 같은 것이있었다.
성능을 보이는지 평가해보고자 한다. 여기서 대상으로 하는 스크린 디바이스는 데스크탑 모니터, 노트북 모니터, 스마트폰 총 3가지로 정하였다. 그리고 스크린을보지 않는 상황을 따로 두었다.
이를 위해 본 논문에서는 다양한 머신러닝 모델을 활용하여 스크린 디바이스 분류기를 학습하고 성능을 비교하였다. 여기서 사용된 모델은 총 6가지로 Support Vector Machine, Random Forest, k-Nearest Neighbors와 같은 전통적인 머신 러닝 모델과 Multi- Layer Perceptron, Convolutional Neural Network, Long Short-Term Memory와 같은 신경망 기반 모델이다. F1 점수를 평가지표로 하여 10겹 교차 검증(10-fold cross validation)을 적용한 결과 전반적으로 신경망 기반 모델의 성능이 다른 모델의 성능보다 나은 결과를 보였다.
이 데이터 셋은 10명의 참가자(남:9, 여:1)로부터 수집된 데이터로서 랩 환경에서수집된 것이다. 여기에는 참가자가 다양한 조건에서 스크린을 사용하는 도중 총 3가지 센서에서 수집된 데이터가 포함되어 있다. 사용된 센서는 color 센서, IMU 센서, lidar 센서로 샘플링 레이트는 각각 26Hz, 80Hz, 66Hz이었다.
이 논문에서 사용된 네트워크는 총 1개의 입력층 8개의 은닉층 1개의 출력층으로 구성되어있다. 활성화 함수로는 입력층과 가까운 5개 층은 ELU 함수를, 출력층과 가까운 3개 층은 ReLU 함수를 이용하였다.
데이터 셋을 활용하였다. 이 데이터 셋은 10명의 참가자(남:9, 여:1)로부터 수집된 데이터로서 랩 환경에서수집된 것이다. 여기에는 참가자가 다양한 조건에서 스크린을 사용하는 도중 총 3가지 센서에서 수집된 데이터가 포함되어 있다.
데이터처리
이 논문에서 사용된 데이터 셋에 대한 분류 모델의 일반화 성능 평가를 위해, 널리 사용되는 교차 검증 방법의 하나인 10겹 교차 검증(10-fold cross validation) 방법을 이용하였다. 이를 위해 전체 데이터 셋을 임의적으로섞은 후 10개의 세트로 분할한다.
이론/모형
학습하였다. SVM, RF, k-NN 모델은 sklearn 기계학습 라이브러리를 사용하였고, MLP, CNN, LSTM 모델은 keras 신경망 라이브러리를 사용하였다. 각 모델에는 실험적으로 도출된 적절한 파라미터 값을 적용하였다.
활성화 함수로는 입력층과 가까운 5개 층은 ELU 함수를, 출력층과 가까운 3개 층은 ReLU 함수를 이용하였다. 다중 분류를 위해서 손실 함수는 categorical cross-entropy 함수를 사용하였다. 초기값은 he 초기값[11]을 사용하였다.
분류 모델 성능을 평가하기 위한 지표로는 F1 스코어를 이용하였다. F1 스코어는 분류 모델의 정확도를 나타내는 척도로서 사용되는 대표적인 평가지표 중 하나로, 정밀도(precision)와 재현율(recall)의 조화평균 값으로계산된다.
것이 일반적이다. 학습에 사용할 특징 데이터 추출을 위하여 본 논문에서는 이전 논문[7]에서 제시한 특징 추출과 차원 축소 방법을 사용하였다. 앞서 기술한 SVM, RF, k-NN 모델을 기반으로 스크린 사용 디바이스 분류기를 학습할 때는 이와 같은 특징 추출과 차원축소 과정을 거쳐 준비된 데이터를 이용하여 학습이 이루어졌다.
성능/효과
여기서 사용된 모델은 총 6가지로 Support Vector Machine, Random Forest, k-Nearest Neighbors와 같은 전통적인 머신 러닝 모델과 Multi- Layer Perceptron, Convolutional Neural Network, Long Short-Term Memory와 같은 신경망 기반 모델이다. F1 점수를 평가지표로 하여 10겹 교차 검증(10-fold cross validation)을 적용한 결과 전반적으로 신경망 기반 모델의 성능이 다른 모델의 성능보다 나은 결과를 보였다. 신경망 모델 중에서는 MLP 모델을 이용한 분류가 가장 높은 F1 점수를 보였다.
MLP 의 평균 F1 스코어는 0.998이고, CNN의 평균 F1 스코어는 0.986으로 MLP가 조금 높은 점수를 보였다. 상대적으로 이 둘보다 떨어지는 성능을 보인 것은 LSTM 모델이었다.
신경망 기반 모델에서는 MLP, CNN 기반 모델이 LSTM 기반 모델보다 상대적으로 높은 스코어를 보였으며, 전통적인 머신 러닝 모델에서는 RF 모델이 가장 우수했으며, 다음으로는 SVM 모델이었다. 기존 연구에서는 주로 스크린사용 여부만을 감지하는 것에 초점을 맞추었으나, 본 논문에서는 사용 중인 스크린 디바이스의 종류까지 구분할 수 있고 신경망 기반 모델의 경우 향상된 성능을 나타냄을 보인 것으로 의의가 있다.
845로 RF보다 낮은 성능을 보였다. 마지막으로 k-NN 모델은 나머지 두 모델보다 상대적으로 상당히 낮은 성능을 보였고, 평균 F1 스코어는 0.492이다. RF 모델은 전체적으로 스코어가 다른 모델에 비해 높고 디바이스 간의 차이도 작아서 좋은 성능을 보이는 것으로 평가할 수 있다.
3개의 전통적인 머신 러닝 모델(RF, SVM, k-NN)과 3개의 신경망 기반 모델(MLP, CNN, LSTM)을 이용하여 스크린 사용 디바이스 분류기를 학습하고, 데크스탑 모니터, 노트북 모니터, 스마트폰, 스크린 미사용, 4개의 클래스를 분류하도록 하였다. 성능 비교 결과 신경망 기반 모델이 전통적인 머신러닝 모델보다 높은 F1 스코어를 보였다. 신경망 기반 모델에서는 MLP, CNN 기반 모델이 LSTM 기반 모델보다 상대적으로 높은 스코어를 보였으며, 전통적인 머신 러닝 모델에서는 RF 모델이 가장 우수했으며, 다음으로는 SVM 모델이었다.
성능 비교 결과 신경망 기반 모델이 전통적인 머신러닝 모델보다 높은 F1 스코어를 보였다. 신경망 기반 모델에서는 MLP, CNN 기반 모델이 LSTM 기반 모델보다 상대적으로 높은 스코어를 보였으며, 전통적인 머신 러닝 모델에서는 RF 모델이 가장 우수했으며, 다음으로는 SVM 모델이었다. 기존 연구에서는 주로 스크린사용 여부만을 감지하는 것에 초점을 맞추었으나, 본 논문에서는 사용 중인 스크린 디바이스의 종류까지 구분할 수 있고 신경망 기반 모델의 경우 향상된 성능을 나타냄을 보인 것으로 의의가 있다.
F1 점수를 평가지표로 하여 10겹 교차 검증(10-fold cross validation)을 적용한 결과 전반적으로 신경망 기반 모델의 성능이 다른 모델의 성능보다 나은 결과를 보였다. 신경망 모델 중에서는 MLP 모델을 이용한 분류가 가장 높은 F1 점수를 보였다. 전통적 머신 러닝 모델 3가지 중에서는 RF 모델을 이용한 분류가 나머지 모델에 비해 우수하였고, k-NN 모델 기반 분류는 매우 낮은 점수를 보였다.
신경망 모델 중에서는 MLP 모델을 이용한 분류가 가장 높은 F1 점수를 보였다. 전통적 머신 러닝 모델 3가지 중에서는 RF 모델을 이용한 분류가 나머지 모델에 비해 우수하였고, k-NN 모델 기반 분류는 매우 낮은 점수를 보였다.
The 20-20-20 Rule [Internet]. Available: https://opto.ca/health-library/the-20-20-20-rule.
Screen Time [Internet]. Available: https://support.apple.com/ko-kr/HT208982.
Digital Wellbeing [Internet]. Available: https://www.android.com/digital-wellbeing/.
Y. C. Zhang and J. M. Rehg, "Watching the TV Watchers," Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, vol. 2, no. 2, Article 88, Jun. 2018.
F. Wahl, J. Kasbauer, and O. Amft, "Computer Screen Use Detection Using Smart Eyeglasses," Frontiers in ICT, 4:8, May 2017.
C. Min, E. Lee, S. Park, and S. Kang, "Tiger: Wearable Glasses for the 20-20-20 Rule to Alleviate Computer Vision Syndrome," in Proceedings of the 21st International Conference on Human-Computer Interaction with Mobile Devices and Services, Oct. 2019.
T. Okita and S. Inoue, "Recognition of multiple overlapping activities using compositional CNN-LSTM model," in Proceedings of the 2017 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2017 ACM International Symposium on Wearable Computers, pp. 165-168, Sep. 2017.
Y. Yuki, J. Nozaki, K. Hiroi, K. Kaji, and N. Kawaguchi, "Activity Recognition using Dual-ConvLSTM Extracting Local and Global Features for SHL Recognition Challenge," in Proceedings of the 2018 ACM International Joint Conference and 2018 International Symposium on Pervasive and Ubiquitous Computing and Wearable Computers, pp. 1643-1651, Oct. 2018.
L. Peng, L. Chen, Z. Ye, and Y. Zhang, "AROMA: A Deep Multi-Task Learning Based Simple and Complex Human Activity Recognition Method Using Wearable Sensors," Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, vol. 2, no. 2, Article 74, Jun. 2018.
K. He, X. Zhang, S. Ren, and J. Sun, "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification," in Proceedings of the IEEE International Conference on Computer Vision, pp. 1026-1034, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.