단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘 A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks원문보기
본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.
본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.
In this paper, we study a scheduling problem based on reinforcement learning for overlay device-to-device (D2D) communication networks. Even though various technologies for D2D communication networks using Q-learning, which is one of reinforcement learning models, have been studied, Q-learning cause...
In this paper, we study a scheduling problem based on reinforcement learning for overlay device-to-device (D2D) communication networks. Even though various technologies for D2D communication networks using Q-learning, which is one of reinforcement learning models, have been studied, Q-learning causes a tremendous complexity as the number of states and actions increases. In order to solve this problem, D2D communication technologies based on Deep Q Network (DQN) have been studied. In this paper, we thus design a DQN model by considering the characteristics of wireless communication systems, and propose a distributed scheduling scheme based on the DQN model that can reduce feedback and signaling overhead. The proposed model trains all parameters in a centralized manner, and transfers the final trained parameters to all mobiles. All mobiles individually determine their actions by using the transferred parameters. We analyze the performance of the proposed scheme by computer simulation and compare it with optimal scheme, opportunistic selection scheme and full transmission scheme.
In this paper, we study a scheduling problem based on reinforcement learning for overlay device-to-device (D2D) communication networks. Even though various technologies for D2D communication networks using Q-learning, which is one of reinforcement learning models, have been studied, Q-learning causes a tremendous complexity as the number of states and actions increases. In order to solve this problem, D2D communication technologies based on Deep Q Network (DQN) have been studied. In this paper, we thus design a DQN model by considering the characteristics of wireless communication systems, and propose a distributed scheduling scheme based on the DQN model that can reduce feedback and signaling overhead. The proposed model trains all parameters in a centralized manner, and transfers the final trained parameters to all mobiles. All mobiles individually determine their actions by using the transferred parameters. We analyze the performance of the proposed scheme by computer simulation and compare it with optimal scheme, opportunistic selection scheme and full transmission scheme.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
[10]. 따라서 우리는 환경에 따라서 적응적으로 전송 링크를 선택하는 DQN 기반 스케쥴링 알고리즘을 연구한다. 일반적으로 강화학습 문제는 MDP (Markov Decision Process)라는 확률 모델로 수식화한다.
필수적이다. 따라서, 본 논문에서는 오버레이 D2D 네트워크에서의 DQN 기반 스케쥴링을 위한 분산형 알고리즘을 제안한다.
그리고, 본 연구에서 고려하는 오버레이 D2D 네트워크는 셀룰러 통신과 다른 주파수를 사용하고 기지국의 개입 없이 단말 간 직접 통신하기 때문에, 오버레이 D2D 네트워크를 위하여 분산적 알고리즘이 필수적으로 요구된다. 따라서, 본 논문에서는 오버레이 D2D 통신 네트워크의 특성을 고려하기 위한 DQN 모델을 디자인하고, 기지국과 모바일 간 정보 교환으로 발생한 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 알고리즘을 제안한다. 본 논문의 나머지 구성은 다음과 같다.
본 논문에서는 D2D 네트워크의 전송률의 합을 최대화하도록 하는 링크 스케쥴링 문제를 고려하고, 해당 문제는 다음과 같이 정의된다.
본 논문에서는 오버레이 D2D 통신 네트워크에서 강화학습을 이용한 스케쥴링 문제를 연구하였다. 오버레이 D2D 통신 네트워크에 적합한 DQN 모델을 디자인하고, 피드백과 시그널링 오버헤드를 줄이기 위한 DQN 기반 분산적 스케쥴링 방식을 제안하였다.
가설 설정
준정적 시간 페이딩 채널 (quasi-static fading channel)을 고려하여 채널 계수들은 데이터를 전송하는 시간 슬롯 내에서 일정한 값을 가지고, 시간 슬롯마다 는 번째 시간 슬롯에서 독립적으로 변한다. 그리고 전송 단말 의 전송 전력을 나타내며, 모든 전송 단말의 전송 전력은 tx로 일정하다고 가정한다. 번째 시간 슬롯에서 수신 단말 의 수신 SINR (signal-to-interference-plus-noise ratio)은 다음과 같이 계산된다.
서 측정된 전송 단말 와 수신 단말 사이의 채널 계수를 나타낸다. 모든 채널 계수는 평균이 0이고 분산이 1 인 복소 정규 분포를 따르고, 독립적이고 동일하게 분포되어 있다고 가정한다. 시분할 이중화 기법을 고려하므로, 채널 간 대칭성으로 인하여 상향 링크와 하향 링크의 채널 계수가 동일하다고 가정한다.
모든 채널 계수는 평균이 0이고 분산이 1 인 복소 정규 분포를 따르고, 독립적이고 동일하게 분포되어 있다고 가정한다. 시분할 이중화 기법을 고려하므로, 채널 간 대칭성으로 인하여 상향 링크와 하향 링크의 채널 계수가 동일하다고 가정한다. 따라서, 각 전송 단말은 수신 단말들로부터 받은 요청 메시지를 통하여 자신과 해당 수신 단말 간 채널 계수를 완벽하게 측정할 수 있다.
제안 방법
Ⅲ장에서 DQN 모델 기반 분산적 스케쥴링 알고리즘을 제안한다. Ⅳ장에서 컴퓨터 시뮬레이션을 이용해서 제안 방식의 성능을 다양한 환경에서 분석하고, Ⅴ장에서 결론을 맺는다.
논문 [7]에서는 모바일 기기에 콘텐츠를 미리 분배하여 D2D 통신으로 다른 모바일 유저에게 콘텐츠를 제공하는 캐시 가능 D2D 통신 네트워크가 연구되었다. 구체적으로, D2D 통신 네트워크의 트래픽과 딜레이를 최소화하기 위한 콘텐츠 분배 문제를 풀기 위하여 DQN 기반 캐싱 전략 기법을 제안하였다. 논문 [8]은 소형 셀 또는 모바일에 콘텐츠를 미리 저장하여 사용자들에게 콘텐츠를 직접 전달하는 모바일 엣지 캐싱 네트워크를 고려하였으며, 해당 네트워크에서 전력 소비를 최소화하기 위한 Q-learning 기반 및 DQN 기반 콘텐츠 분배 알고리즘을 제안하였다.
통하여 분석한다. 그리고 제안된 스케쥴링 알고리즘을 최적 방식, 채널 이득이 가장 큰 D2D 링크의 전송 단말만 전송하는 기회주의적 선택 방식, 모든 D2D 링크들이 동시에 통신하는 전체 전송 방식과 비교한다.
본 컴퓨터 시뮬레이션에서, DQN의 학습 모듈을 파이썬 텐서플로우 기반으로 개발하였다. 학습 네트워크는 입력층, 은닉층, 출력층 하나씩으로 구성되어 있고, 층 사이의 활성화 함수로 렐루 (Relu) 함수가 사용되었다.
오버레이 D2D 통신 네트워크에 적합한 DQN 모델을 디자인하고, 피드백과 시그널링 오버헤드를 줄이기 위한 DQN 기반 분산적 스케쥴링 방식을 제안하였다. 학습 단계에서, 중앙 컨트롤러가 모든 전송 단말로부터 모든 채널 정보들을 수신하고, DQN 파라미터들을 학습시킨다.
오버레이 D2D 통신 네트워크에 적합한 DQN 모델을 디자인하고, 피드백과 시그널링 오버헤드를 줄이기 위한 DQN 기반 분산적 스케쥴링 방식을 제안하였다. 학습 단계에서, 중앙 컨트롤러가 모든 전송 단말로부터 모든 채널 정보들을 수신하고, DQN 파라미터들을 학습시킨다. 특정 시간 슬롯 동안 학습이 진행된 이후에, 중앙 컨트롤러가 최종적으로 업데이트된 파라미터들을 모든 전송단말들에게 전달한다.
대상 데이터
본 논문에서 고려하는 오버레이 D2D 통신 네트워크에서는 전송 단말과 수신 단말이 각각 개씩 존재하며 는 번째 시간 슬롯에 한 쌍씩 링크로 구성되어 있다. 서 측정된 전송 단말 와 수신 단말 사이의 채널 계수를 나타낸다.
데이터처리
본 장에서는 제안된 스케쥴링 알고리즘을 컴퓨터 시뮬레이션을 통하여 분석한다. 그리고 제안된 스케쥴링 알고리즘을 최적 방식, 채널 이득이 가장 큰 D2D 링크의 전송 단말만 전송하는 기회주의적 선택 방식, 모든 D2D 링크들이 동시에 통신하는 전체 전송 방식과 비교한다.
분산적 실행 단계에서, 모든 단말들은 최종 업데이트된 파라미터를 이용하여 각자의 행동을 개별적으로 판단한다. 제안된 방식을 컴퓨터 시뮬레이션을 통하여 분석하였고, 최적 방식, 기회주의적 선택 방식, 전체 전송 방식과 비교하였다. 낮은 전송 전력에서는, 제안된 방식은 기회주의적 선택 방식과 전체 전송 방식보다 높은 평균 전송률을 나타내고, 제안 방식과 최적 방식 간 성능 차이가 크지 않다.
성능/효과
제안된 방식을 컴퓨터 시뮬레이션을 통하여 분석하였고, 최적 방식, 기회주의적 선택 방식, 전체 전송 방식과 비교하였다. 낮은 전송 전력에서는, 제안된 방식은 기회주의적 선택 방식과 전체 전송 방식보다 높은 평균 전송률을 나타내고, 제안 방식과 최적 방식 간 성능 차이가 크지 않다. 높은 전력 수준에서, 중앙집중식인 기회주의적 선택 방식의 평균 전송률이 제안 방식보다 높지만, 전체 D2D 링크의 수가 증가할수록 두 방식 간 성능 차이는 줄어든다.
일 때, 최적 방식의 평균 전송률은 매우 높은 계산 복잡도 때문에 컴퓨터 시뮬레이션으로 얻을 수 없다. 높은 SNR 구간에서, 제안 방식의 평균 전송률은 최적 방식과 기회주의적 방식보다 낮다. 하지만, 본 논문에서 사용되는 최적 방식과 기회주의적 선택 방식은 채널 상태 정보 수집과 최적 전송 조합을 결정하기 위한 별도의 중앙집중식 제어 장치를 요구하기 때문에, 실제 환경에서 구현이 어렵다.
낮은 전송 전력에서는, 제안된 방식은 기회주의적 선택 방식과 전체 전송 방식보다 높은 평균 전송률을 나타내고, 제안 방식과 최적 방식 간 성능 차이가 크지 않다. 높은 전력 수준에서, 중앙집중식인 기회주의적 선택 방식의 평균 전송률이 제안 방식보다 높지만, 전체 D2D 링크의 수가 증가할수록 두 방식 간 성능 차이는 줄어든다.
첫 번째, 모든 단말들의 그 어떠한 행동과 무관하게 단계마다 상태가 확률적으로 변경된다. 두 번째, 무선 통신의 현재 보상은 현재의 행동과 현재의 상태에 의하여 즉각적으로 결정된다. 위의 2가지 특징은 수학적으로 각각 모든 ′에 대해서 ′′와 ′로 표현된다.
하지만, 링크 개수가 증가함에 따라서 성능 차이는 감소한다. 일정 링크 개수 이상에서는 제안 방식이 기회주의적 선택 방식보다 더 좋은 성능을 보인다.
고려한다. 첫 번째, 모든 단말들의 그 어떠한 행동과 무관하게 단계마다 상태가 확률적으로 변경된다. 두 번째, 무선 통신의 현재 보상은 현재의 행동과 현재의 상태에 의하여 즉각적으로 결정된다.
후속연구
존재하지 않는다. 그리고, 본 연구에서 고려하는 오버레이 D2D 네트워크는 셀룰러 통신과 다른 주파수를 사용하고 기지국의 개입 없이 단말 간 직접 통신하기 때문에, 오버레이 D2D 네트워크를 위하여 분산적 알고리즘이 필수적으로 요구된다. 따라서, 본 논문에서는 오버레이 D2D 통신 네트워크의 특성을 고려하기 위한 DQN 모델을 디자인하고, 기지국과 모바일 간 정보 교환으로 발생한 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 알고리즘을 제안한다.
참고문헌 (11)
M. Sheng, H. Sun, X. Wang, Y. Zhang, T. Q. S. Quek, J. Liu, and J. Li, "Ondemand scheduling: achieving QoS dierentiation for D2D communications," IEEE Communications Magazine, vol. 53, no. 7, pp. 162-170, Jul. 2015.
J. Lyu, Y. H. Chew, and W.-C. Wong, "A Stackelberg Game Model for Overlay D2D Transmission With Heterogeneous Rate Requirements," IEEE Transactions on Vehicular Technology, vol. 65, no. 10, pp. 8461-8475, Oct. 2016.
J. Xu and C. Guo, "Scheduling Stochastic Real-Time D2D Communications," IEEE Transactions on Vehicular Technology, vol. 68, no. 6, pp. 6022-6036, Jun. 2019.
Siba Narayan Swain, Rahul Thakur, and C. Siva Ram Murthy, "Design and stochastic geometric analysis of an efficient Q-Learning based physical resource block allocation scheme to maximize the spectral efficiency of Device-to-Device overlaid cellular networks," Computer Networks, vol. 119, pp. 71-85, Mar. 2017.
Z. Fan, X. Gu, S. Nie, and M. Chen, "D2D power control based on supervised and unsupervised learning," 2017 3rd IEEE International Conference on Computer and Communications (ICCC), Chengdu, pp. 558-563, 2017.
X. Fang, T. Zhang, Y. Liu, and Z. Zeng, "Multi-Agent Cooperative Alternating Q-Learning Caching in D2D-Enabled Cellular Networks," 2019 IEEE Global Communications Conference (GLOBECOM), Waikoloa, HI, USA, pp. 1-6, 2019.
J. Yin, L. Li, Y. Xu, W. Liang, H. Zhang, and Z. Han, "Joint Content Popularity Prediction and Content Delivery Policy for Cache- Enabled D2D Networks: A Deep Reinforcement Learning Approach," 2018 IEEE Global Conference on Signal and Information Processing (GlobalSIP), Anaheim, CA, USA, pp. 609-613, 2018.
J. Tang, H. Tang, X. Zhang, K. Cumanan, G. Chen, K.-K. Wong, J. A. Chambers, "Energy Minimization in D2D-Assisted Cache-Enabled Internet of Things: A Deep Reinforcement Learning Approach," IEEE Transactions on Industrial Informatics, vol. 16, no. 8, pp. 5412-5423, Aug. 2020.
R. Li, Y. Zhao, C. Wang, X. Wang, V. C. M. Leung, X. Li, T. Taleb, "Edge Caching Replacement Optimization for D2D Wireless Networks via Weighted Distributed DQN," 2020 IEEE Wireless Communications and Networking Conference (WCNC), Seoul, Korea (South), pp. 1-6, 2020.
T. Ban and B. C. Jung, "On the Link Scheduling for Cellular-Aided Device-to-Device Networks," IEEE Transactions on Vehicular Technology, vol. 65, no. 11, pp. 9404-9409, Nov. 2016. doi: 10.1109/TVT.2016.2519461.
F. Meng, P. Chen, L. Wu, and J. Cheng, "Power Allocation in Multi-User Cellular Networks: Deep Reinforcement Learning Approaches," IEEE Transactions on Wireless Communications, 2020. doi: 10.1109/TWC.2020.3001736.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.