$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘
A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.24 no.11, 2020년, pp.1500 - 1506  

정무웅 (Dept. of Information and Communication Engineering, Gyeongsang National University) ,  김륜우 (Dept. of Information and Communication Engineering, Gyeongsang National University) ,  반태원 (Dept. of Information and Communication Engineering, Gyeongsang National University)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we study a scheduling problem based on reinforcement learning for overlay device-to-device (D2D) communication networks. Even though various technologies for D2D communication networks using Q-learning, which is one of reinforcement learning models, have been studied, Q-learning cause...

주제어

표/그림 (3)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • [10]. 따라서 우리는 환경에 따라서 적응적으로 전송 링크를 선택하는 DQN 기반 스케쥴링 알고리즘을 연구한다. 일반적으로 강화학습 문제는 MDP (Markov Decision Process)라는 확률 모델로 수식화한다.
  • 필수적이다. 따라서, 본 논문에서는 오버레이 D2D 네트워크에서의 DQN 기반 스케쥴링을 위한 분산형 알고리즘을 제안한다.
  • 그리고, 본 연구에서 고려하는 오버레이 D2D 네트워크는 셀룰러 통신과 다른 주파수를 사용하고 기지국의 개입 없이 단말 간 직접 통신하기 때문에, 오버레이 D2D 네트워크를 위하여 분산적 알고리즘이 필수적으로 요구된다. 따라서, 본 논문에서는 오버레이 D2D 통신 네트워크의 특성을 고려하기 위한 DQN 모델을 디자인하고, 기지국과 모바일 간 정보 교환으로 발생한 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 알고리즘을 제안한다. 본 논문의 나머지 구성은 다음과 같다.
  • 본 논문에서는 D2D 네트워크의 전송률의 합을 최대화하도록 하는 링크 스케쥴링 문제를 고려하고, 해당 문제는 다음과 같이 정의된다.
  • 본 논문에서는 오버레이 D2D 통신 네트워크에서 강화학습을 이용한 스케쥴링 문제를 연구하였다. 오버레이 D2D 통신 네트워크에 적합한 DQN 모델을 디자인하고, 피드백과 시그널링 오버헤드를 줄이기 위한 DQN 기반 분산적 스케쥴링 방식을 제안하였다.

가설 설정

  • 준정적 시간 페이딩 채널 (quasi-static fading channel)을 고려하여 채널 계수들은 데이터를 전송하는 시간 슬롯 내에서 일정한 값을 가지고, 시간 슬롯마다 번째 시간 슬롯에서 독립적으로 변한다. 그리고 전송 단말 의 전송 전력을 나타내며, 모든 전송 단말의 전송 전력은 tx로 일정하다고 가정한다. 번째 시간 슬롯에서 수신 단말 의 수신 SINR (signal-to-interference-plus-noise ratio)은 다음과 같이 계산된다.
  •  서 측정된 전송 단말 와 수신 단말  사이의 채널 계수를 나타낸다. 모든 채널 계수는 평균이 0이고 분산이 1 인 복소 정규 분포를 따르고, 독립적이고 동일하게 분포되어 있다고 가정한다. 시분할 이중화 기법을 고려하므로, 채널 간 대칭성으로 인하여 상향 링크와 하향 링크의 채널 계수가 동일하다고 가정한다.
  • 모든 채널 계수는 평균이 0이고 분산이 1 인 복소 정규 분포를 따르고, 독립적이고 동일하게 분포되어 있다고 가정한다. 시분할 이중화 기법을 고려하므로, 채널 간 대칭성으로 인하여 상향 링크와 하향 링크의 채널 계수가 동일하다고 가정한다. 따라서, 각 전송 단말은 수신 단말들로부터 받은 요청 메시지를 통하여 자신과 해당 수신 단말 간 채널 계수를 완벽하게 측정할 수 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (11)

  1. M. Sheng, H. Sun, X. Wang, Y. Zhang, T. Q. S. Quek, J. Liu, and J. Li, "Ondemand scheduling: achieving QoS dierentiation for D2D communications," IEEE Communications Magazine, vol. 53, no. 7, pp. 162-170, Jul. 2015. 

  2. J. Lyu, Y. H. Chew, and W.-C. Wong, "A Stackelberg Game Model for Overlay D2D Transmission With Heterogeneous Rate Requirements," IEEE Transactions on Vehicular Technology, vol. 65, no. 10, pp. 8461-8475, Oct. 2016. 

  3. J. Xu and C. Guo, "Scheduling Stochastic Real-Time D2D Communications," IEEE Transactions on Vehicular Technology, vol. 68, no. 6, pp. 6022-6036, Jun. 2019. 

  4. Siba Narayan Swain, Rahul Thakur, and C. Siva Ram Murthy, "Design and stochastic geometric analysis of an efficient Q-Learning based physical resource block allocation scheme to maximize the spectral efficiency of Device-to-Device overlaid cellular networks," Computer Networks, vol. 119, pp. 71-85, Mar. 2017. 

  5. Z. Fan, X. Gu, S. Nie, and M. Chen, "D2D power control based on supervised and unsupervised learning," 2017 3rd IEEE International Conference on Computer and Communications (ICCC), Chengdu, pp. 558-563, 2017. 

  6. X. Fang, T. Zhang, Y. Liu, and Z. Zeng, "Multi-Agent Cooperative Alternating Q-Learning Caching in D2D-Enabled Cellular Networks," 2019 IEEE Global Communications Conference (GLOBECOM), Waikoloa, HI, USA, pp. 1-6, 2019. 

  7. J. Yin, L. Li, Y. Xu, W. Liang, H. Zhang, and Z. Han, "Joint Content Popularity Prediction and Content Delivery Policy for Cache- Enabled D2D Networks: A Deep Reinforcement Learning Approach," 2018 IEEE Global Conference on Signal and Information Processing (GlobalSIP), Anaheim, CA, USA, pp. 609-613, 2018. 

  8. J. Tang, H. Tang, X. Zhang, K. Cumanan, G. Chen, K.-K. Wong, J. A. Chambers, "Energy Minimization in D2D-Assisted Cache-Enabled Internet of Things: A Deep Reinforcement Learning Approach," IEEE Transactions on Industrial Informatics, vol. 16, no. 8, pp. 5412-5423, Aug. 2020. 

  9. R. Li, Y. Zhao, C. Wang, X. Wang, V. C. M. Leung, X. Li, T. Taleb, "Edge Caching Replacement Optimization for D2D Wireless Networks via Weighted Distributed DQN," 2020 IEEE Wireless Communications and Networking Conference (WCNC), Seoul, Korea (South), pp. 1-6, 2020. 

  10. T. Ban and B. C. Jung, "On the Link Scheduling for Cellular-Aided Device-to-Device Networks," IEEE Transactions on Vehicular Technology, vol. 65, no. 11, pp. 9404-9409, Nov. 2016. doi: 10.1109/TVT.2016.2519461. 

  11. F. Meng, P. Chen, L. Wu, and J. Cheng, "Power Allocation in Multi-User Cellular Networks: Deep Reinforcement Learning Approaches," IEEE Transactions on Wireless Communications, 2020. doi: 10.1109/TWC.2020.3001736. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로