$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

정책 기울기 값 강화학습을 이용한 적응적인 QoS 라우팅 기법 연구
A Study of Adaptive QoS Routing scheme using Policy-gradient Reinforcement Learning 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.16 no.2, 2011년, pp.93 - 99  

한정수 (신구대학 컴퓨터멀티미디어과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a policy-gradient routing scheme under Reinforcement Learning that can be used adaptive QoS routing. A policy-gradient RL routing can provide fast learning of network environments as using optimal policy adapted average estimate rewards gradient values. This technique shows...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문은 네트워크 상의 전체 상태정보에 대한 사전 지식 없이 지역적으로 라우팅할 수 있는 새로운 라우팅 기법을 제안하였다. 제안된 라우팅 기법은 강화학습 환경 하에서 기대 보상값에 대한 기울기 값을 정책에 반영하는 정책 기울기 값 강화학습 라우팅 기법을 통해 네트워크 상황을 보다 빠르고 정확하게 그 때 그 때 적응할 수 있는 적응적 라우팅 기법을 함께 제안하였다.
  • 본 절에서는 논문에서 제안하는 정책 기울기 값 강화학습 기법을 사용한 QoS 라우팅 기법에 대한 성능을 알아보고자 한다. 이 기법은 네트워크 환경에 대한 정보를 빠르게 획득하고 이를 라우팅 정책에 적용함으로써 정확한 라우팅을 제공할 수 있다.
  • 요청에 대한 연결 결과에 따라, 노드 s상에서 s′로의 라우팅 정보를 갱신하는 것이 필요하다. 이는 앞서 언급한 바와 같이 기대 보상값에 대한 근사값들의 편차를 줄임으로써 빠른 학습 즉, 빠른 라우팅 정보갱신을 이루고자 한다. 이는 결과적으로 최적화 정책 즉, Q π(s,a)에 적용되어 라우팅 경로 선택시 결정적 역할을 하게 된다.
  • 이것은 값 함수 접근방법을 사용하는 알고리즘의 정확성에 심각한 문제를 발생시키게 된다. 이에 본 논문에서는 정책(행동 선택)을 위해 값 함수를 근사화하는 대신 기대 보상값의 기울기 값을 정책에 적용함으로써 근사화하는 방법인 정책 기울기 값 강화학습(policy-gradient RL) 기법을 사용하고자 한다. 이 기법에서는 정책 파라미터(Θ)가 정책에 대한 보상값(ρ), 즉 기대 보상값에 대한 기울기 값에 비례하여 갱신될 수 있으며 #로 표현할 수 있다는 것이다.

가설 설정

  • 먼저 모든 회선은 무방향성이고, 각 방향으로 똑같은 C unit의 대역폭을 갖는다. 네트워크에 도착한 연결 요청은1 unit 대역폭을 요구한다고 가정하자. 연결 요청(평균 도착율)은 소스 노드에 k를 갖는 포아송 프로세스를 따르며, 목적지는 소스 노드를 제외한 모든 노드로부터 랜덤하게 선택된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MDP는 어떤 방법인가? MDP(Markov Decision Process)는 복잡한 POMDP 문제를 해결하기 위한 기초를 제공한다. MDP는 에이전트(agent)와 환경 (environment)과의 상호관계와 이에 따른 강화 값(reinforcement value)을 통하여 에이전트의 행동을 개선해 나가는 방법으로서 환경에대한정확한사전지식없이학습및적응성을보장할수있는방법이다. 일반적으로 MDP는 각 시간 t∈{0,1,2,.
정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법이란? 본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.
MDP는 무엇을 제공하는가? MDP(Markov Decision Process)는 복잡한 POMDP 문제를 해결하기 위한 기초를 제공한다. MDP는 에이전트(agent)와 환경 (environment)과의 상호관계와 이에 따른 강화 값(reinforcement value)을 통하여 에이전트의 행동을 개선해 나가는 방법으로서 환경에대한정확한사전지식없이학습및적응성을보장할수있는방법이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (8)

  1. Srihari Nelakuditi, Zhi-Li Zhang and Rose P.Tsang, "Adaptive Proportional Routing: A Localized QoS Routing Approach," In IEEE Infocom, April 2000. 

  2. Y.Liu, C.K. Tham and TCK. Hui, "MAPS: A Localized and Distributed Adaptive Path Selection in MPLS Networks," in Proceedings of 2003 IEEE Workshop on High Performance Switching and Routing, Torino, Italy, pp. 24-28, June 2003. 

  3. Yvn Tpac Valdivia, Marley M, Vellasco, Marco A. Pacheco "An Adaptive Network Routing Strategy with Temporal Differences," Inteligencia Artificial, Revista Lberoamericana de Inteligencia Aritificial, No. 12, pp. 85-91, 2001. 

  4. Jeongsoo Han, "Network-Adaptive QoS Routing Using Local Information," APNOMS 2006, LNCS 4238, pp. 190-199, 2006. 

  5. Leslie Pack Kaelbling, Michael L. Littman, Andrew W.Moore, "Reinforcement Learning:A Survey," Journal of Artificial Intelligence Research 4, pp. 237-285, 1996 

  6. Richard S. Sutton etc, "Policy Gradient Methods for Reinforcement Learning with Function Approximation," Advances in Neural Information Processing System, pp. 1057-1063, MIT Press 2000. 

  7. Gregory Z. Grudic, Vijay Kumar, "Using Policy Gradient Reinforcement Learning on Automous Robot Controllers," IROS03, Las Vagas, US, October, 2003. 

  8. S.Banerjee, R.K. Ghosh and A.P.K Reddy, "Parallel algorithm for shortest pairs of edge-disjoint paths," Journal Parallel Distrib. Comput. pp. 165-171, 1996. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로