[논문]감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법

김성완; 장형수

초록
AI-Helper

최근에 제안된 강화 학습 기법인 "potential-based" reinforcement learning(RL) 기법은 다수 학습들과 expert advice들을 감독 지식으로 강화 학습 알고리즘에 융합하는 것을 가능하게 했고 그 효용성은 최적 정책으로의 이론적 수렴성 보장으로 증명되었다. 본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제에 적용한다. Potential-based RL 기반의 동적 채널 할당 기법이 기존의 fixed channel assignment, Maxavail, Q-learning-based dynamic channel assignment 채널 할당 기법들보다 효율적으로 채널을 할당한다. 또한, potential-based RL 기법이 기존의 강화 학습 알고리즘인 Q-learning, SARSA(0)에 비하여 최적 정책에 더 빠르게 수렴함을 실험적으로 보인다.

Abstract ▼ AI-Helper

The recently proposed "Potential-based" reinforcement learning (RL) method made it possible to combine multiple learnings and expert advices as supervised knowledge within an RL framework. The effectiveness of the approach has been established by a theoretical convergence guarantee to an optimal pol...

The recently proposed "Potential-based" reinforcement learning (RL) method made it possible to combine multiple learnings and expert advices as supervised knowledge within an RL framework. The effectiveness of the approach has been established by a theoretical convergence guarantee to an optimal policy. In this paper, the potential-based RL method is applied to a dynamic channel assignment (DCA) problem in a cellular networks. It is empirically shown that the potential-based RL assigns channels more efficiently than fixed channel assignment, Maxavail, and Q-learning-based DCA, and it converges to an optimal policy more rapidly than other RL algorithms, SARSA(0) and PRQ-learning.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

m개의 서브에이전트 이외에도 k= 1, ..., / 개의 expert 들이 있다고 하고, 각각의 expert들은 각 상태 (state) 에서 행동(action)들의 집합 4에 대한 확률 분포의 형태로 기본 에이전트에 expert advic연들을 제시한다고 하자. Exp函는 CBRCCased Based Reasoning) [8], model-based/model free RLfl, 2] 등이 될 수 있으며, 이 때 함수。는 다음과 같이 확장된다.

제안 방법

성능 측정은 다음과 같이 이루어졌다. FCA와 Maxavaile 5 simulation 시간 동안 각각의 채널 할당 기법을 수행한 뒤 blocking probability# 측정하였고, Q-learning-based DCA와 SARSA(0)-based DCA, 그리고 potential-based RL을적용한 DCA는 15 simulation 시간동안 각각의 정책을 학습한 뒤, 해당 정책을 사용하여 5 simulation 시간 동안 채널 할당을 수행한 뒤 blocking probability를 측정하였다. 그림 2의 그래프에서 £축은 traffic load 叫를나타내며, 叫의 값이 5에서 10으로 늘어남에 따라 call arrival rate 人는 100에서 200으로 늘어난다.
자(그림 1). 각 셀의 call 발생률은 평균 arrival rate 人의 Poisson 분포를 따르며, call이 발생한 셀에 채널이 할당되면 exponential 분포를 갖는 call holding time S灿町 뒤에 산后口睥1은 f잆g%된다 셀 抑! call arrival이 발생하였다고 하자. 채널 간 간섭 거리를 力라고 할 때 그림 1에서 색이 칠해진 부분은 셀 »와 간섭 거리 /이내에 놓인 셀들을 의미한다.
위 실험 환경에서 fixed channel allocation(FCA), Maxavail[9], Q-leaming-based DCA, SARSA(O)-based DCA, potential-based RL을 적용한 DCA의 bio아dng probability# 측정하여 각각의 성능을 비교하였다. FCA는 각 셀마다 10개의 고정된 채널만을 사용하며, Maxavaile cell g] call이 발생했을 때, avail (i) 개의 할당 가능한 채널들 중에서 모든 셀의 할당 가능한 채널의 수의 합, 즉 전체 셀의 개수가 49개일 경우 E 籍] 如澜(1) 를 최대로 만드는 채널을 선택하여 할당한다.
이 실험에서는 simulation 시간을 사용하며, 1초의 simulation 시간마다 call arrival rate 人에 따른 확률로 각 셀에 call이 발생한다. 성능 측정은 다음과 같이 이루어졌다.

대상 데이터

7X7 개의 육각형의 cell들로 구성된, 70개의 채널을 가진 셀룰러 네트워크가 있다고 하자(丿V=49, 丿1/=70). 본 실험에서 사용되는 parametei■들은 다음과 같이 정의된다.

이론/모형

Potential-based RL 기법은 SARSA(O)을 사용하는 기본 에이전트와 Q니earning을 사용하는 1개의 서브 에이전트, Maxavail을 사용하는 1개의 expert로 이루어져 있다. Potential-based RL 기법과 SARSA(O), QTeaming의 EE-rule로는 ef-greedy strategy를 사용하였으며, 耳의 값은 다음과 같이 설정한다. :
결과는 제시된 바가 없었다. 본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제[6]에 적용한다. Potential-based RL 기반의 채널 할당 기법은 Maxavail, Q-leaming-based dynamic channel assignment(DCA) [6] 기존의 채널 할당 기법들보다 효율적으로 채널을 할당한다.
지금까지 감독 지식을 융합하는 강화 학습 기법안 potentiabbased RL 기법에 대하여 알아보고, 이를 셀룰러 네트워크에서의 채널 할당 문제에 적용하였다. Potentiabbased RL 기법을 사용하는 동적 채널 할당기법의 성능을 기존의 채널 할당 기법들과 비교한 결과, Maxvail을 expert로, QTeaming을 다수 학습으로 사용한 potential-based RL 기반의 DCA가 가장 효율적으로 채널을 할당하였다.

성능/효과

적용하였다. Potentiabbased RL 기법을 사용하는 동적 채널 할당기법의 성능을 기존의 채널 할당 기법들과 비교한 결과, Maxvail을 expert로, QTeaming을 다수 학습으로 사용한 potential-based RL 기반의 DCA가 가장 효율적으로 채널을 할당하였다. 또한, RL 알고리즘들 간의 expected total rew귢rd들의 비교를 통해 potentialbased RL 기법이 기존의 강화 학습 기법의 성능을 향상시켰음을 확인하였다“
그림 3은 R)훌ential-based RL 기법을 사용한 DCA와 Q-leaming-based DCA, SARSA(O)-based DCA의 수렴 과정을 비교한 그래프이다. UX104 번의 상태 전이를 거친 결과 potential-based RL 기법이 Q니earning 에 비해서 낮은 expected total reward값을 보이며, 이는 potential-based RL 기법이 최적 정책예 Q니ear-riing과 SARSA(O)보다 더 빠르게 수렴한다는 것을 뜻한다.
Potentiabbased RL 기법을 사용하는 동적 채널 할당기법의 성능을 기존의 채널 할당 기법들과 비교한 결과, Maxvail을 expert로, QTeaming을 다수 학습으로 사용한 potential-based RL 기반의 DCA가 가장 효율적으로 채널을 할당하였다. 또한, RL 알고리즘들 간의 expected total rew귢rd들의 비교를 통해 potentialbased RL 기법이 기존의 강화 학습 기법의 성능을 향상시켰음을 확인하였다&ldquo;
Potential-based RL 기반의 채널 할당 기법은 Maxavail, Q-leaming-based dynamic channel assignment(DCA) [6] 기존의 채널 할당 기법들보다 효율적으로 채널을 할당한다. 또한, potential-based RL 기법이 SARSA(0)[l, 기와 Q— learning 등 기존의 강화 학습 알고리즘들에 비해 최적 정책에 더 빠르게 수렴한다는 것을 실험적으로 보인다. 본 논문은 다음과 같이 구성되어 있다.
학습함으로써 채널 할당 효율을 높였다. DCA를 MDP 에 대해서 정의하면 아래와 같으며 이는

참고문헌 (9)

R. Sutton and A. Barto, Reinforcement Learning. MIT Press, 2000
M. L. Littman. Algorithms for sequential decision making. Unpublished Ph.D. Thesis, Brown University, Providence, R.I. 1996
M. N. ahmadabadi and M. Asadpour, "Expertness based cooperative Q-learning," IEEE Trans. on Systems, Man, and Cybernetics, part B, Vol.32, No.1, pp. 66-76, 2002

상세보기
H. S. Chang, "Reinforcement Learning with Supervision by Combining Multiple Learnings and Expert Advices," in Proc. of the 2006 American Control Conference, pp. 4159-4164, 2006
A. Y. Ng, D. Harada, and S. Russel. "Policy invariance under reward transformations: theory and application to reward shaping," in Proc. of the 16th Int. Conf. on Machine Learning, pp. 278-287, 1999
Junhong Nie; Haykin, S., "A dynamic channel assignment policy through Q-learning," IEEE Trans. on Neural Networks, Vol.10, No.6, pp. 1443-1455, 1999

상세보기
Singh, S., Jaakkola, T., Littman, M. L., Szepesv'ari, C, "Convergence results for single-step on-policy reinforcement-learning algorithms," Journal of Machine Learning, Vol.38, No.3, pp. 287-308, 2000
T. Mitchell, Machine Learning, McGraw Hill, 1989
Tekinay, S.; Jabbari, B., "Handover and channel assignment in mobile cellular networks," Communications Magazine, IEEE, Vol.29, No.11, pp. 42-46, 1991

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법
A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법 A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

김성완 (1) 장형수 (13)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법
A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper