[논문]강화학습 이론의 신경과학적 고찰

이상완

강화학습 이론의 신경과학적 고찰 원문보기

정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers, v.36 no.1 = no.344, 2018년, pp.8 - 16

이상완 (KAIST)

초록이 없습니다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

더 나아가 이러한 강화학습의 신경과학과 알고리즘에 대한 논의를 종합하여, 프로세스의 복잡도와 학습 속도 간의 균형점을 찾아가는 뇌 기반 강화학습 이론에 대해 소개한다. 끝으로 이러한 이론을 바탕으로 한 공학적 응용 가능성에 대해 논의한다.
둘째, 뇌의 강화학습 관련 정보처리 과정을 기능적으로 분리하여 알고리즘에 구현되어 있지 않은 뇌의 고유한 강화학습 능력에 대해 살펴본다. 더 나아가 이러한 강화학습의 신경과학과 알고리즘에 대한 논의를 종합하여, 프로세스의 복잡도와 학습 속도 간의 균형점을 찾아가는 뇌 기반 강화학습 이론에 대해 소개한다. 끝으로 이러한 이론을 바탕으로 한 공학적 응용 가능성에 대해 논의한다.
여기서 전략을 매 ''상황''에 대한 가치 값으로 표현하는 방식을 TD evaluation, MC evaluation과 같이 부르며, 전략을 매 상황에서의 ''행동''에 대한 가치 값으로 표현하는 것을 TD control, MC control 등으로 부른다. 본 글에서는 인간의 실제 학습과 가장 가깝다고 알려진 TD control (이하 TD learning이라 표기)에 대해 논의하기로 한다.
최근 계산 뇌과학 연구에서는 어떻게 인간의 뇌가 단일 유기체로서 이러한 문제들을 쉽게 풀어내는지를 밝혀내기 시작했다. 본 논문에서는 강화학습의 신경과학과 알고리즘을 병치하는 논의 방식을 통해, 강화학습에 대한 신경과학적 연구를 이용한 강화학습알고리즘 연구의 발전 가능성에 대해 논의한다. 첫째, 강화학습의 계산적 핵심 요소에 대한 최신 신경과학 연구 결과들을 소개함으로써 뇌 안에서 일어나는 강화학습 과정에 대해 논의한다.
지금까지 강화학습의 기본 개념과 알고리즘, 그리고 이러한 아이디어가 어떻게 신경과학 연구에 적용되어 왔는지를 살펴보았다. 앞 절에서 설명한 인간의 유연한 강화학습은 문제해결의 복잡성과 문제 해결의 속도 측면에서 다음과 같이 요약해 볼 수 있다.
본 논문에서는 강화학습의 신경과학과 알고리즘을 병치하는 논의 방식을 통해, 강화학습에 대한 신경과학적 연구를 이용한 강화학습알고리즘 연구의 발전 가능성에 대해 논의한다. 첫째, 강화학습의 계산적 핵심 요소에 대한 최신 신경과학 연구 결과들을 소개함으로써 뇌 안에서 일어나는 강화학습 과정에 대해 논의한다. 둘째, 뇌의 강화학습 관련 정보처리 과정을 기능적으로 분리하여 알고리즘에 구현되어 있지 않은 뇌의 고유한 강화학습 능력에 대해 살펴본다.

가설 설정

다음과 같은 가설을 제시하였다. 동물의 뇌에서는 습관적인 행동 전략을 만들어내는 model-free RL 뿐만 아니라, 목적 지향적인 행동 전략을 만들어내는 model-based RL 역시 구현되어 있을 것이며, 이 두 가지 형태의 강화학습을 제어하는 상위 레벨의 메커니즘 역시 뇌 안에 구현되어 있을 것이라는 가설이다.

제안 방법

첫째, 강화학습의 계산적 핵심 요소에 대한 최신 신경과학 연구 결과들을 소개함으로써 뇌 안에서 일어나는 강화학습 과정에 대해 논의한다. 둘째, 뇌의 강화학습 관련 정보처리 과정을 기능적으로 분리하여 알고리즘에 구현되어 있지 않은 뇌의 고유한 강화학습 능력에 대해 살펴본다. 더 나아가 이러한 강화학습의 신경과학과 알고리즘에 대한 논의를 종합하여, 프로세스의 복잡도와 학습 속도 간의 균형점을 찾아가는 뇌 기반 강화학습 이론에 대해 소개한다.

성능/효과

앞서 소개된 연구 결과들을 종합하면 (1) 우리의 뇌는 예측 에러 (prediction error)를 기반으로 강화학습전략을 선택하며, (2) 습관적 행동패턴 형성에 관여하는 model-free 강화학습 전략을 사용하는 동안에는 도파민 시스템이 우리의 의사결정에 많은 영향을 끼치고, 반대로 (3) 목적기반 행동패턴 형성에 관여하는 model-based 강화학습 전략을 사용하는 동안에는 우리의 의사결정이 도파민 시스템보다는 전두엽에 의존 적하고 있다고 요약할 수 있다.
이러한 경험이 반복됨에 따라 원숭이는 시간적으로 먼저 발생하는 사건인 큐를 이용해 이후 보상을 예측하게 된다. 연구자들은 학습과정에서 일어나는 도파민 뉴런의 신경 활성 패턴을 측정하였는데, 이 패턴이 TD enor 와 높은 정확도로 일치한다는 것을 발견하였다(그림 2).
관련된 신호들은 복외측 전전두피질 (ventrolateral prefrontal cortex)과 전두엽피질 부위 (frontopolar cortex)에서 처리되고 있다. 이러한 발견에 기초하여 이루어진 기저핵-전전두피질 뇌 네트워크 연구에서는, (1) model-free 강화학습 가치값 정보 처리의 핵심 부위인 기저핵과 (2) 가치값이 통합되는 복내측전전두피질 사이의 정보 전달이 model-based 강화학습전략을 사용하는 동안에 약해진다는 것이 밝혀졌다. 이러한 결과는 목적기반 행동과 습관적 행동 전략을 비교하는 연구의 결과와도 일치한다[20].
고속 추론 학습 속도의 경우 환경에 대한 빠른 모델링을 가능케 하므로 직접적 샘플링 과정 없이 결과 예측이 가능하나, 잘못된 결론을 도출할 확률이 높으며 이러한 오류가 학습 전체에 전파될 수 있다. 종합해 보면 인간은 이러한 학습과 추론 과정을 상위레벨에서 균형적으로 제어하는 능력을 가지고 있을 것이라는 가설을 세워 볼 수 있다.

후속연구

또 하나의 예는 메타 제어개념을 이용한 Brain-Computer Interface (BCI) 시스템이다. 앞 절에서 소개하였든 인간이 문제해결 과정에서 유연하게 다양한 전략을 사용하고, 각각의 전략에 관여하는 뇌 부위가 다른 경우가 많으므로, 이러한 예측을 바탕으로 매 시간 뇌에서 정보를 읽어내는 위치와 특징을 유동적으로 조절하는 BCI 방식을 이용한다면 성능 향상을 기대할 수 있을 것이다.
그러나 보다 중요한 이슈는 기계학습의 관점에서 보았을 때 준 최적(suboptimal) 인 인간의 강화학습 프로세스 자체를 모델링하는 것이다. 이러한 모델에 기반하여 동작하는 컴퓨터는 인간-컴퓨터/로봇 상호작용 환경에서 인간의 만족도를 더욱 높일 수 있을 것이다. 또 하나의 공학적 응용은 인간의 학습 과정을 최적의 상태로 유지하는 시스템 개발이다.

참고문헌 (23)

R. S. Sutton and A. G. Barto, Reinforcement Learning. MIT press, 1998.
V. Mnih et al., "Human-level control through deep reinforcement learning," Nature, vol. 518, no. 7540, pp. 529-533, Feb. 2015.

상세보기
D. Silver et al., "Mastering the game of Go with deep neural networks and tree search," Nature, vol. 529, no. 7587, pp. 484-489, Jan. 2016.

상세보기
D. Silver et al., "Mastering the game of Go without human knowledge," Nature, vol. 550, no. 7676, pp. 354-359, Oct. 2017.

상세보기
J. P. O'Doherty, S. W. Lee, and D. McNamee, "The structure of reinforcement-learning mechanisms in the human brain," Curr. Opin. Behav. Sci., vol. 1, pp. 94-100, Oct. 2014.
D. P. Bertsekas, Dynamic programming and optimal control. Athena Scientific, 2005.
M. L. Puterman, Markov decision processes : discrete stochastic dynamic programming. Wiley-Interscience, 2005.
R. S. Sutton, D. A. McAllester, S. P. Singh, and Y. Mansour, "Policy Gradient Methods for Reinforcement Learning with Function Approximation." pp. 1057-1063, 2000.
D. Silver, G. Lever, N. Heess, T. Degris, D. Wierstra, and M. Riedmiller, "Deterministic policy gradient algorithms," Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32. JMLR.org, p. I-387, 2014.
W. Schultz, P. Dayan, and P. R. Montague, "A neural substrate of prediction and reward," Science (80-. )., vol. 275, pp. 1593-1599, 1997.

상세보기
C. D. Fiorillo, P. N. Tobler, and W. Schultz, "Discrete coding of reward probability and uncertainty by dopamine neurons.," Science, vol. 299, no. 5614, pp. 1898-902, Mar. 2003.

상세보기
B. W. Balleine and J. P. O'Doherty, "Human and rodent homologies in action control: corticostriatal determinants of goal-directed and habitual action.," Neuropsychopharmacology, vol. 35, no. 1, pp. 48-69, Jan. 2010.

상세보기
N. D. Daw, Y. Niv, and P. Dayan, "Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control," Nat. Neurosci., vol. 8, pp. 1704-1711, 2005.

상세보기
P. D. Mate Lengyel, "Hippocampal Contributions to Control: The Third Way," in Advances in Neural Information Processing Systems (NIPS), 2008, pp. 889-896.
S. a Sheth et al., "Human dorsal anterior cingulate cortex neurons mediate ongoing behavioural adaptation.," Nature, pp. 3-7, Jun. 2012.
J. Glascher, N. Daw, P. Dayan, and J. P. O'Doherty, "States versus Rewards: Dissociable neural prediction error signals underlying model-based and model-free reinforcement learning," Neuron, vol. 66, no. 4, pp. 585-95, May 2010.

상세보기
N. D. Daw, S. J. Gershman, B. Seymour, P. Dayan, and R. J. Dolan, "Model-based influences on humans' choices and striatal prediction errors.," Neuron, vol. 69, no. 6, pp. 1204-15, Mar. 2011.

상세보기
S. W. Lee, S. Shimojo, and J. P. O'Doherty, "Neural Computations Underlying Arbitration between Model-Based and Model-free Learning," Neuron, vol. 81, no. 3, pp. 687-699, Feb. 2014.

상세보기
E. Tricomi, B. W. Balleine, and J. P. O'Doherty, "A specific role for posterior dorsolateral striatum in human habit learning," Eur. J. Neurosci., vol. 29, pp. 2225-2232, 2009.

상세보기
K. Wunderlich, P. Dayan, and R. J. Dolan, "Mapping value based planning and extensively trained choices in the human brain," Nat. Neurosci., vol. 15, pp. 786-791, 2012.

상세보기
E. D. Boorman, T. E. Behrens, M. W. Woolrich, and M. F. S. Rushworth, "How Green Is the Grass on the Other Side? Frontopolar Cortex and the Evidence in Favor of Alternative Courses of Action," Neuron, vol. 62, pp. 733-743, 2009.

상세보기
T. a Hare, C. F. Camerer, and A. Rangel, "Self-control in decision-making involves modulation of the vmPFC valuation system," Science (80-. )., vol. 324, pp. 646-648, 2009.

상세보기
M. F. S. Rushworth, M. P. Noonan, E. D. Boorman, M. E. Walton, and T. E. Behrens, "Frontal Cortex and Reward-Guided Learning and Decision-Making," Neuron, vol. 70, pp. 1054-1069, 2011.

상세보기

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증