최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기로봇학회논문지 = The journal of Korea Robotics Society, v.14 no.1, 2019년, pp.40 - 49
김성운 (UNIST) , 김솔아 (UNIST) , 하파엘 리마 (UNIST) , 최재식 (Computer Engineering, UNIST)
Reinforcement learning has been applied to various problems in robotics. However, it was still hard to train complex robotic manipulation tasks since there is a few models which can be applicable to general tasks. Such general models require a lot of training episodes. In these reasons, deep neural ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
강화학습이란 무엇인가? | 강화학습은 주어진 환경안에서 정의된 에이전트가 현재의 상태를 인식하고, 해당 상태에서 보상을 최대화하는 행동을 선택하는 방법이다. 보상을 얻기 위해서는 시행착오를 거치는 과정(exploration - exploitation)이 필요하고, 이 트레이드오프를감수하며 얼마나 적은 샘플과 얼마나 빠른 시간안에 좋은 정책을 학습할 수 있느냐가 관건이다. | |
로봇이라는 에이전트의 상태와 행동이 본질적으로 연속공간에 있기 때문에 어떤 학습을 해야 하나? | 지능형 로봇 에이전트에 대한 강화학습의 적용은 특히 많은 어려움과 제약에 직면하게 된다[5]. 로봇이라는 에이전트의 상태와 행동은 본질적으로 연속공간에 있어, 각각이 나타내는 정보와 찾고자 하는 정책을 이산화 하거나 함수 추정을 통해 학습을 해야 한다. | |
최근 강화학습을 이용한 연구는 어떠한가? | 보상을 얻기 위해서는 시행착오를 거치는 과정(exploration - exploitation)이 필요하고, 이 트레이드오프를감수하며 얼마나 적은 샘플과 얼마나 빠른 시간안에 좋은 정책을 학습할 수 있느냐가 관건이다. 최근 게임 분야에서 인간의 능력을 뛰어넘는 성과를 보여주었으며[1,2], 컬링과 같은 연속적 공간을 탐색하고 학습해야 하는 게임의 경우에서도 마찬가지였다[3]. 그 외 여러 방면(게임, 금융, 자율주행차, 지능형 로봇 등)에서 적용기술에 대한 연구가 활발히 진행되고 있다[4,5]. |
10.1038/nature16961 D. Silver, A. Huang, C.J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis, “Mastering the game of go with deep neural networks and tree search,” Nature , vol. 529, no. 7587, pp. 484-489, January, 2016.
10.1038/nature24270 D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. Van Den Driessche, T. Graepel, and D. Hassabis, “Mastering the game of go without human knowledge,” Nature , vol. 550, no. 7676, pp. 354-359, October, 2017.
K. Lee, S.-A. Kim, J. Choi, S.-W. Lee, “Deep reinforcement learning in continuous action spaces: a case study in the game of simulated curling,” 35 th International Conference on Machine Learning (ICML) , Stockholm, Sweden, pp. 2937-2946, 2018.
10.1109/MSP.2017.2743240 K. Arulkumaran, M.P. Deisenroth, M. Brundage, and A.A. Bharath, “Deep reinforcement learning: A brief survey,” IEEE Signal Processing Magazine , vol. 34, no. 6, pp. 26-38, November, 2017.
10.1038/nature14236 V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, G.Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, “Human-level control through deep reinforcement learning,” Nature , vol. 518, no. 7540, pp. 529-533, February, 2015.
T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv:1509.02971 [cs.LG] , 2015.
S. Levine and V. Koltun, “Guided policy search,” 30 th International Conference on Machine Learning (ICML) , Atlanta, Georgia, USA, pp. 1-9, 2013.
C. Finn, Guided policy search , [Online], https://github.com/cbfinn/gps, Accessed: January 14, 2019.
P. Henderson, R. Islam, P. Bachman, J. Pineau, D. Precup, and D. Meger, “Deep reinforcement learning that matters,” arXiv:1709.06560 [cs.LG] , 2017.
Y. Chebotar, K. Hausman, M. Zhang, G. Sukhatme, S. Schaal, and S. Levine, “Combining model-based and model-freeupdates for trajectory-centric reinforcement learning,” 34 th International Conference on Machine Learning (ICML) , Sydney, Australia, pp. 703-711, 2017.
S. Levine, C. Finn, T. Darrell, and P. Abbeel, “End-to-end training of deep visuomotor policies,” Journal of Machine Learning Research (JMLR) , vol. 17, no. 39, pp. 1-40, January, 2016.
H. Wang and A. Banerjee, “Bregman alternating direction method of multipliers,” Advances in Neural Information Processing Systems (NIPS) , Montreal, Canada, pp. 2816-2824, 2014.
W. Montgomery and S. Levine, “Guided policy search via approximate mirror descent,” Advances in Neural Information Processing Systems (NIPS) , Barcelona, Spain, pp. 4008-4016, 2016.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.