[논문]Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms

Choi, Seung-Yoon; Le, Tuyen Pham; Chung, Tae-Choong

doi:10.9708/jksci.2018.23.10.023

Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.23 no.10, 2018년, pp.23 - 31

Choi, Seung-Yoon (Dept. of Computer Engineering, Kyung Hee University) , Le, Tuyen Pham (Dept. of Computer Engineering, Kyung Hee University) , Chung, Tae-Choong (Dept. of Computer Engineering, Kyung Hee University)

Abstract ▼ AI-Helper

Recently, there have been many studies on machine learning. Among them, studies on reinforcement learning are actively worked. In this study, we propose a controller to control bicycle using DDPG (Deep Deterministic Policy Gradient) algorithm which is the latest deep reinforcement learning method. In this paper, we redefine the compensation function of bicycle dynamics and neural network to learn agents. When using the proposed method for data learning and control, it is possible to perform the function of not allowing the bicycle to fall over and reach the further given destination unlike the existing method. For the performance evaluation, we have experimented that the proposed algorithm works in various environments such as fixed speed, random, target point, and not determined. Finally, as a result, it is confirmed that the proposed algorithm shows better performance than the conventional neural network algorithms NAF and PPO.

주제어

표/그림 (19)

그림 Fig. 1. The bicycle as seen from behind. The thick line represents the bicycle[14]
그림 Fig. 2. Seen from above. The thick line represents the front tyre [14]
그림 Fig. 3. Axis for moments of Inertia for a tyre [14]
그림 Fig. 4. Force transmission
그림 Fig. 5. DDPG Algorithm
표 Table 1. Parameters of bicycle dynamics
그림 Fig. 6. Contribution of components on reward function
표 Table 2. Parameters of actor network
표 Table 3. Parameters of critic network
표 Table 4. Parameters of algorithm
그림 Fig. 7. Compare performance of DDPG with other algorithms on bicycle domain
그림 Fig. 8. Performance on difference value of displacement
그림 Fig. 9. d = 0.0 cm
그림 Fig. 10. d is in range –2 and 2cm
그림 Fig. 11. d is in range –20cm and 20cm
그림 Fig. 12. Performance comparison
그림 Fig. 13. Trajectories of bicycle without learning pedal’s force
그림 Fig. 14. Trajectories of bicycle learning pedal’s force
그림 Fig. 15. The velocity of bicycle during an episode

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

변위값이 작으면 높은 속도의 자전거를 다루기 어렵다. 따라서 본 논문에서는 자전거가 어떤 지점에서 시작하던지 모든 장소에 도착할 수 있도록 할 수 있는 제어기를 학습 과정을 개선하는데 초점을 맞춘다.
본 논문에서는 DDPG 알고리즘을 이용하여 자전거를 제어하는 방법을 제시하였고 성공적으로 제어할 수 있음을 보였다. 심층 신경 네트워크를 채용한 컨트롤러는 자전거 핸들 바를 회전시키고, 무게 중심의 변위를 이동시키고 자전거가 쓰러지지 않고 회전 할 수 있도록 속도를 조정할 수 있다.
그러나 해당 연구에서 그 컨트롤러는 자전거를 임의로 주어진 위치로 인도 하는데는 실패하였다. 본 연구에서는 자전거를 어느 곳으로나 인도 할 수 있는 개선된 제어기를 제안한다. 제어기는 핸들 바에 가해진 토크와 질량 중심과 자전거 계획 사이의 변위를 입력으로 받는다.

제안 방법

샘플 데이터인< s_t, a_t,r_t,s_t+1>은 나중을 위해서 경험 리플레이 메모리에 저장된다. 경험 리플레이 메모리로부터 N개의 샘플의 배치를 무작위로 선택한 후, 그것을 네트워크들의 학습에 사용한다. 이후 손실함수를 최소화하는 방향으로 크리틱 네트워크를 학습한다.
수정된 역학은 동적인 자전거 속도를 다룰 수 있을 것으로 예상된다. 두 번째, 자전거가 균형을 잡도록 조정하는 일 뿐만이 아니라 목적지로 갈 수 도록 보상 기능을 목표로 한 학습 과정을 제안한다. 학습 과정은 DDPG를 기반 알고리즘으로 사용한다.
두 번째 특징은, 환경과 상호작용하는 동안의 모든 샘플 데이터를 저장하는 리플레이 메모리를 유지하는 것이다. 매 스텝마다 재생 메모리에서 데이터 묶음을 무작위로샘플링하여 네트워크를 학습한다. 재생 메모리를 사용하여 일련의 데이터 샘플들 사이의 상관관계를 제거할 수 있다.
변위 d가 자전거에 미치는 영향을 보이기 위하여 두 번째 평가에서는 자전거의 성능이 무작위로 50,50 m 위치에서 시작하여 60, 65 m에서 목표 위치에 도달하려고 하는 것으로 비교한다. 속도는 시속 10km로 고정된다.
2의 내용과 같다. 본 논문에서는 참고문헌 [10]에 있는 동일한 아키텍처의 액터 네트워크와 크리틱 네트워크를 적용한다. 액터 네트워크의 입력은 상태이고 출력은 동작이다.
′)이며, Q,μ,Q′와 μ′은 크리틱 네트워크, 액터 네트워크 및 타겟 크리틱 네트워크, 타겟 액터 네트워크를 나타낸다. 이후 결정론적 정책 경사(Deterministic Policy Gradient) 정리[11]를 사용하여 액터네트워크를 학습시킨다. 표현식은 다음과 같다.
경험 리플레이 메모리로부터 N개의 샘플의 배치를 무작위로 선택한 후, 그것을 네트워크들의 학습에 사용한다. 이후 손실함수를 최소화하는 방향으로 크리틱 네트워크를 학습한다. 손실함수는 다음과 같이 정의한다.
마지막으로 DDPG 알고리즘은 딥-큐러닝(Deep Q-Learning)의두 가지 특성을 사용한다[12]. 첫 번째 특성은, 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지하는 것이다. 사본은 학습 단계에서 안정성을 향상시킨다.
첫 번째 평가에서는 DDPG 알고리즘으로 학습한 자전거의 성능과 다른 알고리즘으로 학습한 자전거의 성능을 비교한다. 그 중에서도 DDPG와 NAF(Normalized Advantage Function) 알고리즘[16] 및 PPO(Proximal Policy Optimization) 알고리즘[17,18]를 비교한다.
자전거는 작은 변위(-2cm에서 2cm까지)만 사용하고 목표의 반대방향에서 임의로 시작된다. 평가를 위하여 속도를 학습하는 컨트롤러와 속도를 학습하지 않는 컨트롤러 간의 성능을 비교한다. 성능은 500 타임 스텝의 10000 에피소드를 통하여 비교한다.

대상 데이터

4와 같은데, 행동 공간을 탐색하기 위하여 Ornstein-Uhlenbeck 프로세스[13]를 사용한다. 리플레이 메모리는 500,000 개의 데이터 샘플이 포함되고 각 트레이닝 단계에서 무작위로 64개 샘플의 배치를 가져와서 컨트롤러를 학습하는데 사용한다.
속도는 시속 10km로 고정된다. 실험에서는 400 타임스텝의 5000 에피소드를 학습한다. Fig.
자전거의 속도는 시속 10km로 고정되고 변위는 -20cm에서 20cm 사이 이다. 실험에서는 5000에피소드의 성능을 살펴본다. 각 에피소드에는 400개의 타임스텝이 있다.
크리틱 네트워크의 입력은 행동과 상태의 조합이며 출력은 큐-값(Q-Value)이다. 액터 네트워크의 숨겨진 두개의 레이어는 각각 300개 400개의 유닛을 가지며 크리틱 네트워크의 숨겨진 두개의 레이어는 모두 200개의 유닛을 갖는다. 네트워크 매개변수는 무작위로 초기화되며 ADAM 알고리즘을 사용하여 최적화된다.

이론/모형

알고리즘의 매개변수는 Table. 4와 같은데, 행동 공간을 탐색하기 위하여 Ornstein-Uhlenbeck 프로세스[13]를 사용한다. 리플레이 메모리는 500,000 개의 데이터 샘플이 포함되고 각 트레이닝 단계에서 무작위로 64개 샘플의 배치를 가져와서 컨트롤러를 학습하는데 사용한다.
그러나 얕은 신경망 제어기는 자전거와 같은 고도의 비선형 환경을 표현하는데 한계가 있다. Tuyen [7]은 심층 신경망을 사용했는데 그의 구현에서 컨트롤러는DDPG(Deep Deterministic Policy Gradient) 알고리즘[9]을 사용하여 학습한다. 그리고 자전거는 완전하게 자기 균형을 이룰 수 있었다.
∇_θ^μ μ(s | θ^μ)는 파라미터 θ^μ에 대한 액터의 기울기이다. 마지막으로 DDPG 알고리즘은 딥-큐러닝(Deep Q-Learning)의두 가지 특성을 사용한다[12]. 첫 번째 특성은, 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지하는 것이다.
따라서 DDPG는 자전거를 제어하는 것과 같은 고도의 비선형적인 작업을 표현하기에 충분히 유용하다. 셋째, 이 알고리즘은 액터 네트워크(Actor Network)를학습하기 위하여 다음 식과 같이 결정론적 정책 경사(Deterministic Policy Gradient)[11] 를 사용한다.
04 LTS)를 사용하였고 AMD FX 8300 옥타코어 프로세서와 32GB DDR3 메모리를 사용하였다. 통합 개발환경으로는 파이참(PyCharm)을 사용하였고 언어는 파이썬을 사용하였다. 실험을 위한 데이터로 사용되는 액터 네트워크와 크리틱 네트워크의 구조는 각각 Table.
두 번째, 자전거가 균형을 잡도록 조정하는 일 뿐만이 아니라 목적지로 갈 수 도록 보상 기능을 목표로 한 학습 과정을 제안한다. 학습 과정은 DDPG를 기반 알고리즘으로 사용한다.

성능/효과

심층 신경 네트워크를 채용한 컨트롤러는 자전거 핸들 바를 회전시키고, 무게 중심의 변위를 이동시키고 자전거가 쓰러지지 않고 회전 할 수 있도록 속도를 조정할 수 있다. 본 논문에서 제안한 심층 신경 네트워크 컨트롤러를 사용하는 에이전트는 어느 곳에서나 지정된 위치에 도달하고 완만하고 부드러운 궤적을 생성할 수 있었다. 실제로 사람이 자전거를 제어하는 상황과 같이 무게중심이 이동하는 경우를 고려하고 페달을 제어하는 상황을 반영하여 실험을 진행하였고 실험결과 에이전트가 무게중심을 제어하면서 이동하는 것이 가능함을 보였다.
본 논문에서 제안한 심층 신경 네트워크 컨트롤러를 사용하는 에이전트는 어느 곳에서나 지정된 위치에 도달하고 완만하고 부드러운 궤적을 생성할 수 있었다. 실제로 사람이 자전거를 제어하는 상황과 같이 무게중심이 이동하는 경우를 고려하고 페달을 제어하는 상황을 반영하여 실험을 진행하였고 실험결과 에이전트가 무게중심을 제어하면서 이동하는 것이 가능함을 보였다. 차후에 후속 연구를 통하여 도로에서 달리는 자전거와 같은 궤적을 따라갈 수 있는 컨트롤러를 학습시키는 방법에 대하여 고려할 것이다.

후속연구

반대로 너무 크면 노이즈를 주체하지 못하여 좋지 못한 결과를 낳을 수 있다. DDPG 알고리즘은 반드시 전체 알고리즘의 성능을 향상시켜 준다고 볼 수는 없으므로 PPO를 개선하여 함께 사용한다면 좀 더 안정된 학습이 가능한 컨트롤러를 만들 수 있을 것이다. 이 문제에 대해서는 추후 연구를 진행할 예정이다.
구체적으로, 자전거의 물리적 향상에 초점을 맞추는 연구들[2,3]과 제어 이론과 자전거 역학에 관한 지식에 기반하여 자전거 컨트롤러를 만들려는 연구들[1,4]이 있다. 그러나, 제안된 컨트롤러는 실험 환경에서만 제대로 작동하고 환경의 장애 요소로 인해 현실 세계에 대하여 적용 하는 데는 실패했다. 주변과 상호작용하는 기능이 가능한 강화 학습 기반 컨트롤러는 다양한 환경에 대하여 적응할 수 있을 것으로 기대할 수 있다[19-21].
DDPG 알고리즘은 반드시 전체 알고리즘의 성능을 향상시켜 준다고 볼 수는 없으므로 PPO를 개선하여 함께 사용한다면 좀 더 안정된 학습이 가능한 컨트롤러를 만들 수 있을 것이다. 이 문제에 대해서는 추후 연구를 진행할 예정이다.
실제로 사람이 자전거를 제어하는 상황과 같이 무게중심이 이동하는 경우를 고려하고 페달을 제어하는 상황을 반영하여 실험을 진행하였고 실험결과 에이전트가 무게중심을 제어하면서 이동하는 것이 가능함을 보였다. 차후에 후속 연구를 통하여 도로에서 달리는 자전거와 같은 궤적을 따라갈 수 있는 컨트롤러를 학습시키는 방법에 대하여 고려할 것이다. DDPG 알고리즘을 사용하면 올바른 범위에 속하는 스텝 크기를 선택해야하는데 만약 크기가 너무 작으면 트레이닝의 진행이 매우 느릴 것이다.

참고문헌 (21)

L. Keo and M. Yamakita, "Controlling balancer and steering for bicycle stabilization," 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 4541-4546, Oct. 2009.
J. P. Meijaard, J. M. Papadopoulos, A. Ruina, and A. L. Schwab, "Linearized dynamics equations for the balance and steer of a bicycle: a benchmark and review," In Proceedings of the Royal Society of London A: Mathematical, Physical and Engineering Sciences, Vol. 463, No. 2084, pp. 1955-1982. The Royal Society, Aug. 2007.

상세보기
A. Schwab, J. Meijaard, and J. Kooijman, "Some recent developments in bicycle dynamics," In Proceedings of the 12th World Congress in Mechanism and Machine Science, pp. 1-6, 2007.
J. Tan, Y. Gu, C. K. Liu, and G. Turk, “Learning bicycle stunts,” ACM Transactions on Graphics (TOG), Vol. 33, No. 4, pp. 1-16, 2014.
Google Nederland, "Introducing the self-driving bicycle in the netherlands," March, 2017.
J. Randlv and P. Alstrm, "Learning to drive a bicycle using reinforcement learning and shaping," Proceeding ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning, pp. 463-471, 1998.
L. P. Tuyen and T. Chung, "Controlling bicycle using deep deterministic policy gradient algorithm," In Ubiquitous Robots and Ambient Intelligence (URAI), 2017 14th International Conference on, pp. 413-417. IEEE, 2017.
J. Peters and S. Schaal, “Reinforcement learning of motor skills with policy gradients,” Neural networks, Vol. 21, No. 4, pp. 682-697, May 2008.

상세보기
T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, "Continuous control with deep reinforcement learning," arXiv preprint arXiv:1509.02971, 2015.
R. S. Sutton and A. G. Barto, "Reinforcement learning: An introduction," Vol. 1, MIT press Cambridge, 1998.
D. Silver, G. Lever, N. Heess, T. Degris, D. Wierstra, and M. Riedmiller, "Deterministic policy gradient algorithms," In ICML, June 2014.
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al, "Human-level control through deep reinforcement learning," Nature, Vol. 518, pp. 529-533, Feb. 2015.

상세보기
C.-L. Hwang, H.-M.Wu, and C.-L. Shih, “Fuzzy sliding-mode underactuated control for autonomous dynamic balance of an electrical bicycle,” IEEE transactions on control systems technology, Vol. 17, No. 3, pp. 658-670, May 2009.

상세보기
G. E. Uhlenbeck and L. S. Ornstein, “On the theory of the brownian motion,” Physical review, Vol. 36, No. 5, pp. 823-841, Sep. 1930.

상세보기
D. P. Kingma and J. Ba. Adam, "A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.
S. Gu, T. Lillicrap, I. Sutskever, and S. Levine, "Continuous deep q-learning with model-based acceleration," In International Conference on Machine Learning, pp. 2829-2838, June 2016.
J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, "Proximal policy optimization algorithms," arXiv preprint arXiv:1707.06347, 2017.
J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, "Trust region policy optimization," In International Conference on Machine Learning, pp. 1889-1897, 2015.
M. Lu and X. Li, "Deep reinforcement learning policy in Hex game system," 2018 Chinese Control And Decision Conference (CCDC), pp. 6623-6626, 2018.
E. Bejar and A. Moran, "Deep reinforcement learning based neuro-control for a two-dimensional magnetic positioning system," 2018 4th International Conference on Control, Automation and Robotics (ICCAR), pp. 268-273, 2018.
T. Yasuda and K. Ohkura, "Collective Behavior Acquisition of Real Robotic Swarms Using Deep Reinforcement Learning," 2018 Second IEEE International Conference on Robotic Computing (IRC), pp. 179-180, 2018.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증