[논문]메타강화학습을 이용한 수중로봇 매니퓰레이터 제어

문지윤; 문장혁; 배성훈

doi:10.13067/jkiecs.2021.16.1.95

메타강화학습을 이용한 수중로봇 매니퓰레이터 제어
Control for Manipulator of an Underwater Robot Using Meta Reinforcement Learning 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.16 no.1, 2021년, pp.95 - 100

문지윤 (조선대학교 전자공학부) , 문장혁 (한양대학교 경영학부) , 배성훈 (레드원테크놀러지)

초록
AI-Helper

본 논문에서는 수중 건설 로봇을 제어하기 위한 모델 기반 메타 강화 학습 방법을 제안한다. 모델 기반 메타 강화 학습은 실제 응용 프로그램의 최근 경험을 사용하여 모델을 빠르게 업데이트한다. 다음으로, 대상 위치에 도달하기 위해 매니퓰레이터의 제어 입력을 계산하는 모델 예측 제어로 모델을 전송한다. MuJoCo 및 Gazebo를 사용하여 모델 기반 메타 강화 학습을 위한 시뮬레이션 환경을 구축하였으며 수중 건설 로봇의 실제 제어 환경에서의 모델 불확실성을 포함하여 제안한 방법을 검증하였다.

Abstract ▼ AI-Helper

This paper introduces model-based meta reinforcement learning as a control for the manipulator of an underwater construction robot. Model-based meta reinforcement learning updates the model fast using recent experience in a real application and transfers the model to model predictive control which computes control inputs of the manipulator to reach the target position. The simulation environment for model-based meta reinforcement learning is established using MuJoCo and Gazebo. The real environment of manipulator control for underwater construction robot is set to deal with model uncertainties.

주제어

표/그림 (3)

그림 그림 1. ROV를 고정하지 않은 경우 Reward Fig. 1 ROV Reward (not fixed)
그림 그림 2. Continuos action으로 변경한 경우 reward Fig. 2 Reward (Continuos action)
그림 그림 3. Continuos action으로 변경한 Loss Fig. 3 Loss (Continuos action)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

에이전트 제어 시뮬레이션은 두 가지 방법으로 구현이 가능하며 첫 번째는 Python을 이용하여 MuJoCo에직접 제어 명령을 내리도록 구현하는 것이고, 두 번째는 Python에서 내리는 명령을 TCP/IP를 이용하여 ROS를 제어하도록 구현하는 것이다. 본 논문에서는 실제 환경의 매니퓰레이터를 모델기반 메타강화학습으로 제어하기 위해 실제 환경의 매니퓰레이터와 연동이 가능한 ROS Gazebo와 Python으로 구현한 모델기반 메타강화학습을 소캣통신을 이용하여 구현한다.

제안 방법

않는 현상이 발생하였다. Action Space가 너무 큰 값이여서 수렴하지 않는다고 판단하여 Action Space를 (-1 ~ 1)의 값에서 (-0.02 ~ 0.02)로 변경하여 실험을 진행하였고, Reset 함수를 추가하여 매 에피소드마다 환경이 reset되도록 구현하였다.
ROS Gazebo 시뮬레이션 또한 3.1절에서 소개한 강화학습의 한계인 수 많은 step을 진행하는데 필요한 시간과 비용을 최소화 하기 위해 사용되며 모델기반 메타강화학습의 성능과 안정성을 확인 후 실제 환경에 적용하도록 한다.
ROS에서 학습이 완료 된 후 실제 환경에서 매니퓰레이터를 사용하기 위해 학습이 완료된 모델을 불러와서 실제 환경의 매니퓰레이터에 모델기반 메타강화학습을 적용하여 학습하도록 한다. [10].
따라서 실제 환경과 ROS를 연동하여 매니퓰레이터를 제어하기 위해서 실제 엔코더값과 ROS의 관절 값을 변환하도록 변환 함수를 구현했다. 이를 이용하여 OpenAI에서 제공하는 Python API인 mujoco-py와 MuJoCo로 구현한 환경에 적용한 모델기반 메타강화학습을 소켓통신을 이용하여 ROS와 행동과 상태를 송수신하여 에이전트인 실제 환경의 로봇에 적용할 수 있도록 한다.
환경을 구축하였다. 메타강화학습을 이용하여 모델을 도출함으로써 실제 환경에 적용 시 여러 가지 상황에 빠르게 모델을 갱신할 수 있도록 하였으며, 모델예측제어 기법을 적용하여 모델링의 불확실성을 극복할 수 있도록 하였다. 이를 MuJoCo와 ROS의 응용 프로그램 중에서 Gazebo를 이용하여 3 차원 시뮬레이션을 구현하고, 실제 환경에서 수중건설 로봇 매니퓰레이터의 동역학 모션을 Gazebo에서 유사하게 모사하는지 확인하였으며 모델기반 메타강화학습 기법을 ROS Gazebo와 소캣통신을 통해 적용하여 적은 샘플 데이터로 학습이 가능한지, 새로운 환경에 빠르게 적응하는지 확인하였다.
관리 기능을 제공한다. 본 논문에서는 ROS의 응용 프로그램 중에서 Gazebo를 이용하여 3차원 시뮬레이션을 구현하였다. Gazebo는 ROS의 3차원 시뮬레이션을 위한 로봇, 센서, 환경 모델 등을 지원하고 물리 엔진을 탑재하여 실제와 근사한 결과를 얻을 수 있는 3차원 시뮬레이터이다.
있다. 본 논문에서는 매니퓰레이터와 소캣통신을 통해 학습을 하기 때문에 실시간성 유지를 위해 분산 시스템을 적용한다. 분산 시스템에 사용된 컴퓨터는 표1과 같다.
본 논문에서는 시간과 비용, 그리고 시스템의 파손을 우려하여 실제 매니퓰레이터와 연동되는 ROS Gazebo 7-DOF 매니퓰레이터 시뮬레이션에 모델기반메타강화학습을 적용하였으며, 부족한 컴퓨터 파워로 인한 실시간성 문제를 해결하기 위해 시뮬레이션 컴퓨터, 모델기반 강화학습 컴퓨터 총 2대의 컴퓨터를 사용하여 분산 시스템을 구성하였다.
수중건설로봇의 매니퓰레이터를 제어하기 위하여 모델기반 메타강화학습 기법을 선정하고 이를 적용하기 위한 ROS Gazebo 시뮬레이션 환경과 실제 ROV 매니퓰레이터 환경을 구축하였다. 메타강화학습을 이용하여 모델을 도출함으로써 실제 환경에 적용 시 여러 가지 상황에 빠르게 모델을 갱신할 수 있도록 하였으며, 모델예측제어 기법을 적용하여 모델링의 불확실성을 극복할 수 있도록 하였다.
본 논문에서 사용되는 파라미터는 step, epoch, iteration, candidate, meta_batch_size, adapt_batch_size가 있으며, 학습에 사용되는 reward는 #, #로 정의하였으며 End Effector와 Target의 거리, # 매니퓰레이터를 제어하는 제어 신호의 크기로 이루어져 있다. 시뮬레이션의 실험을 위해 Agent(ROS Gazebo)와 Env(Step environment)에서 소캣통신을 이용하여 Action과 Observation을 송수신한다.
결과를 확인했다. 원인 분석 결과 Action이 Discrete하여 Policy gradient인 해당 알고리즘에서 적합하지 않다고 판단하여 Continuous한 Action으로 변환하여 실험을 진행하였다. 12시간 학습 결과 End Effector가 Target에 도달하는 모습과 그림 2과 같은 리워드 분포를 관찰할 수 있었으며, 그림 3와 같이 Loss가 수렴함을 관찰할 수 있었다.
이로 인해 실제 시스템에서는 데이터를 얻기 위해 필요한 시간과 비용이 매우 크고, 실제 시스템을 파손시킬 수 있다. 이러한 이유로 바로 실제 환경에서 학습을 진행하기에는 강화학습의 한계가 있기 때문에 본 논문에서는 실제 매니퓰레이터에 모델기반 메타강화학습을 적용하기 전에 MuJoCo 환경에서 구현한 7-DOF 매니퓰레이터에 모델기반 메타강화학습을 적용하여 성능과 안정성을 검증한다.
메타강화학습을 이용하여 모델을 도출함으로써 실제 환경에 적용 시 여러 가지 상황에 빠르게 모델을 갱신할 수 있도록 하였으며, 모델예측제어 기법을 적용하여 모델링의 불확실성을 극복할 수 있도록 하였다. 이를 MuJoCo와 ROS의 응용 프로그램 중에서 Gazebo를 이용하여 3 차원 시뮬레이션을 구현하고, 실제 환경에서 수중건설 로봇 매니퓰레이터의 동역학 모션을 Gazebo에서 유사하게 모사하는지 확인하였으며 모델기반 메타강화학습 기법을 ROS Gazebo와 소캣통신을 통해 적용하여 적은 샘플 데이터로 학습이 가능한지, 새로운 환경에 빠르게 적응하는지 확인하였다.
따라서 실제 환경과 ROS를 연동하여 매니퓰레이터를 제어하기 위해서 실제 엔코더값과 ROS의 관절 값을 변환하도록 변환 함수를 구현했다. 이를 이용하여 OpenAI에서 제공하는 Python API인 mujoco-py와 MuJoCo로 구현한 환경에 적용한 모델기반 메타강화학습을 소켓통신을 이용하여 ROS와 행동과 상태를 송수신하여 에이전트인 실제 환경의 로봇에 적용할 수 있도록 한다.

대상 데이터

시뮬레이션의 환경은 수중에서 ROV에 장착되어있는 7-DOF 매니퓰레이터의 End Effector가 Target 인 Ball에 근접하도록 학습하는 환경이며, ROV와 Targete 수중에 고정되어 있다. 그리고 원활한 학습을 위해 Target의 Collider를 사용하지 않아서 End Effector는 Target을 통과 할 수 있다.

이론/모형

MuJoCo 환경에서 강화학습을 적용하기 위하여 OpenAI에서 제공하는 Python API인 mujoco-py를사용한다. mujoco-py의 함수는 XML으로 저장된 매니퓰레이터 3D Model을 불러오기와 position과 velocity로 행동(Action)을 제어, 에이전트(Agent) 의상태(State)를 수집, 시뮬레이션 reset, 시뮬레이션을 진행하는 step 등이 구현되어 있다.
분산 시스템에 사용된 컴퓨터는 표1과 같다. 시뮬레이션은 ROS Gazebo 시뮬레이션을 사용하였으며 실제 환경의 매니퓰레이터와 연동이 가능하다.

성능/효과

원인 분석 결과 Action이 Discrete하여 Policy gradient인 해당 알고리즘에서 적합하지 않다고 판단하여 Continuous한 Action으로 변환하여 실험을 진행하였다. 12시간 학습 결과 End Effector가 Target에 도달하는 모습과 그림 2과 같은 리워드 분포를 관찰할 수 있었으며, 그림 3와 같이 Loss가 수렴함을 관찰할 수 있었다.
60시간 학습 결과 Reward는 증가했지만 End Effector가 Target에 도달하지 못하고 Loss도 분산하는 결과를 확인했다. 원인 분석 결과 Action이 Discrete하여 Policy gradient인 해당 알고리즘에서 적합하지 않다고 판단하여 Continuous한 Action으로 변환하여 실험을 진행하였다.
Action Space를 (-0.02 ~ 0.02)로 적용 후 학습을 12시간 진행한 결과 Target에 End Effector가 도달하는 모습을 관찰하고 리워드 분포를 보였지만 Loss가 수렴하지 않아서 학습이 제대로 진행되지 않았다고 판단했다. Action Space를 (-0.

참고문헌 (10)

A. Nagabandi, I. Clavera, S. Liu, R. Fearing, P. Abbeel, S. Levine, and C. Finn, "Learning to Adapt in Dynamic, Real-World Environments Through Meta-Reinforcement Learning," arXiv preprint arXiv:1803.11347, 2018.
M. Hausknecht and P. Stone, "Deep Recurrent Q-Learning for Partially Observable MDPs," arXiv preprint arXiv:1507.06527, 2017.
C. Finn and S. Levine, "Meta-Learning and Universality: Deep Representations and Gradient Descent can Approximate any Learning Algorithm," arXiv preprint arXiv:1710. 11622, 2017.
S. Ravi and H. Larochelle, "Optimization as a model for few-shot learning," Int. Conf. on Learning Representations, 2018.
C. Finn, P. Abbeel, and S. Levine, "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks," Int. Conf. on Machine Learning, 2017.
T. Hospedales, A. Antoniou, P. Micaelli, and A. Storkey, "Meta-Learning in Neural Networks: A Survey," arXiv preprint arXiv:2004.05439, 2020.
G. Williams, N. Wagener, B. Goldfain, P. Drews, J. Rehg, B. Boots, and E. Theodorou, "Information theoretic mpc for model-based reinforcement learning," IEEE Int. Conf. on Robotics and Automation, 2017.
S. Sastry and A. Isidori, "Adaptive control of linearizable systems," IEEE Trans. on Automatic Control, 1989.
G. Williams, A. Aldrich, and E. Theodorou, "Model Predictive Path Integral Control using Covariance Variable Importance Sampling," arXiv preprint arXiv:1509.01149, 2015.
M. Al-Shedivat, T. Bansal, Y. Burda, I. Sutskever, I. Mordatch, and P. Abbeel, "Continuous adaptation via meta-learning in nonstationary and competitive environments," arXiv preprint arXiv:1710.03641, 2017.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증