[논문]군집 로봇의 협조 행동을 위한 로봇 개체의 행동학습과 진화

심귀보; 이동욱

doi:10.5391/jkiis.2006.16.2.131

군집 로봇의 협조 행동을 위한 로봇 개체의 행동학습과 진화
Behavior Learning and Evolution of Individual Robot for Cooperative Behavior of Swarm Robot System 원문보기

퍼지 및 지능시스템학회 논문지 = Journal of fuzzy logic and intelligent systems, v.16 no.2, 2006년, pp.131 - 137

심귀보 (중앙대학교 전자전기공학부) , 이동욱 (한국생산기술연구원 로봇기술본부)

초록
AI-Helper

군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 이를 위하여 본 논문에서는 지연된 보상능력이 있는 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화방법을 제안한다. 지연 보상능력이 있는 강화학습은 로봇이 취한 행동에 대하여 즉각적인 보상을 가할 수 없는 경우에도 학습이 가능한 방법이다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 강화학습의 특성을 이용한 선택 교배방법을 채택하였다. 제안된 방법은 협조탐색 문제에 적용하여 컴퓨터 시뮬레이션을 통하여 그 유효성을 검증한다.

Abstract ▼ AI-Helper

In swarm robot systems, each robot must behaves by itself according to the its states and environments, and if necessary, must cooperates with other robots in order to carry out a given task. Therefore it is essential that each robot has both learning and evolution ability to adapt the dynamic environments. In this paper, the new learning and evolution method based on reinforcement learning having delayed reward ability and distributed genetic algorithms is proposed for behavior learning and evolution of collective autonomous mobile robots. Reinforcement learning having delayed reward is still useful even though when there is no immediate reward. And by distributed genetic algorithm exchanging the chromosome acquired under different environments by communication each robot can improve its behavior ability. Specially, in order to improve the performance of evolution, selective crossover using the characteristic of reinforcement learning is adopted in this paper. we verify the effectiveness of the proposed method by applying it to cooperative search problem.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 실제적으로 적용할 수 있는 로봇 모델의 제시와 함께 강화학습의 특성을 이용한 새로운 교배 방법을 제안하여 진화의 효율을 향상시켰다. 교배를 위한 로봇의 염색체는 현재까지 학습된 정보이고, 로봇은 자신보다 우수한 로봇과 마주쳤을 경우 지역적 통신을 이용하여 염색체를 받아온다.
본 논문에서는 다수의 로봇으로 구성된 군집 로봇 시스템에서 로봇의 행동학습 및 진화를 위하여 강화학습과 분산유전알고리즘을 도입하 바법을 제안하였다. 각각의 로봇은 주변을 인식하여 자신의 행동을 결정하며, 이때 지연보상이 있는 Q-학습법을 제안하여 적용하였고, 지역적 통신시스템을 이용하여 시스템의 목적에 맞도록 진화해 나가는 방법을 사용하였다.
특히 강화학습법을 포함한 신경회로망, 유전 알고리즘, 퍼지 시스템 등과 이들의 융합에 관심을 가지고 있다. 본 논문에서는 로봇에게 완전한 프로그램을 만들어 주는 대신 동적으로 변화하는 환경에 대하여 유연하게 대처할 수 있는 행동이 발현되고 진화해 나갈 수 있는 시스템을 구현하여 협조행동을 실현하였다. 제안한 방법의 유효성을 검증하기 위하여 본 논문에서는 비교적 간단한 문제에 적용하였지만 앞으로는 자율이동로봇 및 마이크로 로봇의 기술 발달과 더불어 적용할 수 있는 분야는 계속 늘어날 전망이며 제안한 방법은 이를 실현할 수 있는 기본전략으로 사용될 수 있을 것으로 기대한다.
뿐만 아니라, 적합도의 값은 서로 다른 로봇을 선택하는 기준이 된다. 본 논문에서는 협조탐색의 문제로서 충돌을 피하면서 많은 물체를 획득하는 것을 목표로 하고 있으므로, 물체를 획득하였을경우 적합도가 상승하고, 장애물이나 로봇에 충돌하였을 경우 적합도가 떨어진다. 여기에서 로봇의 적합도는 최종 주행 시간 동안 받은 보상이나 벌칙에 의해 (6)식과 같이 표현할 수 있다.
이러한 관점에서, 본 논문에서는 자율 분산 로봇 시스템에서 자율적으로 행동하며 시스템의 목적을 달성하는 로봇을 실현하기 위하여 사전에 짜여진 완벽한 계획이 아닌 시스템에 적응할 수 있는 구조를 설계하여 주었다. 로봇은 주어진 환경에서 자신의 행동을 학습하기 위하여 강화학습을 이용하였고 진화를 위하여 분산유전알고리즘을 도입하였다.
따라서 이러한 교배에 의하여 우수한 개체가 소실될 가능성도 존재한다. 이러한 점을 보완하기 위하여 본 논문에서는 개선된 교배방법을 제안한다.

가설 설정

1. 모든 상태 s 와 행동 a 에 대하여 (Xs, a)를 임의의 값(일반적으로 0)으로 초기화한다.
1. 모든 상태 s와 행동 a 의 Q(s, a)에 대하여 0보다 크고 1 이하의 임의의 값으로 초기화한다. 주의할 것은 초기 값이 0인 경우는 아래의 (2)식에 의거하여 행동 선택이 되지 않는다는 사실이다.
2. 현재의 상태 s 를 인식한다.
5cm 전진할 수 있다. 또한 작업 대상인 물체 및 장애물은 작업 공간 내에 골고루 퍼져 있고, 모든 로봇은 작업공간에서 다른 로봇과의 거리를 충분히 유지하도록 흩어진 후 작업을 수행한다고 가정한다.
본 논문에서는 자율이동로봇군의 행동학습과 진화를 위하여 군집 로봇의 협조탐색 문제의 하나인 다수 로봇에 의한 물체획득 문제로 설정하였으며 실험을 위하여 다음과 같은 환경을 가정하였다. 로봇의 수: 25개, 물체의 수: 500개, 장애물의 수: 100개, 1회의 수행시간: 1000단위시간, 평가시간: 500단위시간, 작업 공간: 20x20m(로봇의 크기는 5x5cm).

제안 방법

없는 경우 강화신호를 예측하여 학습하는데 반하여, 본 논문에서는 강화신호의 예측대신 강화신호를 받은 순간 이전의 행동에 대하여 Q-값을 수정하는 지연 보상이 있는 Q-학습법을 제안하였다. 한편 진화를 위하여 개개의 로봇이 하나의 염색체를 가지며 통신을 통하여 선택 및 교배를 하는 분산유전알고리즘을 도입하였다[7].
각각의 로봇은 다수의 상태-행동 규칙을 테이블의 형태로 가지고 있으며, 테이블의 값은 행동 결과에 의해 주어진 보상이나 벌칙에 따라 제안한 Q-학습의 방법으로 갱신해 나간다. 만일 로봇이 자신보다 우수한 로봇을 만났을 경우 이 로봇은 통신을 통해 상대방의 행동규칙을 획득하고, 유전 알고리즘에 의해 자신의 행동규칙을 진화해 나간다.
도입하 바법을 제안하였다. 각각의 로봇은 주변을 인식하여 자신의 행동을 결정하며, 이때 지연보상이 있는 Q-학습법을 제안하여 적용하였고, 지역적 통신시스템을 이용하여 시스템의 목적에 맞도록 진화해 나가는 방법을 사용하였다. 또한 시뮬레이션 결과로부터 학습과 진화의 유효성을 검증하였다.
기본적인 Q-학습법의 수렴성에 대하여는 이미 참고문헌 [6] 등에서 증명이 되어 있으며, 본 논문에서 제안한 지연 보상이 있는 강화학습법도 마찬가지로 방법으로 수렴성이 보장될 수 있기 때문에 본 논문에서는 생략한다.
각각의 로봇은 주변을 인식하여 자신의 행동을 결정하며, 이때 지연보상이 있는 Q-학습법을 제안하여 적용하였고, 지역적 통신시스템을 이용하여 시스템의 목적에 맞도록 진화해 나가는 방법을 사용하였다. 또한 시뮬레이션 결과로부터 학습과 진화의 유효성을 검증하였다.
수 있는 구조를 설계하여 주었다. 로봇은 주어진 환경에서 자신의 행동을 학습하기 위하여 강화학습을 이용하였고 진화를 위하여 분산유전알고리즘을 도입하였다. 주어진 일에 대하여 이와 같은 목적을 달성하기 위하여 각각의 '로봇은 기본적으로 주변의 환경을 인식할 수 있는 센싱 능력과 서로 통신을 할 수 있는 능력을 가지고 있다.
본 논문에서는 두 번째의 방법을 사용하여 로봇의 진화를 실현한다. 이 방법은 진화의 대상인 염색체가 하나의 로봇이됨으로서 여러 대의 로봇으로 구성되어 있는 자율 분산 로봇 시스템에 실제적으로 적용하여 각각의 개체인 로봇이 시스템의 목적(예를 들면 협조행동을 통한 작업의 완수에 맞도록 진화를 시킬 수 있는 장점이 있다
이러한 진화방법은 생물체가 관찰과 모방에 의해 학습하는 것과 같은 효과를 갖는다. 제안된 방법은 협조 탐색 문제에 적용하여 컴퓨터 시뮬레이션을 통하여 그 유효성을 검증한다.
이 방법들은 현재에 즉각적인 보상(강화 신호)。] 없는 경우 강화신호를 예측하여 학습하는데 반하여, 본 논문에서는 강화신호의 예측대신 강화신호를 받은 순간 이전의 행동에 대하여 Q-값을 수정하는 지연 보상이 있는 Q-학습법을 제안하였다. 한편 진화를 위하여 개개의 로봇이 하나의 염색체를 가지며 통신을 통하여 선택 및 교배를 하는 분산유전알고리즘을 도입하였다[7]. 단순 유전 알고리즘에서는 적합도의 평가, 선택, 교배 및 돌연변이의 과정이 일괄적으로 이루어진다.

대상 데이터

가정하였다. 로봇의 수: 25개, 물체의 수: 500개, 장애물의 수: 100개, 1회의 수행시간: 1000단위시간, 평가시간: 500단위시간, 작업 공간: 20x20m(로봇의 크기는 5x5cm). 통신 반경: 75cm, 센싱 반경: 32.
본 논문에서는 로봇이 현재까지 학습한 데이터인 Q-테이블의 값을 염색체로 하였다. 이 Q-테이블의 값은 로봇이 환경에 대응하여 학습한 결과로서 로봇마다 각자 학습한 다른 값을 가지고 있으며 진화의 대상으로 하기에 적당하다.

데이터처리

제안된 방법들의 유효성의 검증을 위하여 시뮬레이션에서는 학습과 진화를 하지 않을 경우, 학습만을 수행할 경우, 진화와 학습을 동시에 수행할 경우에 대하여 수행하여 결과를 비교하였으며, 적합도 함수는 a 의 비중을 크게 한 경우와 0 의 비중을 크게 한 경우에 대하여 각각 진화의 추이를 비교하였다.

이론/모형

다음은 본 논문에서 제안한 지연보상이 있는 Q-학습법이다.
일반적으로 통신에 의한 협조를 위해서 이 융합 모델의 이용가치는 높아질 것으로 예상된다. 따라서 본 논문에서는 지역적 통신에서 이 두 가지 모델을 융합한 통신 모델을 사용한다.
또한 현재 받은 보상이나 벌칙은 바로 다음에 이어지는 상태에는 별로 영향을 미치지 않는다. 따라서 학습은 보상이나 벌칙을 받은 시점에서 과거의 행동에 대하여 수행하는 지연보상이 있는 Q-학습법을 사용하였다. 즉, 현재의 행동결과는 과거행동의 영향을 받았다는 가정 하에 감쇠계수 Y(0<Y<l)를 사용하여 보상이나 벌칙을 받은 순간, 현재로부터 과거의 행동에 대하여 Q- 값을 갱신한다.

성능/효과

몇 대의 로봇이 고장이 나더라도 시스템의 정상적인 동작에 영향을 주지 않으며, 주어진 일에 대하여 오직 로봇의 행동 규칙만 바꾸어 줌으로써 여러 가지 작업에 적용할 수 있다. 셋째로 시스템의 크기가 커지더라도 개개의 로봇의 자신의 주변상황에 따라 자신의일을 판단하여 결정하므로 시스템의 복잡도가 증가하지 않는다.
이것은 진화를 통하여 로봇이 학습하지 못한 상태에 대한 정보도 가질 수 있게 됨으로 성능의 향상을 가져온 것으로 볼 수 있다. 학습과 진화를 동시에 시행한 경우 모든 로봇이 획득한 물체는 초기 시행 때는 200개에서 400개 까지 꾸준히 향상되며 충돌횟수는 초기에는 125회 내외에서 50회 정도로 감소하였다.

후속연구

제안한 방법의 유효성을 검증하기 위하여 본 논문에서는 비교적 간단한 문제에 적용하였지만 앞으로는 자율이동로봇 및 마이크로 로봇의 기술 발달과 더불어 적용할 수 있는 분야는 계속 늘어날 전망이며 제안한 방법은 이를 실현할 수 있는 기본전략으로 사용될 수 있을 것으로 기대한다. 제안한 방법은 향후 실험을 통해서 二 유효성을 검증할 예정이다.
본 논문에서는 로봇에게 완전한 프로그램을 만들어 주는 대신 동적으로 변화하는 환경에 대하여 유연하게 대처할 수 있는 행동이 발현되고 진화해 나갈 수 있는 시스템을 구현하여 협조행동을 실현하였다. 제안한 방법의 유효성을 검증하기 위하여 본 논문에서는 비교적 간단한 문제에 적용하였지만 앞으로는 자율이동로봇 및 마이크로 로봇의 기술 발달과 더불어 적용할 수 있는 분야는 계속 늘어날 전망이며 제안한 방법은 이를 실현할 수 있는 기본전략으로 사용될 수 있을 것으로 기대한다. 제안한 방법은 향후 실험을 통해서 二 유효성을 검증할 예정이다.

참고문헌 (16)

이동욱, 심귀보, '자율이동로봇군의 협조행동을 위한 통신시스템의 개발,' 대한전자공학회 논문지, 제34권, S편, 제3호, pp. 33-45, 1997. 3
이동욱 심귀보, '강화학습과 분산유전알고리즘을 이용한 자율이동로봇군의 행동학습 및 진화,' 대한전자공학회 논문지, 제34권, S편, 제8호, pp. 56-64, 1997. 8
이동욱, 심귀보, '인공면역계 기반의 자율이동로봇군의 협조행동전략 결정,' 대한전자공학회 논문지, 제 35권 S편 제3호, pp. 102-109, 1998. 3
H.B. Jun, K.B. Sim, 'Emergence of Cooperative Behavior based on Learning and Evolution in Collective Autonomous Mobile Robots,' Journal of Electrical Engineering and Information Science, vol. 3, 1998

상세보기
심귀보, 이동욱, 선상준, '인공면역계 기반 자율분산 로봇 시스템의 협조 전략과 군행동', 제어자동화시스템 공학회 논문지, 제6권, 제12호, pp. 1079-1085, 2000. 12

원문보기 상세보기
I. Roitt, J. Brostoff, D. Male, Immunology, 4th edition, Mosby, 1996
R.A. Wallace, G.P. Sanders, R. J. Ferl, BIOLOGY: The Science of Life, 3rd eds., HarperCollins Publishers Inc., 1991
N.K. Jerne, 'Idiotopic Network and Other Preconceived Ideas,' Immunological Rev., vol. 79, pp. 5-24, 1984

상세보기
Y. Ishida, N. Adachi, 'An Immune Algorithm for Multiagent : Application to Adaptive Noise Neutralization,' Proc. of IROS 96, pp. 1739-1746, 1996
S. Forrest, B Javornik, R.E. Smith, A.S. Perelson, 'Using Genetic Algorithms to Explore Pattern Recognition in the Immune System,' Evolutionary Computation, vol. 1, no. 3, pp. 191-211, 1993

상세보기
A. Ishiguro, Y. Watanabe, Y. Uchikawa, 'An Immunological Approach to Dynamic Behavior Control for Autonomous Mobile Robots,' Proc, of IROS 95, pp. 495-500, 1995
A. Ishiguro, Y. Shirai, T. Kendo, Y. Uchikawa, 'Immunoid : An Architecture for Behavior Arbitration Based on the Immune Networks,' Proc. of IROS 96, pp. 1730-1738, 1996
H. Bersini, F.J, Varela, 'The Immune Recruitment Mechanism: A Selective Evolutionary Strategy,' Proc, of 4th Int. Conf. on Genetic Algorithms, pp. 520-526, 1991
N. Mitsumoto et al., 'Micro Autonomous Robotic System and Biologically Inspired Immune Swarm Strategy as a Multi-Agent Robotic System,' Proc. of Int. Conf. on Robotics and Automation, pp. 2187-2192, 1995
P. D'haeseleer, S. Forrest, P. Helman, 'An Immunological Approach to Change Detection : Algorithms, Analysis and Implications,' Proc. of IEEE Symp. on Security and Privacy, 1996
J.D. Farmer, N.H. Packard, and A.S. Perelson, 'The Immune System, Adaptation, and Machine Learning,' Physica 22-D, pp. 184-204, 1986

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증