[논문]스마트 팩토리에서 그리드 분류 시스템의 협력적 다중 에이전트 강화 학습 기반 행동 제어

최호빈; 김주봉; 황규영; 김귀훈; 홍용근; 한연희

doi:10.3745/ktccs.2020.9.8.171

초록
AI-Helper

스마트 팩토리는 설계, 개발, 제조 및 유통 등 생산과정 전반이 디지털 자동화 솔루션으로 이루어져 있으며, 내부 설비와 기계에 사물인터넷(IoT)을 설치해 공정 데이터를 실시간으로 수집하고 이를 분석해 스스로 제어할 수 있게 하는 지능형 공장이다. 스마트 팩토리의 장비들은 게임과 같이 가상의 캐릭터가 하나의 객체 단위로 구동되는 것이 아니라 수많은 하드웨어가 물리적으로 조합되어 연동한다. 즉, 특정한 공동의 목표를 위해 다수의 장치가 개별적인 행동을 동시다발적으로 수행해야 한다. 공정 데이터를 실시간으로 수집할 수 있는 스마트 팩토리의 장점을 활용하여, 일반적인 기계 학습이 아닌 강화 학습을 사용하면 미리 요구되는 훈련 데이터 없이 행동 제어를 할 수 있다. 하지만, 현실 세계에서는 물리적 마모, 시간적 문제 등으로 인해 수천만 번 이상의 반복 학습이 불가능하다. 따라서, 본 논문에서는 시뮬레이터를 활용해 스마트 팩토리 분야에서 복잡한 환경 중 하나인 이송 설비에 초점을 둔 그리드 분류 시스템을 개발하고 협력적 다중 에이전트 기반의 강화 학습을 설계하여 효율적인 행동 제어가 가능함을 입증한다.

Abstract ▼ AI-Helper

Smart Factory consists of digital automation solutions throughout the production process, including design, development, manufacturing and distribution, and it is an intelligent factory that installs IoT in its internal facilities and machines to collect process data in real time and analyze them so...

Smart Factory consists of digital automation solutions throughout the production process, including design, development, manufacturing and distribution, and it is an intelligent factory that installs IoT in its internal facilities and machines to collect process data in real time and analyze them so that it can control itself. The smart factory's equipment works in a physical combination of numerous hardware, rather than a virtual character being driven by a single object, such as a game. In other words, for a specific common goal, multiple devices must perform individual actions simultaneously. By taking advantage of the smart factory, which can collect process data in real time, if reinforcement learning is used instead of general machine learning, behavior control can be performed without the required training data. However, in the real world, it is impossible to learn more than tens of millions of iterations due to physical wear and time. Thus, this paper uses simulators to develop grid sortation systems focusing on transport facilities, one of the complex environments in smart factory field, and design cooperative multi-agent-based reinforcement learning to demonstrate efficient behavior control.

주제어

표/그림 (6)

그림 Fig. 1. 3-Grid Sortation System
그림 Fig. 2. Cooperative Multi-Agents RL Configuration
표 Table 1. Reward Component
그림 Fig. 3. Collision Resolving Example
그림 Fig. 4. Actor-Critic Proximal Policy Optimization Architecture
그림 Fig. 5. Performance Graph

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 Real Games사에서 제공하는 3D Simulation Software 중 스마트 팩토리 분야에 해당하는 Factory I/O를 사용하여 스마트 팩토리 분야에서 복잡한 환경 중 하나인 이송 설비에 초점을 둔 그리드 분류 시스템을 개발한다[1]. 또, 개발한 그리드 분류 시스템에 협력적 다중 에이전트 기반 강화 학습 환경을 설계하고 효율적인 행동 제어가 가능함을 입증한다.
한편, 분류 시스템에 딥러닝을 적용하여 성능을 높이는 연구도 진행되고 있다[10]. 본 논문에서는 소형의 그리드 분류 시스템을 개발하고 협력적 다중 에이전트 기반의 강화 학습을 적용하여 복잡한 규칙 기반의 알고리즘 없이 효율적인 제어가 가능함을 입증한다.
본 논문에서는 전통적인 분류 시스템과 비교하여 더 높은 처리량과 더 적은 공간요구의 장점이 있는 N-그리드 분류 시스템을 설계하고 Factory I/O를 통해 소형 버전인 3-그리드 분류 시스템을 개발하였다. 그리고 N-그리드 분류 시스템의 특성을 고려하여 에피소드 시나리오와 세부 학습 목표를 정의하고 협력적 다중 에이전트 강화 학습을 설계하였다.
본 연구에서 설정한 강화 학습의 에피소드 시나리오는 다수의 Emitter에서 분류 대기 중인 무작위 타입의 무한한 상자들을 타입에 맞게 올바른 목적지로 신속하게 이동 분류하는 것이다. 분류할 상자의 타입은 총 세 가지가 있으며 Small 타입의 목적지는 D₁, Medium 타입의 목적지는 D₂, Large 타입의 목적지는 D₃이다.
모든 상자는 타임 스텝마다 인접한 Part로 한 번 이동할 수 있으며 모든 이동이 끝나면 해당 타임 스텝이 끝난 것으로 간주한다. 최종 학습 목표는 높은 분류 정확도를 유지하며 많은 상자를 최대한 빠르게 분류하는 것이다. 다음의 각 항은 최종 학습 목표의 세가지 하위 목표이다.

제안 방법

본 논문에서는 전통적인 분류 시스템과 비교하여 더 높은 처리량과 더 적은 공간요구의 장점이 있는 N-그리드 분류 시스템을 설계하고 Factory I/O를 통해 소형 버전인 3-그리드 분류 시스템을 개발하였다. 그리고 N-그리드 분류 시스템의 특성을 고려하여 에피소드 시나리오와 세부 학습 목표를 정의하고 협력적 다중 에이전트 강화 학습을 설계하였다. 결과는 실험을 통해 세부 목표를 달성함으로써 효율적인 행동 제어가 가능함을 입증하였다.
여기서 상자의 종류는 무작위로 결정된다. 본 시스템에서는 분류할 상자를 입고(Emission)하는 기능을 수행한다.
기본 적으로 PPO는 TRPO를 기원하여 만들어졌기 때문에 Surrogate Objective Function이 존재한다. 본 연구에서는 PPO 알고리즘에 Actor-Critic 구조를 추가하여 두 개의 Loss Function이 존재한다. 먼저, Actor는 Actor를 사용하여 계산한 Ratio와 Critic을 활용하여 계산한 Advantage를 곱한 Surrogate Objective Function에 Clipping 기법을 적용하고 이를 최대화하는 방향으로 업데이트한다.
한 번 점유되면 해당 타임 스텝에서는 다른 액션에 관여될 수 없으므로, 동시에 서로 다른 방향으로 특정 Chain Transfer의 점유를 원한다면 우선순위가 필요하며 그에 대한 피드백도 필요하다. 본 연구에서는 특정 Chain Transfer에 대한 동시적인 점유 요구를 Collision이라 명명했으며, Collision에 대해 룰 기반의 방식으로 우선순위를 판단하고 피드백을 주었다. 이 룰 기반의 방식은 다섯 번째 절에서 자세히 설명한다.

대상 데이터

Experience Replay Memory의 크기는 1000을 사용하였고 배치 크기는 128을 사용하였다. Learning Rate는 0.

이론/모형

마지막으로, 6개의 Emitter는 하나의 에이전트가 제어하며, 이 에이전트(Agent₁₀)를 Emitting 에이전트로 명명하였다. 모든 에이전트는 서로 다른 CNN (Convolutional Neural Network)을 가지며, Sorting 에이전트들은 DQN 알고리즘을 사용하였고 Emitting 에이전트는 PPO 알고리즘을 사용하였다. 사용한 알고리즘은 5장에서 자세히 설명한다.
에이전트의 Exploration을 위해 ε-greedy 알고리즘을 사용하였고 ε을 처음 500 에피소드 동안 0.5에서 시작해 0.1까지 점차 낮추었으며 이후엔 0.1로 유지하였다.

성능/효과

1로 고정되기 때문이다. R_right와 R_wrong의 변화를 통해 Sorting 에이전트가 Optimal Routing을 학습했다는 것을 확인할 수 있다. 또, 훈련의 초기 단계에서는 Emitting 에이전트가 상자를 무작위로 Emission 하지만 훈련이 진행될수록 시스템의 전체적인 상황을 파악하여 혼잡을 제어하는 것을 점차 증가하는 R_emission을 통해 알 수 있다.
그리고 N-그리드 분류 시스템의 특성을 고려하여 에피소드 시나리오와 세부 학습 목표를 정의하고 협력적 다중 에이전트 강화 학습을 설계하였다. 결과는 실험을 통해 세부 목표를 달성함으로써 효율적인 행동 제어가 가능함을 입증하였다. 본 연구에서는 3-그리드 분류 시스템을 대상으로 실험을 진행하였기 때문에 상자들이 이동할 수 있는 버퍼가 매우 부족해 많은 제약사항이 존재한다.
본 논문에서는 Real Games사에서 제공하는 3D Simulation Software 중 스마트 팩토리 분야에 해당하는 Factory I/O를 사용하여 스마트 팩토리 분야에서 복잡한 환경 중 하나인 이송 설비에 초점을 둔 그리드 분류 시스템을 개발한다[1]. 또, 개발한 그리드 분류 시스템에 협력적 다중 에이전트 기반 강화 학습 환경을 설계하고 효율적인 행동 제어가 가능함을 입증한다.
R_emission이 이상적인 값인 6에도달하지 못 하는 이유는 상자 타입의 무작위성과 Collision 때문이다. 마지막으로 훈련이 진행될수록 R_right는 증가하며, R_wrong은 감소하고, R_emission은 증가하기 때문에 PI도 그것에 맞게 증가하는 것을 확인할 수 있다.
본 시스템은 N×N개의 Chain Transfer로 구성되는 N-Grid Sortation System의 간단한 버전이며 비교적 쉽게 확장 가능하다.
본 실험에서 사용된 훈련 종료 조건은 다음과 같다. 에피소드마다 최근 10개 에피소드의 평균 PI를 계산하고 가장 최근의 PI가 평균 PI보다 크고 평균 PI가 best PI보다 큰 경우 best PI를 갱신하는데, 갱신이 30회 동안 이루어지지 않으면 훈련을 종료한다.
에피소드 종료 조건은 총 2가지가 존재한다. 첫 번째로, 500개의 상자가 목적지로 분류되면 해당 에피소드가 종료된다. 여기서 분류는 올바른 분류인지 올바르지 않은 분류인지 구분하지 않는다.

질의응답

핵심어	질문	논문에서 추출한 답변
	스마트 팩토리는 무엇인가?	스마트 팩토리는 설계, 개발, 제조 및 유통 등 생산과정 전반이 디지털 자동화 솔루션으로 이루어져 있으며, 내부 설비와 기계에 사물인터넷(IoT)을 설치해 공정 데이터를 실시간으로 수집하고 이를 분석해 스스로 제어할 수 있게 하는 지능형 공장이다. 스마트 팩토리의 장비들은 게임과 같이 가상의 캐릭터가 하나의 객체 단위로 구동되는 것이 아니라 수많은 하드웨어가 물리적으로 조합되어 연동한다.
	DQN에서 에이전트가 환경과 상호작용하며 얻은 경험은 어떻게 저장 및 업데이트가 이루어 지는가?	DQN은 에이전트가 환경과 상호작용하며 얻은 경험을 바탕으로 미래 누적 보상을 예측하는 Q(s,a) 값을 업데이트한다. 여기서 경험은 Experience Replay Memory에 저장되고 샘플링을 통해 신경망의 업데이트가 이루어진다. Experience Replay Memory는 큐이기 때문에 한 번 저장된 경험은 여러 번 사용될 수 있어 경험의 사용 효율이 높아지며 랜덤으로 샘플링하므로 경험 간의 높은 Correlation 문제를 해결할 수 있다.
	PLC는 무엇인가?	PLC (Programmable Logic Controller)는 산업 응용 분야에서 가장 일반적인 컨트롤러이며, Factory I/O를 PLC 훈련 플랫폼으로 사용할 수 있다. 또, I/O 드라이버는 외부 컨트롤러와 대화를 담당하는 Factory I/O의 내장형 기능이다.

참고문헌 (15)

Real Games, Factory I/O [Internet], https://factoryio.com.
Arun Jayaraman, Ramu Narayanaswamy and Ali K. Gunal, "A sortation system model," Proceedings of the 1997 Winter Simulation Conference, Atlanta, GA, USA, pp. 866-871, Dec. 1997.
Patrick M McGuire, Conveyors: Application, Selection, and Integration, 1st Edition, CRC Press, 2009.
M. Eric Johnson, “The impact of sorting strategies on automated sortation system performance,” IIE Transactions, Vol. 30, No. 1, pp. 67-77, Jan. 1997.
James C. Chen, Chien-Fu Huang, Tzu-Li Chen, and Yu-Hsin Lee, "Solving a Sortation Conveyor Layout Design Problem with Simulation-optimization Approach," 2019 IEEE 6th International Conference on Industrial Engineering and Applications (ICIEA), Tokyo, Japan, pp. 551-555, Apr. 2019.
Russell D. Meller, “Optimal order-to-lane assignments in an order accumulation/sortation system,” IIE Transactions, Vol. 29, No. 4, pp. 293-301, Apr. 1997.

상세보기
Shiwang Hou, “Distribution Center Logistics Optimization Based on Simulation,” Research Journal of Applied Sciences, Engineering and Technology, Vol. 5, No. 21, pp. 5107-5111, 2013.

상세보기
Stefan Fedtke and Nils Boysen, “Layout Planning of Sortation Conveyors in Parcel Distribution Centers,” Transportation Science, Vol. 51, No. 1, pp. 3-18, Feb. 2017.

상세보기
Zazilia Seibold, Thomas Stoll, and Kai Furmans, "Layoutoptimized sorting of goods with decentralized controlled conveying modules," 2013 IEEE International Systems Conference (SysCon), Apr. 2013.
Mir Alireza Athari, Farzad Ahmadinejad, and Mehran Ahmadi, "Design and Implementation of a Parcel Sorter Using Deep Learning," 2018 4th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS), Dec. 2018.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis, "Human-level control through deep reinforcement learning," Nature, Vol. 518, pp. 529-533, Feb. 2015.

상세보기
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov, "Proximal Policy Optimization Algorithms," arXiv:1707.06347, Jul. 2017.
John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, and Pieter Abbeel, "Trust Region Policy Optimization," arXiv:1502.05477, Feb. 2015.
Fu-bin Pan, "Simulation Design of Express Sorting System-Example of SF's Sorting Center," The Open Cybernetics & Systemics Journal, Vol. 8, pp. 1116-1122, 2014.
Real Games, Factory I/O SDK [Internet], https://github.com/realgamessoftware/factoryio-sdk.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

스마트 팩토리에서 그리드 분류 시스템의 협력적 다중 에이전트 강화 학습 기반 행동 제어
Cooperative Multi-Agent Reinforcement Learning-Based Behavior Control of Grid Sortation Systems in Smart Factory 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (6)

표/그림 (6)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

스마트 팩토리에서 그리드 분류 시스템의 협력적 다중 에이전트 강화 학습 기반 행동 제어 Cooperative Multi-Agent Reinforcement Learning-Based Behavior Control of Grid Sortation Systems in Smart Factory 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (6) 모든 표/그림 보기

표/그림 (6) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

김주봉 (4) 한연희 (31)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

스마트 팩토리에서 그리드 분류 시스템의 협력적 다중 에이전트 강화 학습 기반 행동 제어
Cooperative Multi-Agent Reinforcement Learning-Based Behavior Control of Grid Sortation Systems in Smart Factory 원문보기

초록
AI-Helper

표/그림 (6)

표/그림 (6)

AI 본문요약
AI-Helper