[논문]멀티 DQN 에이전트를 활용한 공급사슬망 최적화 연구 : beer game을 바탕으로

정상현

멀티 DQN 에이전트를 활용한 공급사슬망 최적화 연구 : beer game을 바탕으로 원문보기

정상현 (연세대학교 대학원 산업공학과 국내석사)

초록 ▼
AI-Helper

Beer Game과 같은 부분관찰환경 공급사슬망에서는 공장, 물류창고, 도매상, 소매상 에이전트들이 서로의 재고 수준, 배송량 등의 상태 정보를 알지 못한 채 주문량을 결정해야 한다. 이러한 환경에서는 전통적인 재고관리 기법인 기준재고정책을 따르는 것이 일반적이나, 복수의 에이전트가 존재하는 다단계 공급사슬망 또는 계절적 수요 패턴이 존재하는 경우 등에서는 최적 기준재고수준을 구하는 데 어려움이 따른다.
본 연구는 Beer Game의 모든 에이전트를 심층강화학습 기법인 DQN 알고리즘으로 구현하여 기준재고정책을 대체할 수 있는 방법을 제안한다. 이러한 멀티 DQN 에이전트로 공급사슬망 전체의 비용을 최소화하기 위해서는 에이전트들이 서로 협력할 수 있는 방법을 학습해야 한다. 따라서 본 연구는 두 가지의 새로운 협력 피드백 방법을 제안함으로써 이를 해결하고자 하는데, 하나는 협력 피드백 조정 계수를 초매개변수로 활용하는 정적 피드백 방법이고, 다른 하나는 DQN의 신경망으로 협력 정도를 학습하는 동적 피드백 방법이다. 실험 결과, 멀티 DQN 에이전트는 상호 간 협력을 통해 기준재고정책보다 공급사슬망의 비용을 낮출 수 있었다.

Abstract ▼ AI-Helper

The Beer Game consists of four independent agents – a retailer, a wholesaler, a distributor, and a manufacturer – which must make replenishment decisions without knowing others information. In such a partially observable environment, it is common to follow a base-stock policy, but it is difficult to find the optimal base-stock levels for serial supply chains with multi-agents and non-stationary demand with seasonal patterns.
In this paper, we propose a new method that can replace the base-stock policy by implementing all the agents of Beer Game as a DQN algorithm, a deep reinforcement learning technique. In order to minimize the total average cost of the entire supply chain with these multi-DQN agents, it is vital to learn how agents can work cooperatively. Therefore, we present two new cooperative feedback schemes, named alpha-feedback schemes, which is an extension of the original SRDQN algorithm. One is a static feedback scheme that uses a feedback coefficient as a hyper parameter, and the other is a dynamic feedback scheme that learns a feedback coefficient through the neural network of DQN algorithm.
Experimental results show that multi-DQN agents using alpha-feedback schemes can outperform the base-stock policy through mutual cooperation, lowering the total average cost of the supply chain.

주제어

학위논문 정보

저자	정상현
학위수여기관	연세대학교 대학원
학위구분	국내석사
학과	산업공학과
지도교수	김우주
발행연도	2021
총페이지	v, 42장
키워드	강화학습 재고관리 비어 게임 심층강화학습 멀티 에이전트 강화학습 Reinforcement Learning Inventory Management Beer Game Deep RL Multi-Agent RL
언어	kor
원문 URL	http://www.riss.kr/link?id=T15732037&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

멀티 DQN 에이전트를 활용한 공급사슬망 최적화 연구 : beer game을 바탕으로 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

멀티 DQN 에이전트를 활용한 공급사슬망 최적화 연구 : beer game을 바탕으로 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper