Beer Game과 같은 부분관찰환경 공급사슬망에서는 공장, 물류창고, 도매상, 소매상 에이전트들이 서로의 재고 수준, 배송량 등의 상태 정보를 알지 못한 채 주문량을 결정해야 한다. 이러한 환경에서는 전통적인 재고관리 기법인 기준재고정책을 따르는 것이 일반적이나, 복수의 에이전트가 존재하는 다단계 공급사슬망 또는 계절적 수요 패턴이 존재하는 경우 등에서는 최적 기준재고수준을 구하는 데 어려움이 따른다. 본 연구는 Beer Game의 모든 에이전트를 ...
Beer Game과 같은 부분관찰환경 공급사슬망에서는 공장, 물류창고, 도매상, 소매상 에이전트들이 서로의 재고 수준, 배송량 등의 상태 정보를 알지 못한 채 주문량을 결정해야 한다. 이러한 환경에서는 전통적인 재고관리 기법인 기준재고정책을 따르는 것이 일반적이나, 복수의 에이전트가 존재하는 다단계 공급사슬망 또는 계절적 수요 패턴이 존재하는 경우 등에서는 최적 기준재고수준을 구하는 데 어려움이 따른다. 본 연구는 Beer Game의 모든 에이전트를 심층강화학습 기법인 DQN알고리즘으로 구현하여 기준재고정책을 대체할 수 있는 방법을 제안한다. 이러한 멀티 DQN 에이전트로 공급사슬망 전체의 비용을 최소화하기 위해서는 에이전트들이 서로 협력할 수 있는 방법을 학습해야 한다. 따라서 본 연구는 두 가지의 새로운 협력 피드백 방법을 제안함으로써 이를 해결하고자 하는데, 하나는 협력 피드백 조정 계수를 초매개변수로 활용하는 정적 피드백 방법이고, 다른 하나는 DQN의 신경망으로 협력 정도를 학습하는 동적 피드백 방법이다. 실험 결과, 멀티 DQN 에이전트는 상호 간 협력을 통해 기준재고정책보다 공급사슬망의 비용을 낮출 수 있었다.
Beer Game과 같은 부분관찰환경 공급사슬망에서는 공장, 물류창고, 도매상, 소매상 에이전트들이 서로의 재고 수준, 배송량 등의 상태 정보를 알지 못한 채 주문량을 결정해야 한다. 이러한 환경에서는 전통적인 재고관리 기법인 기준재고정책을 따르는 것이 일반적이나, 복수의 에이전트가 존재하는 다단계 공급사슬망 또는 계절적 수요 패턴이 존재하는 경우 등에서는 최적 기준재고수준을 구하는 데 어려움이 따른다. 본 연구는 Beer Game의 모든 에이전트를 심층강화학습 기법인 DQN 알고리즘으로 구현하여 기준재고정책을 대체할 수 있는 방법을 제안한다. 이러한 멀티 DQN 에이전트로 공급사슬망 전체의 비용을 최소화하기 위해서는 에이전트들이 서로 협력할 수 있는 방법을 학습해야 한다. 따라서 본 연구는 두 가지의 새로운 협력 피드백 방법을 제안함으로써 이를 해결하고자 하는데, 하나는 협력 피드백 조정 계수를 초매개변수로 활용하는 정적 피드백 방법이고, 다른 하나는 DQN의 신경망으로 협력 정도를 학습하는 동적 피드백 방법이다. 실험 결과, 멀티 DQN 에이전트는 상호 간 협력을 통해 기준재고정책보다 공급사슬망의 비용을 낮출 수 있었다.
The Beer Game consists of four independent agents – a retailer, a wholesaler, a distributor, and a manufacturer – which must make replenishment decisions without knowing others information. In such a partially observable environment, it is common to follow a base-stock policy, but it is difficult to...
The Beer Game consists of four independent agents – a retailer, a wholesaler, a distributor, and a manufacturer – which must make replenishment decisions without knowing others information. In such a partially observable environment, it is common to follow a base-stock policy, but it is difficult to find the optimal base-stock levels for serial supply chains with multi-agents and non-stationary demand with seasonal patterns. In this paper, we propose a new method that can replace the base-stock policy by implementing all the agents of Beer Game as a DQN algorithm, a deep reinforcement learning technique. In order to minimize the total average cost of the entire supply chain with these multi-DQN agents, it is vital to learn how agents can work cooperatively. Therefore, we present two new cooperative feedback schemes, named alpha-feedback schemes, which is an extension of the original SRDQN algorithm. One is a static feedback scheme that uses a feedback coefficient as a hyper parameter, and the other is a dynamic feedback scheme that learns a feedback coefficient through the neural network of DQN algorithm. Experimental results show that multi-DQN agents using alpha-feedback schemes can outperform the base-stock policy through mutual cooperation, lowering the total average cost of the supply chain.
The Beer Game consists of four independent agents – a retailer, a wholesaler, a distributor, and a manufacturer – which must make replenishment decisions without knowing others information. In such a partially observable environment, it is common to follow a base-stock policy, but it is difficult to find the optimal base-stock levels for serial supply chains with multi-agents and non-stationary demand with seasonal patterns. In this paper, we propose a new method that can replace the base-stock policy by implementing all the agents of Beer Game as a DQN algorithm, a deep reinforcement learning technique. In order to minimize the total average cost of the entire supply chain with these multi-DQN agents, it is vital to learn how agents can work cooperatively. Therefore, we present two new cooperative feedback schemes, named alpha-feedback schemes, which is an extension of the original SRDQN algorithm. One is a static feedback scheme that uses a feedback coefficient as a hyper parameter, and the other is a dynamic feedback scheme that learns a feedback coefficient through the neural network of DQN algorithm. Experimental results show that multi-DQN agents using alpha-feedback schemes can outperform the base-stock policy through mutual cooperation, lowering the total average cost of the supply chain.
주제어
#강화학습 재고관리 비어 게임 심층강화학습 멀티 에이전트 강화학습 Reinforcement Learning Inventory Management Beer Game Deep RL Multi-Agent RL
학위논문 정보
저자
정상현
학위수여기관
연세대학교 대학원
학위구분
국내석사
학과
산업공학과
지도교수
김우주
발행연도
2021
총페이지
v, 42장
키워드
강화학습 재고관리 비어 게임 심층강화학습 멀티 에이전트 강화학습 Reinforcement Learning Inventory Management Beer Game Deep RL Multi-Agent RL
※ AI-Helper는 부적절한 답변을 할 수 있습니다.