$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모델
MDP Modeling for the Prediction of Agent Movement in Limited Space 원문보기

한국경영과학회지 = Journal of the Korean Operations Research and Management Science Society, v.40 no.3, 2015년, pp.63 - 72  

진효원 (국방대학교 운영분석학과) ,  김수환 (국방대학교 운영분석학과) ,  정치정 (한국과학기술원 산업시스템공학과) ,  이문걸 (국방대학교 운영분석학과)

Abstract AI-Helper 아이콘AI-Helper

This paper presents the issue that is predicting the movement of an agent in an enclosed space by using the MDP (Markov Decision Process). Recent researches on the optimal path finding are confined to derive the shortest path with the use of deterministic algorithm such as $A^*$ or Dijkst...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 도망자인 에이전트가 조기에 봉쇄구역을 벗어나지 못했을 경우, 식량ㆍ체력 고갈, 탐색자의 증가, GPS 장비의 고장 등으로 인해 행위에 제약이 가해질 가능성이 높기 때문이다. 둘째, 보상이 동적으로 부여되는 상황에 대한 연구이다. 에이전트가 은닉해서 이동하던 중 어떤 상태에 탐색자가 있는 지를 관찰(확인)했다면, 그 상황에서 다시 가치반복법을 시행해서 각 상태의 효용을 재산출 할 것이다.
  • 본 논문에서는 도망자인 에이전트가 봉쇄구역에서 벗어나기 위해 의사결정을 내리는 과정을 MDP를 이용해 모델링했다. 특히, GIS로부터 추출한 데이터를 이용해 보상 구조를 구성함으로써 객관성을 높였다.
  • 본 모델에서 구현하고자 하는 목표는 2가지로, 각 상태에서 에이전트가 어떤 방향으로 이동할지 선택하는데 필요한 최적 정책(π)과 특정 시점 이후에 각 상태에서 에이전트가 존재할 확률을 도출하는 것이다.
  • 본 연구는 [그림 1]와 같이 폐쇄된 공간(이하 봉쇄구역)에 있는 에이전트가 그 공간에서 벗어나기 위해 임의의 방향으로 움직일 때, 에이전트의 이동 경로를 마코프 의사결정 프로세스를 이용해 예측하는 문제이다.
  • 에이전트의 목표는 목적상태로 이동하는 것이므로 중간 과정의 성격을 가진 보통상태보다 보상값이 상대적으로 더 크다. 본 연구에서는 지형정보체계 전자지도로부터 보상구조와 관련된 정보를 추출해 객관성을 높였으며. 이 과정에서 상용 툴인 ArcGIS 10.
  • 본 연구에서는 이처럼 계획적으로 행동하는 에이전트의 움직임을 예측하기 위해, 에이전트의 행동을 랜덤하게 보지 않고, 목적을 달성하기까지 보상 (reward)을 가장 크게 받는 방식으로 행동할 것이 라고 가정했다. 이 같은 가정을 바탕으로, 폐쇄된 공간에서 에이전트가 이동할 경로를 예측하는 효율적인 방법을 제시하고자 한다.
  • 셋째, 앞서 설명한 기존 확률론적 기반 연구에서는 최적 정책을 구해 목적지에 도달하는 경로만 보여주었으나, 본 연구에서는 최적 정책 뿐 아니라 일정시간 이후에 에이전트가 각각의 상태에 존재할 확률도 함께 제시했다. 특히, 확률을 도출하는 과정에서 매트릭스(matrix)의 특성을 이용해 복잡한 계산을 손쉽게 처리할 수 있는 방법도 함께 제시했다. 넷째, 지형 정보체계(GIS; Geographic Information System)로터 추출한 정량적인 값으로 보상 구조(reward structure)를 구성해 객관성을 높였다.

가설 설정

  •  P(s′normal | snormal )1.5%로 가정했다.
  • P(s′normal | snormal ) 은 최적 정책으로 선택된 방향으로 이동할 확률을 75%, 나머지 5방향으로 이동할 확률을 5%라고 가정한다.
  • 가정 1:탐색자로부터 추적을 당하고 있는 에이전트는 최초 봉쇄구역의 중앙에 위치하며, 봉쇄구역을 탈출하는 것을 목표로 한다. 이를 위해 일정한 속도로 쉬지 않고 움직인다.
  • 가정 2:봉쇄선은 사람이나 장비가 지키고 있으므로 에이전트가 쉽게 탈출할 수 없다. 단, 탈출 가능성이 낮지만 탈출이 불가능한 것은 아니다.
  • 가정 3:에이전트는 이동하는 과정에서 노출을 줄이고, 체력을 비축할 수 있으며, 평소에 경험하거나 훈련받은 지형을 선택해서 움직인다.
  • 가정 4:에이전트는 이동 과정에서 자신이 선택한 지역으로 100% 이동할 수는 없다(체력 고갈, 방위 장비 고장, 탐색자 사전 선점 등이 원인).
  • 본 연구에서 에이전트는 고도로 훈련받은 요원이지만 탐색자에게 포위된 불리한 상황임을 가정, 가장 미흡한 부대의 방향 유지율 수준을 적용했다. 또한, 에이전트가 원하는 방향으로 이동하지 못했을 경우, 나머지 방향으로의 이동 확률을 동일하게 적용해 불확실성을 높임으로써 탐색자 입장에서 가장 보수적인 상황을 가정했다. [그림 2]에서 s0에 있는 에이전트가 최적 정책으로 α1을 선택했다면, 다음 스텝에서 에이전트가 s1에 있을 확률이 75%, s2~s6 에 있을 확률이 각각 5%가 된다.
  • ○○○ 부대 데이터에 따르면 방향 유지가 우수한 침투부대가 목표 지역으로 정확히 이동할 확률은 약 90%였 으며, 상대적으로 훈련이 미흡한 침투부대의 경우, 약 73%의 방향 유지율을 보였다. 본 연구에서 에이전트는 고도로 훈련받은 요원이지만 탐색자에게 포위된 불리한 상황임을 가정, 가장 미흡한 부대의 방향 유지율 수준을 적용했다. 또한, 에이전트가 원하는 방향으로 이동하지 못했을 경우, 나머지 방향으로의 이동 확률을 동일하게 적용해 불확실성을 높임으로써 탐색자 입장에서 가장 보수적인 상황을 가정했다.
  • 첫째, 에이전트가 최적 정책을 선택했을 때의 이동 확률을 동적으로 부여하는 문제이다. 본 연구에서는 시간의 흐름에 관계없이 최적 정책 선택 방향으로 75%의 확률로 이동한다고 가정했다. 하지만 이 확률은 시간에 따라 변할 가능성도 존재한다.
  • 본 연구에서는 이처럼 계획적으로 행동하는 에이전트의 움직임을 예측하기 위해, 에이전트의 행동을 랜덤하게 보지 않고, 목적을 달성하기까지 보상 (reward)을 가장 크게 받는 방식으로 행동할 것이 라고 가정했다. 이 같은 가정을 바탕으로, 폐쇄된 공간에서 에이전트가 이동할 경로를 예측하는 효율적인 방법을 제시하고자 한다.
  • 1절에서 정의한 문제에 대해 MDP 기반 모델링을 한다. 연속적인 공간에서 에이전트의 이동이 가능한 공간은 무한대이므로 문제를 단순화하기 위해서 본 연구에서는 연구 대상 지역이 [그림 2]과 같이 육각형의 셀들로 이루어져 있으며 에이전트는 셀 중심에서 셀 중심으로 이동한다고 가정한다. 예를 들어, [그림 2]은 총 36개의 셀들로 구성된 지역을 나타내며, 굵은 실선은 봉쇄선을 의미한다.
  • 이를 위해서는 현 시점에서 에이전트가 존재할 확률이 높은 지역을 예측해야 하며, 일정시간 동안 에이전트를 잡지 못했다면 봉쇄구역을 더 확장 시켜야 할지 여부를 결정해야한다. 요컨대, 본 연구는 에이전트 입장에서 가장 탈출하기 용이한 경로 ㆍ지역이 어디인지 예측하는 모델이며, 연구에서 사용된 가정은 아래와 같다.
  • 우선, 보통상태에서의 보상은 은닉 요인, 체력 요인, 전술 요인을 기준으로 결정된다고 가정하며, 각 요인은 에이전트의 선택에 있어 복합적으로 작용하는 정량적인 값이다.
  • 만약 시간에 따른 봉쇄선 통과 확률을 더 줄이려면 봉쇄선을 지금보다 더 강력하게 구축해야 한다. 즉, 더 많은 인원과 장비를 투입해 봉쇄선을 구축한다면 각 상태에서 에이전트가 봉쇄선을 통과할 확률은 지금보다 낮아질 것이며, 시간의 흐름에 따른 에이전트의 봉쇄구역 탈출 확률도 그만큼 줄어들 것이다. 다만 이 경우에는 더 많은 비용이 소요된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MDP 모델링에서 상태란 무엇인가? 상태(state)는 봉쇄선을 기준으로 안쪽을 보통상태 (normal state), 바깥쪽을 목적상태(object state)라고 정의하며, Snormal 은 보통상태의 집합을, Sobject 는 목적상태의 집합을 나타낸다.
에이전트 입장에서 가장 탈출하기 용이한 경로 ㆍ지역이 어디인지 예측하는 모델에 대한 가정은 무엇인가? 가정 1:탐색자로부터 추적을 당하고 있는 에이전트는 최초 봉쇄구역의 중앙에 위치하며, 봉쇄구역을 탈출하는 것을 목표로 한다. 이를 위해 일정한 속도로 쉬지 않고 움직인다. 가정 2:봉쇄선은 사람이나 장비가 지키고 있으므로 에이전트가 쉽게 탈출할 수 없다. 단, 탈출 가능성이 낮지만 탈출이 불가능한 것은 아니다. 가정 3:에이전트는 이동하는 과정에서 노출을 줄이고, 체력을 비축할 수 있으며, 평소에 경험하거나 훈련받은 지형을 선택해서 움직인다. 가정 4:에이전트는 이동 과정에서 자신이 선택한 지역으로 100% 이동할 수는 없다(체력 고갈, 방위 장비 고장, 탐색자 사전 선점 등이 원인).
POMDP가 MDP 보다 계산 과정이 다소 복잡한 이유는 무엇인가? 국내에서는 마코프 의사결정 프로세스 기반의 문제와 관련, 무인기의 임무 할당 및 정찰 경로 선택에 POMDP(Partially Observable MDP)가 적용된 연구가 있다[1]. POMDP는 기본적으로 MDP의 논리를 근간으로 하지만, 에이전트의 시야가 자신의 주변(관찰이 가능한 상태의 집합)으로 한정되어 있고 자신의 현 위치를 알지 못한다는 것을 전제로 하기 때문에 연산 과정이 MDP보다 다소 복잡하다. 해당 논문에서는 무인기가 가지는 보상에 대해 대공 미사일에 의한 격추(-), 목표물 정찰 성공(+), 임무를 완수하지 못할 경우 매시간당 보상 삭감(-) 등을 구조화함으로써 효과적인 임무 경로를 제시했다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. 김동호, 이재송, 최재득, 김기응, "복수 무인기를 위한 POMDP 기반 동적 임무 할당 및 정찰임무 최적화 기법", 정보과학회지, 제39권, 제6호(2011), pp.453-463. 

  2. 민대기, "추계 계획법을 이용한 수술실 약 모델과 Newsvendor 비율의 자원 효율성에 한 향 분석", 경영과학, 제28권, 제2호(2011), pp.17-29. 

  3. 방수남, 허 준, 손홍규, 이용웅, "지형공간정보 및 최적탐색기법을 이용한 최적침투경로 분석", 대한토목학회논문집, 제26권, 제1D호(2006), pp. 195-202. 

  4. 신내호, 오명호, 최호림, 정동윤, 이용웅, "지형공간정보 기반의 침투위험도 예측 모델을 이용한 최적침투지역 분석", 한국군사과학기술학회지, 제12권, 제2호(2009), pp.199-205. 

  5. 육군본부, "대침투작전 전투기술", 야전교범 3-0-2, 2009. 

  6. 윤봉규, "전장 모델링 실무자를 위한 마코프 체인에 대한 소고", 국방과학기술, 제2권, 제3호(2009), pp.47-61. 

  7. 이건창, 한민희, 서영욱, "탐색 및 활용을 통한 컴퓨터 매개 커뮤니케이션의 팀 창의성에 관한 연구:에이전트 모델링 기법을 중심으로", 경영과학, 제28권, 제1호(2011), pp.91-105. 

  8. 정석윤, 허 선, "마코프 재생과정을 이용한 ATM트랙픽 모델링 및 성능분석", 한국경영과학학회지, 제24권, 제3호(1999), pp.83-91. 

  9. Abhijit, G., "One Step Sizes, Stochastic Shortest Paths, and Survival Probabilities in Reinforcement Learning," Proceeding of the 40th Conference on Winter Simulation. Winter Simulation Conference, 2008. 

  10. Alagoz, O., H. Hsu, A.J. Schaefer, and M.S. Roberts, "Markov Decision Processes:A Tool for Sequential Decision Making under Uncertainty," Medical Decision Making, Vol. 30, No.4(2010), pp.474-483. 

  11. Bonet, B. and H. Geffner, "Solving Stochastic Shortest-Path Problem with RTDP," Technical report, University of California, Losangeles, 2002. 

  12. Hyeong, S.C., C. M. Fu, H.J. Hu, and M.I. Steven, "Simulation-Based Algorithms for Markov Decision Processes," Springer, 2006. 

  13. Kolobov, A., Mausam, and D.S. Weld, "Stochastic Shortest Path MDPs with Dead Ends," HSDIP, Vol.78, No.10(2012), pp.78-86. 

  14. Pan, Y., L. Sun, and M. Ge, "Finding Reliable Shortest Path in Stochastic Time-Dependent Network," Procedia-Social and Behavioral Sciences, Vol.96, No.6(2013), pp.451-460. 

  15. Ravindra, K.A. and L.T. Magnanti, B.J. Orlin, "Network Flows," Prentice Hall, 1993. 

  16. Schaefer, A.J., M.D. Bailey, S.M. Schechter, and M.S. Roberts, "Modeling Medical Treatment using Markov Decision Processes," Handbook of Operations Research/Management Science Applications in Health Care, Kluwer Academic Publisher, 2004. 

  17. Swarup, S., G. Eubank, and M.V. Marathe, "Computational Epidemiology as Challenge Domain for Multiagent Systems," Proceeding of International Conference on Autonomous Agents and Multi-agent Systems. International Foundation for Autonomous Agents and Multi-agent Systems, 2014. 

  18. Yu, X.-H. and W.W. Recker "Stochastic Adaptive Control Model for Traffic Signal Systems," Transportation Research Part C, Vol.14, No.4(2006), pp.263-282. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로