[논문]폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모델

진효원; 김수환; 정치정; 이문걸

doi:10.7737/jkorms.2015.40.3.063

문제 정의

도망자인 에이전트가 조기에 봉쇄구역을 벗어나지 못했을 경우, 식량ㆍ체력 고갈, 탐색자의 증가, GPS 장비의 고장 등으로 인해 행위에 제약이 가해질 가능성이 높기 때문이다. 둘째, 보상이 동적으로 부여되는 상황에 대한 연구이다. 에이전트가 은닉해서 이동하던 중 어떤 상태에 탐색자가 있는 지를 관찰(확인)했다면, 그 상황에서 다시 가치반복법을 시행해서 각 상태의 효용을 재산출 할 것이다.
본 논문에서는 도망자인 에이전트가 봉쇄구역에서 벗어나기 위해 의사결정을 내리는 과정을 MDP를 이용해 모델링했다. 특히, GIS로부터 추출한 데이터를 이용해 보상 구조를 구성함으로써 객관성을 높였다.
본 모델에서 구현하고자 하는 목표는 2가지로, 각 상태에서 에이전트가 어떤 방향으로 이동할지 선택하는데 필요한 최적 정책(π)과 특정 시점 이후에 각 상태에서 에이전트가 존재할 확률을 도출하는 것이다.
본 연구는 [그림 1]와 같이 폐쇄된 공간(이하 봉쇄구역)에 있는 에이전트가 그 공간에서 벗어나기 위해 임의의 방향으로 움직일 때, 에이전트의 이동 경로를 마코프 의사결정 프로세스를 이용해 예측하는 문제이다.
에이전트의 목표는 목적상태로 이동하는 것이므로 중간 과정의 성격을 가진 보통상태보다 보상값이 상대적으로 더 크다. 본 연구에서는 지형정보체계 전자지도로부터 보상구조와 관련된 정보를 추출해 객관성을 높였으며. 이 과정에서 상용 툴인 ArcGIS 10.
본 연구에서는 이처럼 계획적으로 행동하는 에이전트의 움직임을 예측하기 위해, 에이전트의 행동을 랜덤하게 보지 않고, 목적을 달성하기까지 보상 (reward)을 가장 크게 받는 방식으로 행동할 것이 라고 가정했다. 이 같은 가정을 바탕으로, 폐쇄된 공간에서 에이전트가 이동할 경로를 예측하는 효율적인 방법을 제시하고자 한다.
셋째, 앞서 설명한 기존 확률론적 기반 연구에서는 최적 정책을 구해 목적지에 도달하는 경로만 보여주었으나, 본 연구에서는 최적 정책 뿐 아니라 일정시간 이후에 에이전트가 각각의 상태에 존재할 확률도 함께 제시했다. 특히, 확률을 도출하는 과정에서 매트릭스(matrix)의 특성을 이용해 복잡한 계산을 손쉽게 처리할 수 있는 방법도 함께 제시했다. 넷째, 지형 정보체계(GIS; Geographic Information System)로터 추출한 정량적인 값으로 보상 구조(reward structure)를 구성해 객관성을 높였다.

가설 설정

P(s′normal | snormal )1.5%로 가정했다.
P(s′normal | snormal ) 은 최적 정책으로 선택된 방향으로 이동할 확률을 75%, 나머지 5방향으로 이동할 확률을 5%라고 가정한다.
가정 1：탐색자로부터 추적을 당하고 있는 에이전트는 최초 봉쇄구역의 중앙에 위치하며, 봉쇄구역을 탈출하는 것을 목표로 한다. 이를 위해 일정한 속도로 쉬지 않고 움직인다.
가정 2：봉쇄선은 사람이나 장비가 지키고 있으므로 에이전트가 쉽게 탈출할 수 없다. 단, 탈출 가능성이 낮지만 탈출이 불가능한 것은 아니다.
가정 3：에이전트는 이동하는 과정에서 노출을 줄이고, 체력을 비축할 수 있으며, 평소에 경험하거나 훈련받은 지형을 선택해서 움직인다.
가정 4：에이전트는 이동 과정에서 자신이 선택한 지역으로 100% 이동할 수는 없다(체력 고갈, 방위 장비 고장, 탐색자 사전 선점 등이 원인).
본 연구에서 에이전트는 고도로 훈련받은 요원이지만 탐색자에게 포위된 불리한 상황임을 가정, 가장 미흡한 부대의 방향 유지율 수준을 적용했다. 또한, 에이전트가 원하는 방향으로 이동하지 못했을 경우, 나머지 방향으로의 이동 확률을 동일하게 적용해 불확실성을 높임으로써 탐색자 입장에서 가장 보수적인 상황을 가정했다. [그림 2]에서 s₀에 있는 에이전트가 최적 정책으로 α₁을 선택했다면, 다음 스텝에서 에이전트가 s₁에 있을 확률이 75%, s₂～s₆ 에 있을 확률이 각각 5%가 된다.
○○○ 부대 데이터에 따르면 방향 유지가 우수한 침투부대가 목표 지역으로 정확히 이동할 확률은 약 90%였 으며, 상대적으로 훈련이 미흡한 침투부대의 경우, 약 73%의 방향 유지율을 보였다. 본 연구에서 에이전트는 고도로 훈련받은 요원이지만 탐색자에게 포위된 불리한 상황임을 가정, 가장 미흡한 부대의 방향 유지율 수준을 적용했다. 또한, 에이전트가 원하는 방향으로 이동하지 못했을 경우, 나머지 방향으로의 이동 확률을 동일하게 적용해 불확실성을 높임으로써 탐색자 입장에서 가장 보수적인 상황을 가정했다.
첫째, 에이전트가 최적 정책을 선택했을 때의 이동 확률을 동적으로 부여하는 문제이다. 본 연구에서는 시간의 흐름에 관계없이 최적 정책 선택 방향으로 75%의 확률로 이동한다고 가정했다. 하지만 이 확률은 시간에 따라 변할 가능성도 존재한다.
본 연구에서는 이처럼 계획적으로 행동하는 에이전트의 움직임을 예측하기 위해, 에이전트의 행동을 랜덤하게 보지 않고, 목적을 달성하기까지 보상 (reward)을 가장 크게 받는 방식으로 행동할 것이 라고 가정했다. 이 같은 가정을 바탕으로, 폐쇄된 공간에서 에이전트가 이동할 경로를 예측하는 효율적인 방법을 제시하고자 한다.
1절에서 정의한 문제에 대해 MDP 기반 모델링을 한다. 연속적인 공간에서 에이전트의 이동이 가능한 공간은 무한대이므로 문제를 단순화하기 위해서 본 연구에서는 연구 대상 지역이 [그림 2]과 같이 육각형의 셀들로 이루어져 있으며 에이전트는 셀 중심에서 셀 중심으로 이동한다고 가정한다. 예를 들어, [그림 2]은 총 36개의 셀들로 구성된 지역을 나타내며, 굵은 실선은 봉쇄선을 의미한다.
이를 위해서는 현 시점에서 에이전트가 존재할 확률이 높은 지역을 예측해야 하며, 일정시간 동안 에이전트를 잡지 못했다면 봉쇄구역을 더 확장 시켜야 할지 여부를 결정해야한다. 요컨대, 본 연구는 에이전트 입장에서 가장 탈출하기 용이한 경로 ㆍ지역이 어디인지 예측하는 모델이며, 연구에서 사용된 가정은 아래와 같다.
우선, 보통상태에서의 보상은 은닉 요인, 체력 요인, 전술 요인을 기준으로 결정된다고 가정하며, 각 요인은 에이전트의 선택에 있어 복합적으로 작용하는 정량적인 값이다.
만약 시간에 따른 봉쇄선 통과 확률을 더 줄이려면 봉쇄선을 지금보다 더 강력하게 구축해야 한다. 즉, 더 많은 인원과 장비를 투입해 봉쇄선을 구축한다면 각 상태에서 에이전트가 봉쇄선을 통과할 확률은 지금보다 낮아질 것이며, 시간의 흐름에 따른 에이전트의 봉쇄구역 탈출 확률도 그만큼 줄어들 것이다. 다만 이 경우에는 더 많은 비용이 소요된다.

제안 방법

즉, 에이전트의 궁극적 목적은 어떤 방향으로든 폐쇄된 공간을 벗어나는 것이다. 둘째, 다른 상태로 이동할 수 있는 방향에 대해 특정 셀이나 동ㆍ서ㆍ남ㆍ북 4방향이 아닌 6방향을 기본으로 했다. 이를 통해 현실 설명력을 높였을 뿐 아니라, 일정 시간이 지난 이후에 에이전트의 위치 파악을 용이하도록 했다.
특히, 기존 모델에 비해 이동 방향이 다양하고, 한 지점에서 출발해 여러 개의 목적지 중 어느 곳으로든 도착할 수 있는 새로운 형태의 모델이라는 점에서 의의가 있다. 또한, 매 스텝별 각 상태에서 에이전트가 존재할 확률을 도출함에 있어, 매트릭스의 특성을 이용한 방법을 새롭게 제시했다. 또한 모델을 현실에 적용해 본 결과, 상당히 높은 예측력을 가지는 것으로 확인되었다.
본 장에서는 제 2.1절에서 정의한 문제에 대해 MDP 기반 모델링을 한다. 연속적인 공간에서 에이전트의 이동이 가능한 공간은 무한대이므로 문제를 단순화하기 위해서 본 연구에서는 연구 대상 지역이 [그림 2]과 같이 육각형의 셀들로 이루어져 있으며 에이전트는 셀 중심에서 셀 중심으로 이동한다고 가정한다.
이를 통해 현실 설명력을 높였을 뿐 아니라, 일정 시간이 지난 이후에 에이전트의 위치 파악을 용이하도록 했다. 셋째, 앞서 설명한 기존 확률론적 기반 연구에서는 최적 정책을 구해 목적지에 도달하는 경로만 보여주었으나, 본 연구에서는 최적 정책 뿐 아니라 일정시간 이후에 에이전트가 각각의 상태에 존재할 확률도 함께 제시했다. 특히, 확률을 도출하는 과정에서 매트릭스(matrix)의 특성을 이용해 복잡한 계산을 손쉽게 처리할 수 있는 방법도 함께 제시했다.
둘째, 다른 상태로 이동할 수 있는 방향에 대해 특정 셀이나 동ㆍ서ㆍ남ㆍ북 4방향이 아닌 6방향을 기본으로 했다. 이를 통해 현실 설명력을 높였을 뿐 아니라, 일정 시간이 지난 이후에 에이전트의 위치 파악을 용이하도록 했다. 셋째, 앞서 설명한 기존 확률론적 기반 연구에서는 최적 정책을 구해 목적지에 도달하는 경로만 보여주었으나, 본 연구에서는 최적 정책 뿐 아니라 일정시간 이후에 에이전트가 각각의 상태에 존재할 확률도 함께 제시했다.
본 논문에서는 도망자인 에이전트가 봉쇄구역에서 벗어나기 위해 의사결정을 내리는 과정을 MDP를 이용해 모델링했다. 특히, GIS로부터 추출한 데이터를 이용해 보상 구조를 구성함으로써 객관성을 높였다. 특히, 기존 모델에 비해 이동 방향이 다양하고, 한 지점에서 출발해 여러 개의 목적지 중 어느 곳으로든 도착할 수 있는 새로운 형태의 모델이라는 점에서 의의가 있다.
한편, 목적상태의 보상값 설정 방식에 대해서는 기존에 연구된 바가 없으므로 본 연구에서는 목적상태의 보상값을 10, 20, 30, …으로 증가시키면서 실험을 진행했다.
POMDP는 기본적으로 MDP의 논리를 근간으로 하지만, 에이전트의 시야가 자신의 주변(관찰이 가능한 상태의 집합)으로 한정되어 있고 자신의 현 위치를 알지 못한다는 것을 전제로 하기 때문에 연산 과정이 MDP보다 다소 복잡하다. 해당 논문에서는 무인기가 가지는 보상에 대해 대공 미사일에 의한 격추(-), 목표물 정찰 성공(+), 임무를 완수하지 못할 경우 매시간당 보상 삭감(-) 등을 구조화함으로써 효과적인 임무 경로를 제시했다.
결정론적 방법의 최적 경로에 관한 연구로는 방수남의 연구가 있다[3]. 해당 연구에서는 지형정보(GIS)를 바탕으로 열상 감시장비의 탐지율을 추출, A * , Dijkstra 알고리즘을 사용해 탐지율이 낮은 지역을 연결하고 이를 에이전트의 이동 경로로 제시했다.

대상 데이터

본 사례에 모델을 적용하기 위해 ❶과 ❷지역 상태의 개수를 각각 1,801개로 분할했다. 보통상태 1,657개, 목적상태 144개로 구성되며, 전체 봉쇄구역의 넓이는 478,334.
(s_normal , s′_normal∈ s_normal , s_object ∈ s_object, s_normal ≠s′_normal) P(s′_normal | s_normal ) 은 최적 정책으로 선택된 방향으로 이동할 확률을 75%, 나머지 5방향으로 이동할 확률을 5%라고 가정한다. 에이전트가 최적 정책으로 선택한 지역으로 이동할 확률을 정하기 위해, 이와 유사한 군사훈련에서 데이터를 참고하였다. ○○○ 부대 데이터에 따르면 방향 유지가 우수한 침투부대가 목표 지역으로 정확히 이동할 확률은 약 90%였 으며, 상대적으로 훈련이 미흡한 침투부대의 경우, 약 73%의 방향 유지율을 보였다.
여기서 유효성이란, 현실에서 동일한 상황에 놓여있는 에이전트가 취하는 행동을 모델이 얼마나 잘 예측할 수 있는가를 의미한다. 이에 1996년 강릉 무장공비침투사건 당시 실제 무장공비들이 이동한 경로 2곳을 바탕으로 모델의 예측력을 검증하였으며, 그 위치는 [그림 4]과 같다.

이론/모형

이동 경로(최적 경로)를 결정하는 방법에는 결정론적(deterministic)인 방법과 확률론적(stochastic)인 방법이 있는데, 본 연구에서는 확률론적 방법인 마코프 의사결정 프로세스(MDP; Markov Decision Process)를 활용, SSP(Stochastic Shortest Path) 관점으로 문제에 접근했다.
본 모델에서 구현하고자 하는 목표는 2가지로, 각 상태에서 에이전트가 어떤 방향으로 이동할지 선택하는데 필요한 최적 정책(π)과 특정 시점 이후에 각 상태에서 에이전트가 존재할 확률을 도출하는 것이다. 최적 정책은 위에서 제시한 MDP 요소를 바탕으로 Bellman 부등식을 이용해 가치반복법으로 도출했다. 한편, 각 상태에서 에이전트가 존재할 확률은 아래와 같이 도출했는데, 최적 정책이 정해지면 이를 매트릭스의 특성을 활용해 구하는 방법을 아래와 같이 제시한다.

성능/효과

마찬가지로 23 스텝 이후 에이전트가 존재할 확률이 높은 상태를 음영으로 표시했다. 결과에서 알 수 있듯이 본 모델을 실제 무장공비의 이동 경로에 적용해 본 결과, 특정 시간 이후에 에이전트가 존재할 확률이 높은 지역과 무장공비의 실제 이동 경로가 거의 일치하는 것을 볼 수 있다. ❷지역을 기준으로 시간의 흐름에 따라 에이전트가 봉쇄선을 통과, 봉쇄구역을 벗어났을 확률은 [그림 7]와 같다.
결과적으로 본 모델은 실제 무장공비의 이동경로를 통해 그 예측력과 효과를 입증하였다. 에이전트가 합리적인 의사결정자라면, 이 같은 결과가 나타나는 것은 어찌 보면 당연하다.
특히, 확률을 도출하는 과정에서 매트릭스(matrix)의 특성을 이용해 복잡한 계산을 손쉽게 처리할 수 있는 방법도 함께 제시했다. 넷째, 지형 정보체계(GIS; Geographic Information System)로터 추출한 정량적인 값으로 보상 구조(reward structure)를 구성해 객관성을 높였다.
또한, 매 스텝별 각 상태에서 에이전트가 존재할 확률을 도출함에 있어, 매트릭스의 특성을 이용한 방법을 새롭게 제시했다. 또한 모델을 현실에 적용해 본 결과, 상당히 높은 예측력을 가지는 것으로 확인되었다. 모델의 유효성을 검증하기 위해 1996년 강릉 무장공비침투사건 당시 이동 경로를 대상으로 했지만, 비단 이같은 문제 뿐 아니라 범죄자(탈영병) 추적, 북한 잠수정 및 항공기 침투 경로 예측, 포위된 적군의 이동로 예측 등 군사 분야는 물론, 교통신호 알고리즘, 물류 이동 등 다양한 분야에 광범위하게 활용될 수 있을 것으로 기대된다.
의사결정자는 본 모델을 통해 봉쇄구역 유지, 확대 여부 뿐 아니라 탐색자 투입 지역과 관련해서도 효과적인 정보를 얻을 수 있다. 즉, 처음으로 무장공비가 목격(신고)된 시점으로부터 지금까지 얼마만큼의 시간이 흘렀다면, 현 시점에서 부장공비를 잡기 위해 어느 곳에 병력을 투입해야 할 것인지 쉽게 판단할 수 있다.

후속연구

그 이후에는 최적 정책이 재수정될 소지가 있다. 만약, 탐색자 존재 여부에 따라 보상이 변화될 수 있도록 모델링한다면, 좀 더 복합적이고 다양한 상황을 묘사할 수 있을 것이다.
또한 모델을 현실에 적용해 본 결과, 상당히 높은 예측력을 가지는 것으로 확인되었다. 모델의 유효성을 검증하기 위해 1996년 강릉 무장공비침투사건 당시 이동 경로를 대상으로 했지만, 비단 이같은 문제 뿐 아니라 범죄자(탈영병) 추적, 북한 잠수정 및 항공기 침투 경로 예측, 포위된 적군의 이동로 예측 등 군사 분야는 물론, 교통신호 알고리즘, 물류 이동 등 다양한 분야에 광범위하게 활용될 수 있을 것으로 기대된다.
둘째, 보상이 동적으로 부여되는 상황에 대한 연구이다. 에이전트가 은닉해서 이동하던 중 어떤 상태에 탐색자가 있는 지를 관찰(확인)했다면, 그 상황에서 다시 가치반복법을 시행해서 각 상태의 효용을 재산출 할 것이다. 그 이후에는 최적 정책이 재수정될 소지가 있다.

핵심어	질문	논문에서 추출한 답변
	MDP 모델링에서 상태란 무엇인가?	상태(state)는 봉쇄선을 기준으로 안쪽을 보통상태 (normal state), 바깥쪽을 목적상태(object state)라고 정의하며, Snormal 은 보통상태의 집합을, Sobject 는 목적상태의 집합을 나타낸다.
	에이전트 입장에서 가장 탈출하기 용이한 경로 ㆍ지역이 어디인지 예측하는 모델에 대한 가정은 무엇인가?	가정 1：탐색자로부터 추적을 당하고 있는 에이전트는 최초 봉쇄구역의 중앙에 위치하며, 봉쇄구역을 탈출하는 것을 목표로 한다. 이를 위해 일정한 속도로 쉬지 않고 움직인다. 가정 2：봉쇄선은 사람이나 장비가 지키고 있으므로 에이전트가 쉽게 탈출할 수 없다. 단, 탈출 가능성이 낮지만 탈출이 불가능한 것은 아니다. 가정 3：에이전트는 이동하는 과정에서 노출을 줄이고, 체력을 비축할 수 있으며, 평소에 경험하거나 훈련받은 지형을 선택해서 움직인다. 가정 4：에이전트는 이동 과정에서 자신이 선택한 지역으로 100% 이동할 수는 없다(체력 고갈, 방위 장비 고장, 탐색자 사전 선점 등이 원인).
	POMDP가 MDP 보다 계산 과정이 다소 복잡한 이유는 무엇인가?	국내에서는 마코프 의사결정 프로세스 기반의 문제와 관련, 무인기의 임무 할당 및 정찰 경로 선택에 POMDP(Partially Observable MDP)가 적용된 연구가 있다[1]. POMDP는 기본적으로 MDP의 논리를 근간으로 하지만, 에이전트의 시야가 자신의 주변(관찰이 가능한 상태의 집합)으로 한정되어 있고 자신의 현 위치를 알지 못한다는 것을 전제로 하기 때문에 연산 과정이 MDP보다 다소 복잡하다. 해당 논문에서는 무인기가 가지는 보상에 대해 대공 미사일에 의한 격추(-), 목표물 정찰 성공(+), 임무를 완수하지 못할 경우 매시간당 보상 삭감(-) 등을 구조화함으로써 효과적인 임무 경로를 제시했다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모델
MDP Modeling for the Prediction of Agent Movement in Limited Space 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모델 MDP Modeling for the Prediction of Agent Movement in Limited Space 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

김수환 (11) 이문걸 (13)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

폐쇄공간에서의 에이전트 행동 예측을 위한 MDP 모델
MDP Modeling for the Prediction of Agent Movement in Limited Space 원문보기

AI 본문요약
AI-Helper