최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국시뮬레이션학회논문지 = Journal of the Korea Society for Simulation, v.29 no.1, 2020년, pp.39 - 46
문일철 , 정민재 (티맥스 소프트) , 김동준 (KAIST 산업및시스템공학과)
The utilization of artificial intelligence (AI) in the engagement has been a key research topic in the defense field during the last decade. To pursue this utilization, it is imperative to acquire a realistic simulation to train an AI engagement agent with a synthetic, but realistic field. This pape...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
Critic 네트워크의 특징은 무엇인가? | Actor 네트워크는 입력을 상태로 가지고 출력을 행동 선택지로 가진다. Critic 네트워크는 입력을 상태와 행동의 조합으로 가지며 출력을 그에 따른 Q함수 값을 가진다. Actor는 결정론적인 정책을 사용하기 때문에 학습 과정에서는 소음을 주어 다양한 행동을 취할 수 있도록 한다. | |
기총 기반 공중전의 핵심 행동은? | 기본적으로 기총 기반 공중전의 핵심은 교전 기하(Engagement Geometry)로 연구되는 “꼬리잡기 기동”이 핵심 행동이 된다. 그에 따라 상태 정보의 모든 변수는 피아간 기동 정보를 나타내는데 집중하였다. | |
시뮬레이션과 통신하는 강화학습 모델이 구체적으로 수행한 것은 무엇인가? | 이후, 시뮬레이션과 통신하는 강화학습 모델을 구현하였다. 구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다. 학습을 통해 좋은 성능의 AI 에이전트를 학습할 수 있음을 볼 수 있었다. |
이동진, & 방효충. (2009). 강화학습을 이용한 무인전투기(UCAV) 근접 공중전. 한국항공우주학회 학술발표회초록집, 249-252.
박현주, 이병윤, 유동완, & 탁민제. (2015). Scoring Function Matrix를 활용한 전투기 3 차원 공중전 기동 생성. 한국항공우주학회 학술발표회 초록집, 442-445.
Breton, R., & Rousseau, R. (2005, June). The C-OODA: A cognitive version of the OODA loop to represent C2 activities. In Proceedings of the 10th International Command and Control Research Technology Symposium.
Ernest, N., Carroll, D., Schumacher, C., Clark, M., Cohen, K., & Lee, G. (2016). Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions. J Def Manag, 6(144), 2167-0374.
Toghiani-Rizi, B., Kamrani, F., Luotsinen, L. J., & Gisslen, L. (2017, October). Evaluating deep reinforcement learning for computer generated forces in ground combat simulation. In Systems, Man, and Cybernetics (SMC), 2017 IEEE International Conference on (pp. 3433-3438). IEEE.
Sutton, R. S., & Barto, A. G. (1998). Introduction to reinforcement learning (Vol. 135). Cambridge: MIT press.
Shaw, R. L. (1985). Fighter Combat. Naval Institute Press.
Ng, A. Y., Harada, D., & Russell, S. (1999, June). Policy invariance under reward transformations: Theory and application to reward shaping. In ICML (Vol. 99, pp. 278-287).
Sutton R. S., McAllester D., Singh S., Mansour Y. (2000) Policy Gradient Methods for Reinforcement Learning with Function. In NIPS.
Silver, D., Lever G., Heess N., Degris T., Wierstra D., Riedmiller M. (2014). Deterministic Policy Gradient Algorithms. In ICML (JMLR: W&CP volume 32.).
Lillicrap T. P., Hunt J. J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D. & Wierstra D. (2016) Continuous Control with Deep Reinforcement Learning. In ICLR.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.