[학위논문]Achieving Goal-directed Cognitive Tasks by Coordinating Visual Attention, Recognition and Action : 선택적 시각 주의집중 기반 점진적 객체 인식 및 적응적 행위 생성 모델 개발원문보기
인간은 선택적 주의집중 메커니즘을 통해 관심 있는 시각정보를 선택적으로 추출하고, 이를 통해 인간의 적응적 행위를 이끌어 낼 수 있다. 인간의 선택적 시각 주의집중은 빛의 밝기, 윤곽선, 색상, 거리 등 시각 자극에 의한 상향식 주의집중 메커니즘과 기존에 학습한 다양한 지식들을 통해 친숙한 정보에 대한 하향식 주의집중 메커니즘의 융합을 통해 이루어진다. 본 논문에서는 이와 같은 인간의 선택적 시각 주의집중의 메커니즘을 이해하고 이를 기반으로 인간과 유사한 점진적 ...
인간은 선택적 주의집중 메커니즘을 통해 관심 있는 시각정보를 선택적으로 추출하고, 이를 통해 인간의 적응적 행위를 이끌어 낼 수 있다. 인간의 선택적 시각 주의집중은 빛의 밝기, 윤곽선, 색상, 거리 등 시각 자극에 의한 상향식 주의집중 메커니즘과 기존에 학습한 다양한 지식들을 통해 친숙한 정보에 대한 하향식 주의집중 메커니즘의 융합을 통해 이루어진다. 본 논문에서는 이와 같은 인간의 선택적 시각 주의집중의 메커니즘을 이해하고 이를 기반으로 인간과 유사한 점진적 객체 인식 및 적응적 행위 생성 모델을 제안하였다. 예를 들어, 다중 객체를 선택적으로 선택 및 조작하여 객체들의 위치를 변화시키는 인지 행동과제가 주어졌을 경우, 첫째로, 다중 객체들 중 원하는 객체를 선택적으로 찾을 수 있는 선택적 시각 주의집중 메커니즘이 필요하다. 둘째로, 주어진 인지 행동과제에 포함된 객체의 점진적 인지를 위한 객체 인지 메커니즘이 필요하다. 마지막으로, 선택적으로 주의집중 된 객체가 인지되었을 경우 이를 효과적으로 조작하기 위한 근육의 운동신호를 만들 수 있는 적응적 행위 생성 메커니즘이 필요하다. 이러한 일련의 과정들은 행동-지각 순환학습에 의해 지속적으로 순환하며 원하는 목표를 달성하도록 생성된다. 따라서, 본 논문에서는 인간의 시각처리 메커니즘을 이해하고 이를 바탕으로 새로운 형태의 선택적 시각 주의집중 모델을 제안하며, 시각 주의집중 및 인지, 행동의 행동-지각 순환학습을 모방하여 적응적으로 환경에 대해 학습할 수 있는 알고리즘을 제안하였다. 시각적 주의집중 모델은 기존 모델에 비해 양안 기반의 다양한 시각 특징과 정적/동적 해석 및 상/하향식 접근법의 통합을 통해 인간과 유사한 시각 주의집중 메커니즘을 가질 수 있도록 제안하였으며, 또한, 인공지능분야에서 널리 사용된 독립성분분석 (ICA) 알고리즘을 적용해 인간의 눈에서 나타나는 중복 시각 자극들의 제거를 모방하였으며, 기존 모델과의 비교를 통해 우수성을 나타냈다. 점진적 객체 인지 알고리즘은 환경변화 및 객체의 변화에 강건하기 위해 객체 표현을 위한 기저벡터를 점진적으로 학습할 수 있도록 하였으며, 이를 통해 인간의 시각처리 메커니즘과 같이 새로운 객체에 대해서 효과적으로 표현 및 인지가 가능하도록 제안하였다. 객체 표현을 위한 기저벡터를 추출하기 위해 인간의 시각처리 메커니즘과 유사한 Hierarchical MAX 알고리즘을 사용했으며 Grows When Required (GWR) 인공신경망 모델을 이용하여 기저벡터의 점진적 학습이 가능하도록 하였다. 더욱이, 점진적으로 학습된 기저벡터와 현재 입력으로 들어온 객체의 특징과의 효과적인 표현이 가능하도록 범용적인 구조를 제안하였다. 점진적인 기저벡터의 학습을 통해 기저벡터의 수가 달라지는 것을 보완하기 위해 Hierarchical Generative Model을 제안하였으며, 기존 인식기가 수용할 수 없었던 기저벡터 수 변화를 모두 수용할 수 있도록 새로운 형태의 인식기를 구현하였다. 객체의 검출 및 인지를 기반으로 효과적인 행위생성을 위해 Premotor theory를 기반으로 Multiple Timescales Recurrent Neural Networks (MTRNN) 동적 인공신경망을 이용하여 객체 검출을 위한 인간의 시선 및 행위생성이 가능하도록 구현하였다. Premotor theory는 인간의 시선 (선택적 주의 집중) 및 행위를 위한 근육 운동신호가 주어진 인지 행위과제 해결을 위해 인간의 두뇌에서 동시에 발현한다는 것을 나타낸다. 따라서, Premotor theory에 근거하여 동적 인공신경망의 입력 및 출력을 구성하였으며, 실제 휴머노이드 로봇을 통해 제안한 모델의 성능을 검증하였다. 제안한 모델은 학습한 행위뿐만 아니라, 학습하지 않은 행위들에 대해서 로봇의 시선 경로 및 근육의 운동신호를 실시간으로 생성할 수 있었으며, 또한, 기 학습된 다양한 행동들의 적응적 조합을 통해 학습하지 않은 행동들에 대해 능동적으로 대처할 수 있는 일반화 성능 또한 나타내었다. 개발 모델은 인간의 시각정보처리 메커니즘의 이해를 기반으로 공학뿐만 아니라 생물학, 인지심리학 등 다양한 학문과의 학제적 융합 연구를 반영하여 제안 되었다. 이러한 다학제적 융합 연구는 현재 인공지능 시스템이 가지고 있는 많은 한계점을 극복하고 보다 인간과 유사한 인공지능 시스템을 구성하기 위한 초석이 될 수 있을 것으로 기대된다. 시각적 주의집중 알고리즘은 카메라 기반의 보안, 사용자 인증, 환경 변화 감지 등 다양한 분야에 적용될 수 있으며, 대용량 신호처리가 일반화되고 있는 요즘 동영상의 특이점 검출, 압축, 워터마크 검출 등의 전처리 알고리즘으로 사용되어 연산량의 감소 및 효율성을 극대화 시킬 수 있을 것으로 기대된다. 점진적 객체 인식 알고리즘은 스마트폰과 같이 개개인의 삶에 따라 획득한 다양한 데이터를 개인별로 학습하고 서비스를 개인화시킬 수 있는 인공 시각시스템의 핵심 인식 알고리즘으로 적용 가능하며, 환경변화에 따라 점진적으로 적응 및 학습이 가능하므로, 효율적인 연산 및 인식성능을 나타낼 수 있어 임베디드 기기 등에 사용될 수 있을 것으로 기대된다. 행동생성 알고리즘은 기하급수적으로 늘어나는 상업로봇들을 효과적으로 제어할 수 있고 각 개인이 원하는 행동을 학습시킬 수 있어 개인화된 로봇 서비스 구현에 도움을 줄 것으로 기대된다. 최근 다양한 디지털 제품들의 SMART 열풍이 크게 일어나고 있는 가운데, 제안된 세 가지 시각처리 메커니즘 기반의 인지모델은 다양한 응용분야에서 핵심 기술로 사용되거나 현재의 인공지능 기술이 가진 한계점을 극복할 수 있는 새로운 접근법을 야기할 수 있을 것으로 기대된다. 최종적으로, 아직까지 완벽히 이해할 수 없는 인간의 두뇌정보처리 메커니즘을 보다 다양한 학제적 접근법을 통한 이해를 기반으로 인공지능 시스템에 효과적으로 적용하여 보다 인간과 유사한 인공지능 로봇 개발이 가능할 것으로 기대된다.
인간은 선택적 주의집중 메커니즘을 통해 관심 있는 시각정보를 선택적으로 추출하고, 이를 통해 인간의 적응적 행위를 이끌어 낼 수 있다. 인간의 선택적 시각 주의집중은 빛의 밝기, 윤곽선, 색상, 거리 등 시각 자극에 의한 상향식 주의집중 메커니즘과 기존에 학습한 다양한 지식들을 통해 친숙한 정보에 대한 하향식 주의집중 메커니즘의 융합을 통해 이루어진다. 본 논문에서는 이와 같은 인간의 선택적 시각 주의집중의 메커니즘을 이해하고 이를 기반으로 인간과 유사한 점진적 객체 인식 및 적응적 행위 생성 모델을 제안하였다. 예를 들어, 다중 객체를 선택적으로 선택 및 조작하여 객체들의 위치를 변화시키는 인지 행동과제가 주어졌을 경우, 첫째로, 다중 객체들 중 원하는 객체를 선택적으로 찾을 수 있는 선택적 시각 주의집중 메커니즘이 필요하다. 둘째로, 주어진 인지 행동과제에 포함된 객체의 점진적 인지를 위한 객체 인지 메커니즘이 필요하다. 마지막으로, 선택적으로 주의집중 된 객체가 인지되었을 경우 이를 효과적으로 조작하기 위한 근육의 운동신호를 만들 수 있는 적응적 행위 생성 메커니즘이 필요하다. 이러한 일련의 과정들은 행동-지각 순환학습에 의해 지속적으로 순환하며 원하는 목표를 달성하도록 생성된다. 따라서, 본 논문에서는 인간의 시각처리 메커니즘을 이해하고 이를 바탕으로 새로운 형태의 선택적 시각 주의집중 모델을 제안하며, 시각 주의집중 및 인지, 행동의 행동-지각 순환학습을 모방하여 적응적으로 환경에 대해 학습할 수 있는 알고리즘을 제안하였다. 시각적 주의집중 모델은 기존 모델에 비해 양안 기반의 다양한 시각 특징과 정적/동적 해석 및 상/하향식 접근법의 통합을 통해 인간과 유사한 시각 주의집중 메커니즘을 가질 수 있도록 제안하였으며, 또한, 인공지능분야에서 널리 사용된 독립성분분석 (ICA) 알고리즘을 적용해 인간의 눈에서 나타나는 중복 시각 자극들의 제거를 모방하였으며, 기존 모델과의 비교를 통해 우수성을 나타냈다. 점진적 객체 인지 알고리즘은 환경변화 및 객체의 변화에 강건하기 위해 객체 표현을 위한 기저벡터를 점진적으로 학습할 수 있도록 하였으며, 이를 통해 인간의 시각처리 메커니즘과 같이 새로운 객체에 대해서 효과적으로 표현 및 인지가 가능하도록 제안하였다. 객체 표현을 위한 기저벡터를 추출하기 위해 인간의 시각처리 메커니즘과 유사한 Hierarchical MAX 알고리즘을 사용했으며 Grows When Required (GWR) 인공신경망 모델을 이용하여 기저벡터의 점진적 학습이 가능하도록 하였다. 더욱이, 점진적으로 학습된 기저벡터와 현재 입력으로 들어온 객체의 특징과의 효과적인 표현이 가능하도록 범용적인 구조를 제안하였다. 점진적인 기저벡터의 학습을 통해 기저벡터의 수가 달라지는 것을 보완하기 위해 Hierarchical Generative Model을 제안하였으며, 기존 인식기가 수용할 수 없었던 기저벡터 수 변화를 모두 수용할 수 있도록 새로운 형태의 인식기를 구현하였다. 객체의 검출 및 인지를 기반으로 효과적인 행위생성을 위해 Premotor theory를 기반으로 Multiple Timescales Recurrent Neural Networks (MTRNN) 동적 인공신경망을 이용하여 객체 검출을 위한 인간의 시선 및 행위생성이 가능하도록 구현하였다. Premotor theory는 인간의 시선 (선택적 주의 집중) 및 행위를 위한 근육 운동신호가 주어진 인지 행위과제 해결을 위해 인간의 두뇌에서 동시에 발현한다는 것을 나타낸다. 따라서, Premotor theory에 근거하여 동적 인공신경망의 입력 및 출력을 구성하였으며, 실제 휴머노이드 로봇을 통해 제안한 모델의 성능을 검증하였다. 제안한 모델은 학습한 행위뿐만 아니라, 학습하지 않은 행위들에 대해서 로봇의 시선 경로 및 근육의 운동신호를 실시간으로 생성할 수 있었으며, 또한, 기 학습된 다양한 행동들의 적응적 조합을 통해 학습하지 않은 행동들에 대해 능동적으로 대처할 수 있는 일반화 성능 또한 나타내었다. 개발 모델은 인간의 시각정보처리 메커니즘의 이해를 기반으로 공학뿐만 아니라 생물학, 인지심리학 등 다양한 학문과의 학제적 융합 연구를 반영하여 제안 되었다. 이러한 다학제적 융합 연구는 현재 인공지능 시스템이 가지고 있는 많은 한계점을 극복하고 보다 인간과 유사한 인공지능 시스템을 구성하기 위한 초석이 될 수 있을 것으로 기대된다. 시각적 주의집중 알고리즘은 카메라 기반의 보안, 사용자 인증, 환경 변화 감지 등 다양한 분야에 적용될 수 있으며, 대용량 신호처리가 일반화되고 있는 요즘 동영상의 특이점 검출, 압축, 워터마크 검출 등의 전처리 알고리즘으로 사용되어 연산량의 감소 및 효율성을 극대화 시킬 수 있을 것으로 기대된다. 점진적 객체 인식 알고리즘은 스마트폰과 같이 개개인의 삶에 따라 획득한 다양한 데이터를 개인별로 학습하고 서비스를 개인화시킬 수 있는 인공 시각시스템의 핵심 인식 알고리즘으로 적용 가능하며, 환경변화에 따라 점진적으로 적응 및 학습이 가능하므로, 효율적인 연산 및 인식성능을 나타낼 수 있어 임베디드 기기 등에 사용될 수 있을 것으로 기대된다. 행동생성 알고리즘은 기하급수적으로 늘어나는 상업로봇들을 효과적으로 제어할 수 있고 각 개인이 원하는 행동을 학습시킬 수 있어 개인화된 로봇 서비스 구현에 도움을 줄 것으로 기대된다. 최근 다양한 디지털 제품들의 SMART 열풍이 크게 일어나고 있는 가운데, 제안된 세 가지 시각처리 메커니즘 기반의 인지모델은 다양한 응용분야에서 핵심 기술로 사용되거나 현재의 인공지능 기술이 가진 한계점을 극복할 수 있는 새로운 접근법을 야기할 수 있을 것으로 기대된다. 최종적으로, 아직까지 완벽히 이해할 수 없는 인간의 두뇌정보처리 메커니즘을 보다 다양한 학제적 접근법을 통한 이해를 기반으로 인공지능 시스템에 효과적으로 적용하여 보다 인간과 유사한 인공지능 로봇 개발이 가능할 것으로 기대된다.
To achieve visually-guided actions for multiple object manipulation requires proactive sequential visual attention shifts and visual recognition synchronized with adequate accompanying hand movements. The selective visual attention model continuously catches the visual environment, which contains mu...
To achieve visually-guided actions for multiple object manipulation requires proactive sequential visual attention shifts and visual recognition synchronized with adequate accompanying hand movements. The selective visual attention model continuously catches the visual environment, which contains multiple objects, in order to perceive the current relationship between a human and the environment. By sequentially perceiving the characteristics and localization of target objects, human beings can easily generate a suitable behavior according to a given task. Behavior causes changes in the environment, which in turn lead to different visual perception results, and this cycle continues until the goal-directed cognitive tasks are achieved. To develop an autonomous robot system with human-like characteristics in order to achieve goal-directed cognitive tasks, new cognitive functions are proposed, including (1) selective visual attention, (2) recognition with an incremental structure, and (3) action generation by coordinating each cognitive function based on an action-perception cycle. First, a selective visual attention model is presented that uses bottom-up visual features and previously acquired top-down knowledge based on understanding the visual what and where pathway in the human brain in order to focus on a specific salient object or area. Second, an object recognition model is proposed based on incremental feature representation and a hierarchical feature classifier that offers plasticity to accommodate additional input data and reduces the problem of forgetting previously learned information. The implemented object recognition model utilizes the advantages of invariance to scale and translation changes, as well as incremental feature extraction based on the topological information of an object. Based on these two visual specific cognitive functions, goal-directed behavior generation accompanying complex sensory-motor interactions in environments involving multiple objects is studied using the action-perception cycle. To achieve a goal-oriented behavior generation task involving multiple objects, proactive shifts of visual attention from one part of the environment to another and visual recognition of each object of attention are indispensable to generate adequate motor behaviors. For adaptive behavior generation a cortical model is presented of the fronto-parietal network that accounts for integrative learning of proactive visual attention shifts with visual recognition and sensory-motor control. The model is evaluated by neuro-robotic experiments that include object manipulation tasks involving multiple objects. The experimental results show the effectiveness of the visual specific cognitive functions. The experimental results using a humanoid robot also show that a certain extent of generalization, in terms of position and object size variance, can be achieved by organizing seamless integration of visual attention with recognition and sensory-motor control in the distributed neural activities in the network model.
To achieve visually-guided actions for multiple object manipulation requires proactive sequential visual attention shifts and visual recognition synchronized with adequate accompanying hand movements. The selective visual attention model continuously catches the visual environment, which contains multiple objects, in order to perceive the current relationship between a human and the environment. By sequentially perceiving the characteristics and localization of target objects, human beings can easily generate a suitable behavior according to a given task. Behavior causes changes in the environment, which in turn lead to different visual perception results, and this cycle continues until the goal-directed cognitive tasks are achieved. To develop an autonomous robot system with human-like characteristics in order to achieve goal-directed cognitive tasks, new cognitive functions are proposed, including (1) selective visual attention, (2) recognition with an incremental structure, and (3) action generation by coordinating each cognitive function based on an action-perception cycle. First, a selective visual attention model is presented that uses bottom-up visual features and previously acquired top-down knowledge based on understanding the visual what and where pathway in the human brain in order to focus on a specific salient object or area. Second, an object recognition model is proposed based on incremental feature representation and a hierarchical feature classifier that offers plasticity to accommodate additional input data and reduces the problem of forgetting previously learned information. The implemented object recognition model utilizes the advantages of invariance to scale and translation changes, as well as incremental feature extraction based on the topological information of an object. Based on these two visual specific cognitive functions, goal-directed behavior generation accompanying complex sensory-motor interactions in environments involving multiple objects is studied using the action-perception cycle. To achieve a goal-oriented behavior generation task involving multiple objects, proactive shifts of visual attention from one part of the environment to another and visual recognition of each object of attention are indispensable to generate adequate motor behaviors. For adaptive behavior generation a cortical model is presented of the fronto-parietal network that accounts for integrative learning of proactive visual attention shifts with visual recognition and sensory-motor control. The model is evaluated by neuro-robotic experiments that include object manipulation tasks involving multiple objects. The experimental results show the effectiveness of the visual specific cognitive functions. The experimental results using a humanoid robot also show that a certain extent of generalization, in terms of position and object size variance, can be achieved by organizing seamless integration of visual attention with recognition and sensory-motor control in the distributed neural activities in the network model.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.