그동안 학습과 기억이 과거의 경험에 의해 구성된다는 측면이 강조되어왔으나, 최근의 연구들은 이들 인지과정이 미래의 보상물을 최대화하는 목표를 달성하기 위해 이루어짐을 조명하였다. 본 개관 논문은 이와 관련된 연구를 소개하고 목표지향적 학습과 기억에 대하여 논의하고자 한다. 먼저 강화 학습에서 내적 모형 기반 학습, 즉 상위 차원의 목표를 달성하기 위해 즉각적인 보상을 가져오지 않음에도 불구하고 특정한 행동을 취하는 과정이 이루어지고, 또한 직접적 강화를 받지 않은 대상으로의 일반화 및 유추가 일어나 미래의 적응적 행동을 가져옴을 보여준 연구들을 소개한다. 또한 위와 같은 목표지향적 학습 과정의 신경학적 기제를 탐색한 연구들을 개관하고, 선조체의 도파민 신호를 기반으로 한 과정이 기억 과정에 역시 영향을 미칠 수 있음을 논의한다. 특히, 기억이 과거의 경험을 모두 동일한 수준으로 부호화하고 인출하는 과정이 아니라, 상위 수준의 목표에 맞춘 의사결정과정의 결과임을 보여주는 연구들을 소개한다. 이러한 연구들은 미래에 얻게 될 보상 정보가 역향적으로 현재의 인지처리에 영향을 줄 수 있음을 시사한다.
그동안 학습과 기억이 과거의 경험에 의해 구성된다는 측면이 강조되어왔으나, 최근의 연구들은 이들 인지과정이 미래의 보상물을 최대화하는 목표를 달성하기 위해 이루어짐을 조명하였다. 본 개관 논문은 이와 관련된 연구를 소개하고 목표지향적 학습과 기억에 대하여 논의하고자 한다. 먼저 강화 학습에서 내적 모형 기반 학습, 즉 상위 차원의 목표를 달성하기 위해 즉각적인 보상을 가져오지 않음에도 불구하고 특정한 행동을 취하는 과정이 이루어지고, 또한 직접적 강화를 받지 않은 대상으로의 일반화 및 유추가 일어나 미래의 적응적 행동을 가져옴을 보여준 연구들을 소개한다. 또한 위와 같은 목표지향적 학습 과정의 신경학적 기제를 탐색한 연구들을 개관하고, 선조체의 도파민 신호를 기반으로 한 과정이 기억 과정에 역시 영향을 미칠 수 있음을 논의한다. 특히, 기억이 과거의 경험을 모두 동일한 수준으로 부호화하고 인출하는 과정이 아니라, 상위 수준의 목표에 맞춘 의사결정과정의 결과임을 보여주는 연구들을 소개한다. 이러한 연구들은 미래에 얻게 될 보상 정보가 역향적으로 현재의 인지처리에 영향을 줄 수 있음을 시사한다.
Previous research on learning and memory has focused on how they are constructed through past experiences. Recent studies, however, have shed light on that such cognitive processes are in service of higher goals of maximizing future rewards. This review paper aims to introduce and discuss a related ...
Previous research on learning and memory has focused on how they are constructed through past experiences. Recent studies, however, have shed light on that such cognitive processes are in service of higher goals of maximizing future rewards. This review paper aims to introduce and discuss a related line of research. First, this paper introduces researches that show goal-directed model-based reinforcement learning, in which agents choose a behavior that does not necessarily bring immediate rewards but will allow future rewards, based on generalization and analogical extrapolation. It also reviews studies on neural substrates of goal-directed learning, and discusses that cognitive process implicated in striatal dopaminergic signals can also influence memory. Especially, memory is not a merely passive process of storing and retrieving past experiences homogeneously, but rather results of a decision-making process to serve higher goals. The body of research suggests that information on future rewards can have influence on current cognitive processing in a retrospective manner.
Previous research on learning and memory has focused on how they are constructed through past experiences. Recent studies, however, have shed light on that such cognitive processes are in service of higher goals of maximizing future rewards. This review paper aims to introduce and discuss a related line of research. First, this paper introduces researches that show goal-directed model-based reinforcement learning, in which agents choose a behavior that does not necessarily bring immediate rewards but will allow future rewards, based on generalization and analogical extrapolation. It also reviews studies on neural substrates of goal-directed learning, and discusses that cognitive process implicated in striatal dopaminergic signals can also influence memory. Especially, memory is not a merely passive process of storing and retrieving past experiences homogeneously, but rather results of a decision-making process to serve higher goals. The body of research suggests that information on future rewards can have influence on current cognitive processing in a retrospective manner.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이를 위해, 먼저 목표지향적 행동에 대한 전통적인 관점(예, 학습이론)과 이를 설명하는 여러 강화학습모형에 대한 연구들을 소개하고, 신경영상학과 신경심리학적 연구들에서 발견한 신경기전의 특징을 논의한다. 그리고, 최근 그 중요성이 강조되고 있는 서술적 일화기억과정에 영향을 미치는 목표지향적 인지과정에 대해 논의하고자 한다.
최근 의사결정 및 기억 관련 연구에서 이와 같은 목표지향적 행동의 역할이 주목을 받고 있다. 본 논문에서는 우리의 적응적 행동에 영향을 미치는 목표지향적 인지요소들에 대한 연구들을 개관하고자 한다. 이를 위해, 먼저 목표지향적 행동에 대한 전통적인 관점(예, 학습이론)과 이를 설명하는 여러 강화학습모형에 대한 연구들을 소개하고, 신경영상학과 신경심리학적 연구들에서 발견한 신경기전의 특징을 논의한다.
아래에서는 보상-행동간 연합과정인 목표지향적 행동이 외현기억과정에도 영향을 미칠 수 있음을 보여주는 연구를 소개하고, 그 기전에 강화학습모형에서 언급했던 선조체와 도파민 작동이 관여할 수 있음을 논의하고자 한다. 더불어 목표지향적 행동이 단순 연합과정을 넘어 인간의 고위인지과정, 특히 정보의 입력-인출이라는 순향적 인지과정이 핵심인 일화기억과정에도 영향을 줄 수 있음을 논의한다.
실제 우리가 현재 수행하고 있는 행동을 결정하는 데에는 크든 작든 목표 혹은 결과물이라는 미래의 사실이 영향을 끼치게 되는데, 본 논문에서는 이와 같은 '목표지향적 행동(Goal-directed action/behavior)'에 대한 개념을 소개하고, 목표지향적 행동에 대한 전통적인 학습이론과 이후 발전된 다양한 강화학습모델에 대해 개관하였다. 이와 더불어 최근 여러 신경영상학, 신경 심리학 연구에서 발견된 신경기제를 함께 살피고, 이 기제가 인간의 고위인지과정인 일화기억과정에도 영향을 미칠 수 있음을 논의하였다.
제안 방법
실제 우리가 현재 수행하고 있는 행동을 결정하는 데에는 크든 작든 목표 혹은 결과물이라는 미래의 사실이 영향을 끼치게 되는데, 본 논문에서는 이와 같은 '목표지향적 행동(Goal-directed action/behavior)'에 대한 개념을 소개하고, 목표지향적 행동에 대한 전통적인 학습이론과 이후 발전된 다양한 강화학습모델에 대해 개관하였다.
Kumaran 등(2009)은 해마가 이와 같은 구조화 과정에 관여함을 보여주었다. 이 실험은 피드백 기반 학습을 유도하는 전통적 패러다임인 날씨 예측 과제(Weather Prediction Task, Knowlton et al., 1994)를 변형하여 카드와 특정 위치, 혹은 두 개의 카드가 복합적으로 날씨를 예측하도록 하였다. 기존의 날씨 예측 과제에서 참가자는 카드에 대한 정보가 전무한 상태에서 맑은 날 혹은 흐린 날을 예측하여 맞으면 보상을 받는 시행을 여러 회기 수행하고, 이에 따라 점차 정보를 축적하여 정답률을 향상해나가게 된다.
이러한 활성화는 잠재적으로 다음 기억인출행동을 결정하는 중요한 역할을 하는데, 최근 많은 행동 실험들에서 재인기억의 인출 과정에서 편향된 인지 피드백을 제공함으로써 사람들이 피드백에 수반된 보상정보나 목표반응정보에 민감한지, 그리고 그 결과 편향된 피드백 확률만큼 행동으로 나타나는 반응성향에도 변화가 유발되는지를 살펴보았다(Han & Dobbins, 2008; Han & Dobbins, 2009). 이 연구들에서는 기억 반응 중 특히 오반응, 즉 오경보(False alarm)와 탈루(Miss)에 대해서 선택적으로 일정 확률 이상의 편향된 피드백을 제공하였다. 보다 구체적으로 실험자들은 참가자들의 실수반응에 대해서도 긍정적인 피드백을 제공해 옳은 반응이라는 피드백을 반복해서 제공했는데, 오경보와 탈루에서 이러한 긍정피드백을 제공한 경우, 각각 '본 적 있다', '본 적 없다'의 기억반응을 더 많이 나타내는 편향된 반응 성향을 발견하였다.
본 논문에서는 우리의 적응적 행동에 영향을 미치는 목표지향적 인지요소들에 대한 연구들을 개관하고자 한다. 이를 위해, 먼저 목표지향적 행동에 대한 전통적인 관점(예, 학습이론)과 이를 설명하는 여러 강화학습모형에 대한 연구들을 소개하고, 신경영상학과 신경심리학적 연구들에서 발견한 신경기전의 특징을 논의한다. 그리고, 최근 그 중요성이 강조되고 있는 서술적 일화기억과정에 영향을 미치는 목표지향적 인지과정에 대해 논의하고자 한다.
성능/효과
둘째, 무엇보다도 우리의 일반적인 기억 과정은 오랫동안 정보처리 관점에서 순향적인 절차로 인식되어왔다. 즉, 기억정보의 처리는1) 부호화, 2) 저장, 3) 인출이라는 시간적 흐름을 반영하는 인지과정인데, 마치 컴퓨터 키보드를 통해 정보가 입력되듯이 부호화 과정은 외부 감각정보를 받아들이고 이것이 기억에 남을 경험의 시작점 역할을 한다. 컴퓨터 시스템을 이용한 비유를 즐겨하는 인지과학자들은 이렇게 입력된 감각정보들이 컴퓨터 하드드라이브와 같은 저장소에 저장된다고 비유하는데, 인간의 정보 저장과정이 컴퓨터와 다른 한 가지 특징은 단순한 정보 유지 기능뿐 아니라 의미를 부여하고, 재조직하는 과정이 일어나는 능동적인 유지과정을 거친다는 점이다.
행동이 목표지향적이라고 판단되기 위한 필수조건으로는 1) 보상과 같은 행동의 결과물이 존재하여야하고, 2) 행위의 주체가 결과물을 얻고자하는 의식 혹은 무의식적 욕구와 추동이 필요하다. 이러한 요소를 바탕으로 3) 행동 혹은 반응과 결과물의 관계가 점증적으로 학습되는 도구적 연합관계가 수반되어야 한다. 즉, 목표에 대한 인식과 욕구가 행동의 결정에 선행된다.
아래에서는 보상-행동간 연합과정인 목표지향적 행동이 외현기억과정에도 영향을 미칠 수 있음을 보여주는 연구를 소개하고, 그 기전에 강화학습모형에서 언급했던 선조체와 도파민 작동이 관여할 수 있음을 논의하고자 한다. 더불어 목표지향적 행동이 단순 연합과정을 넘어 인간의 고위인지과정, 특히 정보의 입력-인출이라는 순향적 인지과정이 핵심인 일화기억과정에도 영향을 줄 수 있음을 논의한다.
둘째, 무엇보다도 우리의 일반적인 기억 과정은 오랫동안 정보처리 관점에서 순향적인 절차로 인식되어왔다. 즉, 기억정보의 처리는1) 부호화, 2) 저장, 3) 인출이라는 시간적 흐름을 반영하는 인지과정인데, 마치 컴퓨터 키보드를 통해 정보가 입력되듯이 부호화 과정은 외부 감각정보를 받아들이고 이것이 기억에 남을 경험의 시작점 역할을 한다.
첫째, 보상영역의 활성화는 도파민 신경전달물질의 분비를 자극하여 해마 등 정보처리 영역에서의 효율적 자극 부호화를 유도한다. 둘째, 선조체 영역의 활성화는 기억인출에 따른 목표인지행동의 달성을 유도한다. 셋째, 보상정보는 반응 경향성의 변화를 유도하여 더 많은 기억인출반응을 유발한다.
이러한 일반화 과정에 역시 해마가 관여하였는데, 강화 학습이 일어나는 동안 후측해마가 활성화된 정도가 이후의 가치 전이 정도를 예측하였다. 또한 뇌 영역간의 상호작용이 존재하여, 강화 학습 단계에서 해마와 선조체가 기능적으로 강하게 연결될수록 가치 전이 정도가 크게 나타나 학습에 관여하는 신경 기제와 기억에 관여하는 신경기제의 상호작용이 기억을 활용한 의사결정을 뒷받침한다는 가설을 지지하였다. 위와 같은 유추와 가치 전이는 보상의 극대화라는 목표에 적합한 형태로 학습이 조정된다는 효과적인 증거를 제시한다.
보다 구체적으로 실험자들은 참가자들의 실수반응에 대해서도 긍정적인 피드백을 제공해 옳은 반응이라는 피드백을 반복해서 제공했는데, 오경보와 탈루에서 이러한 긍정피드백을 제공한 경우, 각각 '본 적 있다', '본 적 없다'의 기억반응을 더 많이 나타내는 편향된 반응 성향을 발견하였다.
변형된 패러다임은 피드백을 통한 점진적인 수행 향상을 유도한다는 점에서는 기존과 동일하였으나, 하나의 카드만으로는 정확한 예측을 내릴 수 없으며 두 개 이상의 정보(즉, 카드가 나타난 위치, 함께 제시된 카드)를 통합하는 개념적 지식을 형성해야 정답을 맞힐 수 있도록 하였다. 상태공간 모형(SSM)을 통하여 추산된 지식의 양을 반영하는 뇌 영역을 탐색한 결과, 시행이 진행되면서 지식의 양이 상승해나가는 만큼 해마의 활성화가 증가하여, 해마가 개념적 지식 형성을 추적하는 것으로 나타났다.
둘째, 선조체 영역의 활성화는 기억인출에 따른 목표인지행동의 달성을 유도한다. 셋째, 보상정보는 반응 경향성의 변화를 유도하여 더 많은 기억인출반응을 유발한다.
셋째, 피드백/보상정보를 기반으로 한 행동은 대개 외현지식보다는 학습행동에 민감한 것으로 알려진 동물들을 이용해 연구되었고, 선조체와 도파민의 기능이 저하된 Parkinson환자 등의 피드백기반 암묵학습, 혹은 절차적 학습과정에 대한 연구를 통해 그 특징을 살펴볼 수 있었다. 이 연구들에서는 보상이 반복적으로 주어짐에 따라 (1) 점증적으로 행동이 변화되고 (2) 암묵적으로 변화된 결과를 습득하게 되는 학습 과정으로서 목표지향적 행동의 특징을 설명해왔다(예, Gluck et al.
Shohamy와 Wagner(2008)의 연구에서, 참가자 들은 연합 학습(Associative learning) 이후 직접적으로 연합되지 않은 자극에 대하여 판단할 때 유추를 사용 하는 것으로 나타났다. 이 때, 유추를 효과적으로 사용한 우수 학습자의 경우 학습 진행에 따른 해마 활성화 증가폭 및 중뇌와 해마 활성화의 상관이 불량 학습자에 비해 큰 것으로 나타났다. 또한 Wimmer와 Shohamy(2012)는 연합된 두 개의 자극 중 하나의 자극에 대해 강화학습을 실시하면 강화를 받지 않은 나머지 자극에까지 기억에 기초한 일반화를 통하여 가치 전이가 일어남을 보였다.
또한 Wimmer와 Shohamy(2012)는 연합된 두 개의 자극 중 하나의 자극에 대해 강화학습을 실시하면 강화를 받지 않은 나머지 자극에까지 기억에 기초한 일반화를 통하여 가치 전이가 일어남을 보였다. 이 실험에서 참가자들은두 자극 모두 직접적으로 강화를 받지 않았음에도 불구하고, 보상을 예측하지 않는 단서와 연합된 자극에 비해 보상을 예측하는 단서와 연합된 자극을 선호하였다. 이러한 일반화 과정에 역시 해마가 관여하였는데, 강화 학습이 일어나는 동안 후측해마가 활성화된 정도가 이후의 가치 전이 정도를 예측하였다.
이 연구가 중요한 이유는 동기와 기억과정의 연결고리를 신경학적 기제를 보여줬다는 데 있는데, 보상 정보에 민감한 중뇌, 복측선조체 등의 도파민 회로영역의 활성화와 기억중추로 알려진 해마영역의 활성화가 민감하게 연결되어 있음을 확인하였다. 특히 이 두 영역의 기능적인 연결성은 기억해야 할 자극이 물리적으로 화면에 제시되기도 전인, 인센티브정보 단서만 화면에 제시되는 순간부터 강화되기 시작하였는데, 심리적인 기대치, 보상에 대한 예상만으로도 기억 영역인 해마의 활성화가 증가하고, 이는 부여된 동기가 정보처리의 효율성을 극대화하기 위해 기억중추를 준비시키는 것임을 보여주는 증거라고 할 수 있다.
하지만 이미 정보들의 부호화, 입력이 끝난 후 동기와 보상정보가 기억자극을 인출해내는데 어떻게 영향을 줄 수 있을까? Han 등(2010)의 연구에서 참가자들은 보상이 주어지는 조건에서 더 우세하고 빠른 행동 반응성향을 나타내었는데, 목표(보상)와 연합된 반응에 대해 더욱 빠르게 의사결정을 내린 것으로 볼 수 있다. 이 연구에서는 선조체 영역의 활성화를 각 목표 반응(인출, 기각)에 따라 구분하였는데, 상부선조체인 미상핵(Caudate Nucleus)의 활성화가 각 회기의 목표 반응에 따라 선택적으로 크게 증가하는 모습을 보였다. 즉 보상영역의 활성화가 기억 인출 행동의 신경기 전에도 밀접하게 연결되어 있음을 보여주는 결과라고 할 수 있다.
, 2001). 즉, 마치 우리가 어려운 퀴즈 문제의 정답을 맞혔을 때 느끼는 희열과 뿌듯함처럼, 기억을 더듬어 정보 인출에 성공하였을 때 느끼는 주관적인 만족감과 보상심리가 도파민 신경회로로 대표되는 뇌의 보상중추에서 나타나는 것이라고 추측하였다. 실제로 최근 fMRI연구에서(Han et al.
흥미로운 사실은 기억 반응 성향을 결정하는데에 보상민감도를 나타내는 성격 특질과 같은 개인적 성향차이가 큰 영향을 미친다는 것이데, 유사한 실험 패러다임을 사용해 진행된 기억편향 연구에서는(Han, 2009b), 편향된 피드백에 반응하여 판단의 방향을 선택하는 학습이 유도되는 과정에서 불안 회피/강화 추구 성향의 수준을 반영하는 BIS/BAS(Behavioral Inhibition System/ Behavioral Approach System, Carver & White, 1994) 개인차가 반응편향의 학습정도를 유의미하게 예측할 수 있음을 보여주었다. 즉, 보상과 강화를 추구하는 참가자일수록 편향된 피드백 (틀렸음에도 맞았다고 긍정적인 피드백을 지속적으로 제공해 편향 유도)에 따라 반응성향을 변화시키는 정도가 크게 나타났다. 앞서 언급한 Han 등(2010)의 신경영상학 연구에서도 개개인의 보상추구 성향 기질의 수준(BAS)과 보상영역의 뇌활성화 수준 간에 유의미한 상관관계가 나타났는데, 이는 보상정보가 기억인출에도 영향을 미칠 수 있음을 보여주는 것이다.
본 개관을 통해 제시하는 보상정보처리와 외현기억 기제의 상호작용은 크게 세가지가 있다. 첫째, 보상영역의 활성화는 도파민 신경전달물질의 분비를 자극하여 해마 등 정보처리 영역에서의 효율적 자극 부호화를 유도한다. 둘째, 선조체 영역의 활성화는 기억인출에 따른 목표인지행동의 달성을 유도한다.
질의응답
핵심어
질문
논문에서 추출한 답변
목표지향적 행동이란 무엇인가?
즉, 더 나은 결과물, 보상, 만족감 등의 목표물을 정해, 이를 얻고자 하는 의욕적인 인지 과정이 우리 행동과 의사결정의 핵심이 될 수 있다. 실제 우리가 현재 수행하고 있는 행동을 결정하는 데에는 크든 작든 목표 혹은 결과물이라는 미래의 사실이 시간적으로 앞선 의사결정에 역향적으로 영향을 끼치게 되는데, 이렇게 특정 결과물과 목표를 획득하기 위해 유발된 행동을 '목표지향적 행동(Goal-directed behavior)'이라고 개념화한다. 최근 의사결정 및 기억 관련 연구에서 이와 같은 목표지향적 행동의 역할이 주목을 받고 있다.
선조체와 도파민의 기능이 저하된 Parkinson환자 등의 피드백기반 암묵학습 혹은 절차적 학습과정에 대한 연구들에서 목표 지향적 행동의 특징을 무엇이라고 설명하는가?
셋째, 피드백/보상정보를 기반으로 한 행동은 대개 외현지식보다는 학습행동에 민감한 것으로 알려진 동물들을 이용해 연구되었고, 선조체와 도파민의 기능이 저하된 Parkinson환자 등의 피드백기반 암묵학습, 혹은 절차적 학습과정에 대한 연구를 통해 그 특징을 살펴볼 수 있었다. 이 연구들에서는 보상이 반복적으로 주어짐에 따라 (1) 점증적으로 행동이 변화되고 (2) 암묵적으로 변화된 결과를 습득하게 되는 학습 과정으로서 목표지향적 행동의 특징을 설명해왔다(예, Gluck et al., 2002).
Thorndike의 효과의 법칙은 어떤 사실을 밝혀냈는가?
Thorndike(1911)의 효과의 법칙(Law of Effect)은 보상을 받은 행동이 강화를 받은 것과 동일한 방식으로 반복됨을 보여주었으나, 이후의 연구들은 단순히 보상과 연합된 행동이라고 해서 무조건적으로 같은 형태로 반복되지는 않음을 밝혔다. 예컨대, 쥐는 성공적으로 먹이를 찾는 목적을 달성하기 위하여 사전에 강화를 받은 경로를 그대로 따를 수도 있지만 점차 강화된 경로 대신 더 빠르게, 에너지를 절약하며 보상을 얻을 수 있는 효율적인 경로를 모색하게 된다(Tolman, 1948).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.