최근, ChatGPT 등장으로 대규모 언어 모델(Large language Models, LLM)의 발전이 자연어처리 연구 분야에서 혁신적인 방법론으로 두각을 나타내고 있다. 기존의 대규모 언어모델(Large Language Model, LLM) 만 사용하게 되면 질문에 대한 답변이 아닌 아예 다른 얘기를 하는 경우 가 있거나 부적절한 대답을 생성하는 경우가 있다. 이렇듯 위 문제점을 해결하기 대규모 언어 모델(Large Language Model, LLM)에 Human Alignment 방법을 적용하려는 연구가 활발히 진행 중이다. 기존 연구들 은 대부분 대량의 영어 데이터를 사용하여 Human Alignment을 적용하고 있지만 한국어로 된 데이터를 이용한 연구들은 거의 없다. 본 논문에서는 한국어 데이터에 LLM Human Alignment를 적용하기 위 해 네이버 지식인을 활용하여 데이터를 수집하였으며, 수집된 데이터가 적기 때문에 부족한 한국어 데이터 문제를 극복하고 LLM Human Alignment의 성능을 향상시키기 위해 ...
최근, ChatGPT 등장으로 대규모 언어 모델(Large language Models, LLM)의 발전이 자연어처리 연구 분야에서 혁신적인 방법론으로 두각을 나타내고 있다. 기존의 대규모 언어모델(Large Language Model, LLM) 만 사용하게 되면 질문에 대한 답변이 아닌 아예 다른 얘기를 하는 경우 가 있거나 부적절한 대답을 생성하는 경우가 있다. 이렇듯 위 문제점을 해결하기 대규모 언어 모델(Large Language Model, LLM)에 Human Alignment 방법을 적용하려는 연구가 활발히 진행 중이다. 기존 연구들 은 대부분 대량의 영어 데이터를 사용하여 Human Alignment을 적용하고 있지만 한국어로 된 데이터를 이용한 연구들은 거의 없다. 본 논문에서는 한국어 데이터에 LLM Human Alignment를 적용하기 위 해 네이버 지식인을 활용하여 데이터를 수집하였으며, 수집된 데이터가 적기 때문에 부족한 한국어 데이터 문제를 극복하고 LLM Human Alignment의 성능을 향상시키기 위해 데이터 증강 방법을 제안한다. 제안한 방법을 검증하기 위해 Human Alignment 방법으로는 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF) 모델과 DPO(Direct Preference Optimization)모델을 적용한다. 실험을 진행한 결과 우리는 수집한 네이버 지식인 데이터로도 어느 정도의 성능 이 나오는 것을 확인 가능하였고, 제안한 방법으로 데이터 증강을 하면 수집한 네이버 지식인 데이터보다 향상된 성능을 보임을 확인하였다.
최근, ChatGPT 등장으로 대규모 언어 모델(Large language Models, LLM)의 발전이 자연어처리 연구 분야에서 혁신적인 방법론으로 두각을 나타내고 있다. 기존의 대규모 언어모델(Large Language Model, LLM) 만 사용하게 되면 질문에 대한 답변이 아닌 아예 다른 얘기를 하는 경우 가 있거나 부적절한 대답을 생성하는 경우가 있다. 이렇듯 위 문제점을 해결하기 대규모 언어 모델(Large Language Model, LLM)에 Human Alignment 방법을 적용하려는 연구가 활발히 진행 중이다. 기존 연구들 은 대부분 대량의 영어 데이터를 사용하여 Human Alignment을 적용하고 있지만 한국어로 된 데이터를 이용한 연구들은 거의 없다. 본 논문에서는 한국어 데이터에 LLM Human Alignment를 적용하기 위 해 네이버 지식인을 활용하여 데이터를 수집하였으며, 수집된 데이터가 적기 때문에 부족한 한국어 데이터 문제를 극복하고 LLM Human Alignment의 성능을 향상시키기 위해 데이터 증강 방법을 제안한다. 제안한 방법을 검증하기 위해 Human Alignment 방법으로는 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF) 모델과 DPO(Direct Preference Optimization)모델을 적용한다. 실험을 진행한 결과 우리는 수집한 네이버 지식인 데이터로도 어느 정도의 성능 이 나오는 것을 확인 가능하였고, 제안한 방법으로 데이터 증강을 하면 수집한 네이버 지식인 데이터보다 향상된 성능을 보임을 확인하였다.
In recent years, the development of Large Language Models (LLMs) has gained prominence as an innovative methodology in the field of natural language processing research, thanks to ChatGPT. If you only use the existing Large Language Models (LLMs), there are cases where the question is not answered, ...
In recent years, the development of Large Language Models (LLMs) has gained prominence as an innovative methodology in the field of natural language processing research, thanks to ChatGPT. If you only use the existing Large Language Models (LLMs), there are cases where the question is not answered, or the answer is inappropriate. To solve the above problems, researchers are actively working on applying human alignment methods to large language models (LLMs). Most of the existing studies apply human alignment using large amounts of English data, but there are few researches using Korean data. In this paper, we collect data using NAVER KIN to apply LLM Human Alignment to Korean data and propose a data augmentation method to overcome the problem of insufficient Korean data and improve the performance of LLM Human Alignment due to the small amount of data collected. To validate the proposed method, we apply the RLHF(Reinforcement learning from human feedback) model and the DPO(Direct Preference Optimization)model as human alignment methods. As a result of the experiments, we can confirm that the collected NAVER KIN data can produce a certain level of performance, and we can confirm that the data augmentation with the proposed method shows better performance than the collected NAVER KIN data.
In recent years, the development of Large Language Models (LLMs) has gained prominence as an innovative methodology in the field of natural language processing research, thanks to ChatGPT. If you only use the existing Large Language Models (LLMs), there are cases where the question is not answered, or the answer is inappropriate. To solve the above problems, researchers are actively working on applying human alignment methods to large language models (LLMs). Most of the existing studies apply human alignment using large amounts of English data, but there are few researches using Korean data. In this paper, we collect data using NAVER KIN to apply LLM Human Alignment to Korean data and propose a data augmentation method to overcome the problem of insufficient Korean data and improve the performance of LLM Human Alignment due to the small amount of data collected. To validate the proposed method, we apply the RLHF(Reinforcement learning from human feedback) model and the DPO(Direct Preference Optimization)model as human alignment methods. As a result of the experiments, we can confirm that the collected NAVER KIN data can produce a certain level of performance, and we can confirm that the data augmentation with the proposed method shows better performance than the collected NAVER KIN data.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.