본 연구에서는 GPT, Stable Diffusion과 같은 생성형 인공지능을 이용한 교수·학습 자료 추천 성능 향상을 위해 프롬프트를 개선하는 프롬프트 엔지니어링에 대해 탐색하였다. 분석할 교수·학습 자료의 종류는 그림 자료이다. 프롬프트 구성에 따른 영향을 탐색하기 위해 명령만 담긴 Zero-Shot 프롬프트, 학습 대상 학년 정보가 담긴 프롬프트, 학습 목표가 담긴 프롬프트, 학습 대상 학년과 학습 목표가 모두 담긴 프롬프트를 설계하여 각각을 GPT-3.5모델에 입력하고 응답을 수집하였다. 수집한 응답을 Sentence Transformers로 임베딩 하고 t-SNE를 활용하여 차원 축소하여 시각화 한 다음 프롬프트와 응답 간의 관계를 탐색하였다. 그리고 각 응답을 k-means clustering algorithm을 활용하여 군집화 한 다음 가장 넓은 클러스터의 첫 번째 값을 대표로 선택하여 Stable Diffusion을 이용하여 이미지화 한 다음 교수·학습자료 평가 기준에 따라 초등학교 교사 30명에게 평가 받았다. 초등학교 교사 30인은 추천한 4종의 그림 자료 중 3종은 교육적 가치가 있다고 판단하였으며, 그 중 2종은 실제 수업에 사용할 수 있다고 하였다. 가장 가치 있는 그림 자료를 추천한 프롬프트는 대상 학년과 학습 목표가 모두 담긴 프롬프트로 나타났다.
본 연구에서는 GPT, Stable Diffusion과 같은 생성형 인공지능을 이용한 교수·학습 자료 추천 성능 향상을 위해 프롬프트를 개선하는 프롬프트 엔지니어링에 대해 탐색하였다. 분석할 교수·학습 자료의 종류는 그림 자료이다. 프롬프트 구성에 따른 영향을 탐색하기 위해 명령만 담긴 Zero-Shot 프롬프트, 학습 대상 학년 정보가 담긴 프롬프트, 학습 목표가 담긴 프롬프트, 학습 대상 학년과 학습 목표가 모두 담긴 프롬프트를 설계하여 각각을 GPT-3.5모델에 입력하고 응답을 수집하였다. 수집한 응답을 Sentence Transformers로 임베딩 하고 t-SNE를 활용하여 차원 축소하여 시각화 한 다음 프롬프트와 응답 간의 관계를 탐색하였다. 그리고 각 응답을 k-means clustering algorithm을 활용하여 군집화 한 다음 가장 넓은 클러스터의 첫 번째 값을 대표로 선택하여 Stable Diffusion을 이용하여 이미지화 한 다음 교수·학습자료 평가 기준에 따라 초등학교 교사 30명에게 평가 받았다. 초등학교 교사 30인은 추천한 4종의 그림 자료 중 3종은 교육적 가치가 있다고 판단하였으며, 그 중 2종은 실제 수업에 사용할 수 있다고 하였다. 가장 가치 있는 그림 자료를 추천한 프롬프트는 대상 학년과 학습 목표가 모두 담긴 프롬프트로 나타났다.
In this study, prompt engineering that improves prompts was explored to improve the performance of teaching and learning materials recommendations using generative artificial intelligence such as GPT and Stable Diffusion. Picture materials were used as the types of teaching and learning materials. T...
In this study, prompt engineering that improves prompts was explored to improve the performance of teaching and learning materials recommendations using generative artificial intelligence such as GPT and Stable Diffusion. Picture materials were used as the types of teaching and learning materials. To explore the impact of the prompt composition, a Zero-Shot prompt, a prompt containing learning target grade information, a prompt containing learning goals, and a prompt containing both learning target grades and learning goals were designed to collect responses. The collected responses were embedded using Sentence Transformers, dimensionalized to t-SNE, and visualized, and then the relationship between prompts and responses was explored. In addition, each response was clustered using the k-means clustering algorithm, then the adjacent value of the widest cluster was selected as a representative value, imaged using Stable Diffusion, and evaluated by 30 elementary school teachers according to the criteria for evaluating teaching and learning materials. Thirty teachers judged that three of the four picture materials recommended were of educational value, and two of them could be used for actual classes. The prompt that recommended the most valuable picture material appeared as a prompt containing both the target grade and the learning goal.
In this study, prompt engineering that improves prompts was explored to improve the performance of teaching and learning materials recommendations using generative artificial intelligence such as GPT and Stable Diffusion. Picture materials were used as the types of teaching and learning materials. To explore the impact of the prompt composition, a Zero-Shot prompt, a prompt containing learning target grade information, a prompt containing learning goals, and a prompt containing both learning target grades and learning goals were designed to collect responses. The collected responses were embedded using Sentence Transformers, dimensionalized to t-SNE, and visualized, and then the relationship between prompts and responses was explored. In addition, each response was clustered using the k-means clustering algorithm, then the adjacent value of the widest cluster was selected as a representative value, imaged using Stable Diffusion, and evaluated by 30 elementary school teachers according to the criteria for evaluating teaching and learning materials. Thirty teachers judged that three of the four picture materials recommended were of educational value, and two of them could be used for actual classes. The prompt that recommended the most valuable picture material appeared as a prompt containing both the target grade and the learning goal.
본 연구는 생성형 인공지능의 교수·학습 자료 추천 성능 개선을 위한 프롬프트 엔지니어링에 대해 탐색하였다.
본 연구에서는 생성형 인공지능을 이용한 교수·학습 자료 추천 성능 향상을 위한 프롬프트 엔지니어링에 대해 탐색하였다
이를 통해 학생들의 다양한 수준 및 학습 스타일에 능동적으로 대응할 수 있는 교수·학습 자료 추천 시스템에 대한 가능성을 탐색하고자 한다.
가설 설정
군집은 벡터 값을 기준으로 하였으므로 의미가 유사한 응답의 집합이라고 할 수 있다. 가장 큰 군집이 프롬프트에 대한 응답의 의미 대표라 가정하고 첫 번째 인덱스를 프롬프트의 대표 응답으로 선택하고 선정한 응답을 Stable Diffusion을 이용하여 이미지 생성한다. 생성한 이미지를 초등학교 교사로 구성된 평가집단이 평가 기준에 따라 평가한다.
제안 방법
임베딩한 고차원 벡터를 t-SNE를 이용하여 2차원으로 축소하여 시각화 하였다. 그리고 시각화 한 자료와 2차원 벡터를 바탕으로 프롬프트에 영향을 미치는 변인에 대해 분석한다.
따라서 본 연구에서는 프롬프트 엔지니어링을 위해 Zero-Shot 프롬프트와 설계한 Few-Shots 프롬프트 모두를 GPT에 입력하고 프롬프트 별 100개의 응답을 얻어 임베딩과 시각화를 통해 관계를 탐색하였다. 그리고 프롬프트 별 100개의 응답을 클러스터링 하여 가장 넓은 클러스터의 첫 번째 값을 선정하여 Stable Diffusion으로 시각화 한 다음 인간 교사에게 기준에 따라 교육적 가치를 평가받았다.
대표 응답을 선정하는 방법으로 k-means clustering algorithm을 이용하여 프롬프트 응답의 임베딩 벡터 값을 10개의 클러스터로 군집 하였으며 가장 큰 클러스터에 속한 응답이 확률적으로 대표성을 띈 의미 영역으로 판단하고 해당 클러스터의 첫 번째 원소를 탐색하였다. 클러스터링을 시각화 한 결과는 Fig.
따라서 본 연구에서는 프롬프트 엔지니어링을 위해 Zero-Shot 프롬프트와 설계한 Few-Shots 프롬프트 모두를 GPT에 입력하고 프롬프트 별 100개의 응답을 얻어 임베딩과 시각화를 통해 관계를 탐색하였다. 그리고 프롬프트 별 100개의 응답을 클러스터링 하여 가장 넓은 클러스터의 첫 번째 값을 선정하여 Stable Diffusion으로 시각화 한 다음 인간 교사에게 기준에 따라 교육적 가치를 평가받았다.
설계한 프롬프트가 추천한 교수·학습 그림 자료의 교육적 가치를 평가하기 위해 100개의 응답 중 대표 응답을 선정하여 Stable Diffusion을 이용하여 이미지화 하였다.
수집한 응답을 Sentence Transformers를 활용하여 임베딩 하고 t-SNE로 차원 축소하여 시각화 한 다음 프롬프트와 응답 간의 관계를 탐색하였다.
수집한 응답을 Sentence Transformers로 384차원으로 임베딩하고, t-SNE을 이용하여 2차원으로 축소한 다음 시각화 하였다. 시각화 한 자료를 분석하여 프롬프트가 응답에 영향을 미치는 탐색하였다. 프롬프트 별 응답을 시각화한 결과는 Fig.
프롬프트 구성이 생성형 인공지능의 응답에 미치는 영향을 탐색하기 위해 Zero-Shot 프롬프트, 학습 대상 학년 정보가 담긴 프롬프트, 학습 목표가 담긴 프롬프트, 학습 대상 학년과 학습 목표가 모두 담긴 프롬프트 총 4종을 설계하여 GPT-3.5모델에 입력하고 응답을 수집하였다.
프롬프트 엔지니어링의 효과를 분석하기 위해 비교군 프롬프트는 Zero-Shot Prompt로 실험군은 변인을 추가한 Few-Shots Prompt로 설계하고 프롬프트를 GPT에 입력하여 응답을 수집한다. 수집한 응답은 임베딩하여 벡터화 하고 시각화 하여 응답에 영향을 주는 프롬프트 변인을 탐색한다.
대상 데이터
교수·학습 자료의 종류로는 그림 자료를 이용하였다.
설계한 프롬프트와 응답 간의 관계를 분석하기 위해 프롬프트 별 100개의 응답을 생성하여 수집하였다.
평가 집단은 초등학교 교사 30명이며 교육 경력 별로 인원을 구성하였다. 교육 경력 별 인원은 10년 이상인 교사가 17명, 5~10년인 교사는 7명, 1~3년인 교사는 6명이고 사전 설문 결과 본 연구에서 선정한 교육 주제로 수업을 해본 경험이 있는 교사는 12명, 그렇지 않는 교사는 18명으로 나타났다.
프롬프트 별 응답의 대푯값을 선택하여 Stable Diffusion을 이용하여 시각화 한 다음 교사 30명에게 교수·학습자료 평가 기준에 따라 평가 받았다.
데이터처리
평가 집단이 응답한 결과를 독립변인 t-검정하였으며, 프롬프트 설계가 없는 Prompt 1과 프롬프트 엔지니어링을 통해 개선한 프롬프트 간 효과성을 검증하기 위해서 비교군은 Prompt 1을 대조군은 Prompt 2,3,4로 설정하여 분석하였다. t-검정 결과는 Table 6와 같다.
이론/모형
본 연구에서는 k-means clustering algorithm을 활용하여 프롬프트로 생성한 응답을 군집하고 대푯값을 찾아 프롬프트를 선정하는 데 활용하였다.
연구를 위한 분석도구는 Google Colab에서 Python을 활용하였다. 생성형 인공지능은 웹 브라우저로 각 서비스에 접속하여 ChatGPT-3.
평가 도구는 한국교육과정평가원(2002)의 교수·학습 자료 평가 기준을 사용 하였으며 초등 교육 전문가 3인의 자문에 따라 그림 자료와 직접 관련이 없는 항목을 제외하고 1
성능/효과
Prompt 1보다 Prompt 4의 교육과정 구성이나 학교 급별 목표의 적합성이 높음은 것으로 보아, Prompt 4의 그림 자료를 수업주 자료로, Prompt 1의 그림 자료를 보조 자료로 활용할 수 있을 것으로 보인다. Prompt 2, 3은 Prompt 1에 비해 실제 수업에 사용될 가능성이 낮은 것으로 나타났는데, 이는 Prompt 2는 학습 목표와 다소 동떨어진 주제가 나타났고 Prompt 3은 학습자의 수준에 적절하지 않았기 때문으로 보인다.
Prompt 3,4가 학습 목표를 포함하고 있기 때문에 교육과정 구성이나 학교 급별 교육목표에 적합하다 판단을 받은 것이며 이는 본 연구의 프롬프트 엔지니어링이 학습 목표에 부합하는 교수·학습 자료를 추천하는 데 긍정적인 영향을 미치는 근거로 볼 수 있다.
교육과정 구성이나 학교 급별 교육목표에 대한 평가에서는 Prompt 2의 평균이 가장 낮은 것으로 나타났으나 p값이 0.28로 Prompt 1과 비교하였을 때 유의미한 차이가 나타나지 않은 것으로 판단된다. 가장 높은 평가를 받은 프롬프트는 Prompt 4로 p값이 0.
Prompt 3은 Prompt 1에 학습 목표를 추가한 것으로 학습 목표는 교수·학습 자료를 어떤 목적으로 사용할지에 대한 방향성을 담고 있어 자료의 내용을 구체화한다. 따라서 Prompt 1보다 나타내는 내용이 더 구체적이며, Prompt 3이 나타나는 영역은 Prompt 1보다 집중된 것으로 보인다.
0025%에 해당한다. 본 연구에서 제안하는 이미지 생성 방식의 교수·학습 자료 추천 과정은 생성한 전체 16개의 이미지 중 12개인 75%의 자료가 학습 목표와 관련이 있는 것으로 나타났다. 따라서 연구 결과로 미루어 볼 때 생성형 인공지능은 효율적인 교수·학습 자료 수집을 위한 교수·학습 자료 추천 시스템에 활용할 수 있을 것으로 보인다.
시각화 하여 분석한 결과로 미뤄볼 때 프롬프트를 구성하는 변인 중 학습 목표는 교수·학습 자료를 어떤 목적으로 사용할지에 대한 내용을 담고 있어 해당 키워드의 내용을 구체화하면서 GPT가 생성하는 응답의 방향성에 영향을 미쳐 각 응답 좌표의 분포가 수평 이동하거나 더 집중되는 등의 형태로 나타나는 것으로 보인다.
이처럼 생성형 인공지능은 ChatGPT 서비스 그 자체로 활용할 뿐 아니라 목적에 따라 API를 활용하거나 모델을 변형하여 다양한 서비스에 개발·적용 되며 모델을 변형하는 방식으로 미세 조정을 이용하는 것으로 나타났다.
후속연구
학습 자료의 실제 활용 가능성에 대해서는 Prompt 1, 4의 평균 점수가 높게 나타나 실제 수업 자료로 활용될 수 있는 가능성이 있음을 볼 수 있다. Prompt 1보다 Prompt 4의 교육과정 구성이나 학교 급별 목표의 적합성이 높음은 것으로 보아, Prompt 4의 그림 자료를 수업주 자료로, Prompt 1의 그림 자료를 보조 자료로 활용할 수 있을 것으로 보인다. Prompt 2, 3은 Prompt 1에 비해 실제 수업에 사용될 가능성이 낮은 것으로 나타났는데, 이는 Prompt 2는 학습 목표와 다소 동떨어진 주제가 나타났고 Prompt 3은 학습자의 수준에 적절하지 않았기 때문으로 보인다.
본 연구에서 제안하는 이미지 생성 방식의 교수·학습 자료 추천 과정은 생성한 전체 16개의 이미지 중 12개인 75%의 자료가 학습 목표와 관련이 있는 것으로 나타났다. 따라서 연구 결과로 미루어 볼 때 생성형 인공지능은 효율적인 교수·학습 자료 수집을 위한 교수·학습 자료 추천 시스템에 활용할 수 있을 것으로 보인다.
참고문헌 (17)
Ggwang, "Natural Language Analysis of Korean Texts of Al-based Chatbots and Exploration of Korean Education Utilization - Focusing on ChatGPT and New-Bing," The Society of Korean Culture and Convergence, Vol.45, No.5, 1-17, May 2023 DOI: 10.33645/cnc.2023.05.45.01?
Shlee, Kssong, "Exploring the possibility of using ChatGPT and Stable Diffusion as a tool to recommend picture materials for teaching and learning", Journal of the Korea society of computer and information, Vol. 28, No. 4, pp. 209-216, April 2023 DOI: 10.9708/jksci.2023.28.04.209?
Igyou, Hypark, "Developing an AI-based Sentence-Generating Web Service for Writing Activities in Elementary Language Education," Journal of Research in Curriculum & Instruction, vol. 27, No. 2, pp. 210-221, April 2023 DOI: 10.24231/rici.2023.27.2.210?
Hslee, Hsshim, "Study on the Design of a ChatGPT-Based Metaverse Platform Model" Journal of Industrial Technology Research, Vol.28 No.2, PP131-136, June 2023?
Gwyong, "Prompt engineering for improving the performance of CLIP-based defect detection," Master's Degree thesis, Yonsei University, Dec 2022.?
Isjoen, Kssong, "Development of Block-based Code Generation and Recommendation Model Using Natural Language Processing Model," JOURNAL OF The Korean Association of information Education, Vol. 26, No. 3, pp197-207, June 2022 DOI: 10.14352/jkaie.2022.26.3.197?
Ekin, Sabit (2023): Prompt Engineering For ChatGPT: A Quick Guide To Techniques, Tips, And Best Practices. TechRxiv. Preprint. DOI: 10.36227/techrxiv.22683919.v2?
Wei, Jason, et al. "Finetuned language models are zero-shot learners." arXiv preprint arXiv:2109.01652 (2021). DOI: 10.48550/arXiv.2109.01652?
Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in Neural Information Processing Systems 35 (2022): 24824-24837.?
Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models." arXiv preprint arXiv:2305.10601 (2023). DOI: https://doi.org/10.48550/arXiv.2305.10601?
Hjprk, Hsim, "A Study on Use Case Analysis and Adoption of NLP:Analysis Framework and Implications," Journal of Information Technology Services, Vol. 21, No. 2, pp. 61-84, April 2022 DOI: 10.9716/KITS.2022.21.2.061?
Reimers, Nils, and Iryna Gurevych. "Sentence-bert: Sentence embeddings using siamese bert-networks." arXiv preprint arXiv:1908.10084 (2019). DOI: 10.48550/arXiv.1908.10084?
SBERT, https://www.sbert.net/
Van der Maaten, Laurens, and Geoffrey Hinton. "Visualizing data using t-SNE." Journal of machine learning research 9.11 (2008).?
Swjeon et al, "Document Summarization Using TextRankBased on Sentence Embedding," Journal of KIISE, Vol. 46, No. 3, pp. 285-289, Dec 2019 DOI : 10.5626/JOK.2019.46.3.285?
Jmha, Gjmoon, "An Application of k-Means Clustering to Vehicle Routing Problems,", Journal of Korean Society of Industrial and Systems Engineering, , Vol. 38, No. 3, pp. 1-7, Sep 2015. DOI : https://doi.org/10.11627/jkise.2015.38.3.01?
KICE, "A Study on the Development of Teaching and Learning Data Types and Standards according to the Revised Curriculum - Focusing on secondary technology, home, art, and English-," April, 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.