인터넷 매체 언어의 국어 파괴 현상의 고찰을 통한 표준어 자동 번역 기술에 대한 연구 Research on Automatic Translation of Standard Language through Contemplation of Korean Destruction Phenomena in Internet Media Language원문보기
본 논문에서는 인터넷 매체 언어상에서 나타나고 있는 국어 파괴 현상의 고찰을 고찰하여, 이에 대한 기술적 개선 방법으로서 표준어 자동 번역 기술을 제안한다. 실생활 속에서 국어 파괴 현상과 관련된 경험 및 피해 사례들을 설문 조사 및 FGI(Focussed Group Interview)를 통하여 수집 및 분석한 결과를 제시하고, 분석결과 자료 기반으로, '국어 파괴도(degree of Korean destruction)'의 지표를 정의하였다. 국어 파괴도는 표준어 자동 번역 기술이 갖고 있는 번역 오류가 가진 한계를 최소화하여, 표준어 자동 번역 기술의 효율성을 최대로 활용하기 위한 척도로서 활용될 수 있음을 인터넷 매체 문장 2,480 개의 분석을 통하여 제시하였다. 본 논문에서 제안된 국어 파괴도 측정 및 표준어 자동 번역 기술은 Java 언어를 사용하여 REST API 형태로 구현하였으며, 웹브라우저상에서 동작을 확인하였다.
본 논문에서는 인터넷 매체 언어상에서 나타나고 있는 국어 파괴 현상의 고찰을 고찰하여, 이에 대한 기술적 개선 방법으로서 표준어 자동 번역 기술을 제안한다. 실생활 속에서 국어 파괴 현상과 관련된 경험 및 피해 사례들을 설문 조사 및 FGI(Focussed Group Interview)를 통하여 수집 및 분석한 결과를 제시하고, 분석결과 자료 기반으로, '국어 파괴도(degree of Korean destruction)'의 지표를 정의하였다. 국어 파괴도는 표준어 자동 번역 기술이 갖고 있는 번역 오류가 가진 한계를 최소화하여, 표준어 자동 번역 기술의 효율성을 최대로 활용하기 위한 척도로서 활용될 수 있음을 인터넷 매체 문장 2,480 개의 분석을 통하여 제시하였다. 본 논문에서 제안된 국어 파괴도 측정 및 표준어 자동 번역 기술은 Java 언어를 사용하여 REST API 형태로 구현하였으며, 웹브라우저상에서 동작을 확인하였다.
In this paper, we consider the discussion of the breakdown phenomenon of korean language that is displayed in the language of the Internet media, as a technical improvement approach to this, and to provide an automatic translation technology of standard language. The collected through real life surv...
In this paper, we consider the discussion of the breakdown phenomenon of korean language that is displayed in the language of the Internet media, as a technical improvement approach to this, and to provide an automatic translation technology of standard language. The collected through real life surveys and experience and damage case regarding language breakdown phenomena in the FGI (Focussed Group Interview), and presents the results of the analysis, based on the analysis result data, we defined the index of language destroyed (degree of Korean destruction). The limit of the national language break or automatic translation technology standard language marked with translation errors that have to be minimized, the efficiency of the automatic translation technology standard language which may be utilized as a measure to get the maximum, and presented through the Internet media texts 2,480 pieces of analysis. Automatic translation technology of the standard language and was also measured the proposed language destroyed in this paper, we implemented in the form of a REST API using the Java language, was confirmed to work on the Web browser.
In this paper, we consider the discussion of the breakdown phenomenon of korean language that is displayed in the language of the Internet media, as a technical improvement approach to this, and to provide an automatic translation technology of standard language. The collected through real life surveys and experience and damage case regarding language breakdown phenomena in the FGI (Focussed Group Interview), and presents the results of the analysis, based on the analysis result data, we defined the index of language destroyed (degree of Korean destruction). The limit of the national language break or automatic translation technology standard language marked with translation errors that have to be minimized, the efficiency of the automatic translation technology standard language which may be utilized as a measure to get the maximum, and presented through the Internet media texts 2,480 pieces of analysis. Automatic translation technology of the standard language and was also measured the proposed language destroyed in this paper, we implemented in the form of a REST API using the Java language, was confirmed to work on the Web browser.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 국어 파괴 현상이 발생한 문장에서의 파괴 정도를 정의하여 자동 번역 알고리즘 설계시에 사용하고자 한다. 국어 파괴도를 정의하고자 하는 목적은 표준어 자동 번역 대상이 되는 문장을 식별하기 위해서이며 이러한 전처리 과정의 필요성은 일반적인 자동번역 기술이 가지고 있는 번역의 한계와 오용을 줄이고자 하는 것이다.
국어 파괴 현상은 인터넷의 아버지라고 불리는 Tim Berners-Lee가 제창한 처음 월드 와이드 웹을 제창할 당시의 본연의 목표인 ‘소통과 공유’를 어렵게 하는 근본적 원인으로 지적되고 있다[2]. 본 논문에서는 이러한 인터넷 매체 언어상에서 발생하고 있는 국어 언어 파괴 현상을 고찰하여, 표준어로 자동 번역하는 기술적 방법을 제안하고자 한다.
본 논문에서는 인터넷 매체 언어상에서 나타나는 국어 파괴 현상을 고찰하여, 기술적 대응 방법으로서의 표준어 번역 기술을 제안하였다. 국어 파괴 현상의 고찰을 위하여 국내의 언론 보도 내용과 기존 연구 내용들을 고찰하였으며, 국어 파괴 현상에 대한 문제의식이 최근 들어 점점 더 증가되고 있는 경향을 확인할 수 있었다.
제안 방법
‘표준어 번역 기술’은 형태소 번역이 이루어지지 않은 형태소들을 중심으로 국어 파괴 어휘 사전을 참조하여 번역하는 직접 번역 방식으로 알고리즘을 제안하였으며, REST API 형태로 구현하여 웹브라우저를 통하여 검증하였다.
49개 자유 게시판의 글 제목 6,000 여개를 대상으로 ‘실명제’ 여부와 욕설/비속어 사용 비율을 분석하고, ‘실명제 게시판’과 ‘비실명제 게시판’의 욕설/비속어 표현 정도를 비교함으로써 익명성과 거친 표현의 상관관계를 살펴보고, 이러한 조건에 따른 통신 언어 쓰임의 변이를 구체적으로 밝혀내었다.
국어 파괴 현상과 직접적인 관계가 있는 가독성 영향 지표로 로그우도(log likehood: LL)를 주목하였다. 로그우도는 일반적인 글이 갖고 있는 어휘적인 요소로서 해당 글이 언어 현실속에서 자주 사용되는 단어들로 구성 되어 있는지를 반영하는 지표이다.
기술적 대응 노력으로서 본 논문에서는 기계 번역 기술에 기반하여 ‘표준어 번역 기술’을 제안하였고, 기계 번역 기술의 한계인 번역의 정확도, 번역의 비용(cost)을 고려한 효과적인 활용을 위한 전처리 장치로서 ‘국어 파괴도(degree of Korean destruction)’이라는 국어 파괴 현상의 정량적 측정 지표를 제안하였다.
언론 보도 내용은 국어 파괴 현상에 대한 현재 상황을 보도 하면서 ‘문제의 심각성’을 알리는 내용이 주를 이루었으며, 이에 대한 사회적, 기술적 대응을 위한 논의에 대해서는 아직 부족한 모습을 확인하였으며, 기존 연구 역시 국어 파괴 현상에 대한 대응 방안에 대해서는 연구가 진행 되고 있지 않다. 또한, 언론 보도 내용, 기존 연구 내용과는 별도로 실생활에 국어 파괴 현상이 미치고 있는 영향과 피해 사례들을 확인하였고, 설문 조사 결과를 통하여 국어 파괴 현상에 대한 피해 사례들과 이에 대한 기술적 대응의 필요성을 확인하였다. 기술적 대응 노력으로서 본 논문에서는 기계 번역 기술에 기반하여 ‘표준어 번역 기술’을 제안하였고, 기계 번역 기술의 한계인 번역의 정확도, 번역의 비용(cost)을 고려한 효과적인 활용을 위한 전처리 장치로서 ‘국어 파괴도(degree of Korean destruction)’이라는 국어 파괴 현상의 정량적 측정 지표를 제안하였다.
본 논문에서는 로그우도와 같은 역할을 수행할 수 있는 지표로서 형태소 분석기의 분석 결과인 형태소 태깅 결과를 수식화하여 국어 파괴도를 정의하였고, 주어진 문장 S의 국어파괴도 D(S)는 다음과 같이 정의된다.
본 논문에서는 말뭉치 내에 단어 w 가 존재하는 확률 및 횟수 대신에, 단어 w의 형태소 분석 여부를 확인하여, 주어진 문장의 형태소 분석 단어 개수를 이용하여 상기 수식을 변형하여 사용하기로 한다. 근거는 실생활에서의 언어 현실의 자료 집합체인 말뭉치내의 단어 존재 확률은, 해당 단어의 형태소 분석 여부와 관련이 있기 때문이다.
본 논문에서는 이정복[2, 8] 에서 분류한 국어 파괴 현상의 분류를 기준으로, 최나야[1] 의 연구에서 언급된 분류 항목 중 ‘신조어’, ‘비속어’, ‘의성어’, ‘외계어’를 추가하여 국어 파괴 현상의 항목을 기준으로 인터넷 매체 문장의 국어 파괴 현상을 정리하였다.
분리된 이모티콘, 숫자, 기호는 국어 파괴 사전에 대응되는 문구가 있으면, 대응 문구로 변환되며 이모티콘의 경우 ‘감정’을 표현하는 단어이므로 해당 감성을 지문(地文)처럼 최종 문장에 삽입하는 방식을 취하였다.
웹사이트에서 임의의 문장에 대한 국어파괴도 계산 결과를 확인할 수 있도록 개발을 진행하였으며, 개발언어는 Java 프로그래밍 언어를 이용하여 구현하였다.
. 저자는 해당 저서에서 인터넷 매체 언어를 소통 양식, 특징, 유형, 어휘, 문법, 담화(대화), 해외 네티즌 언어의 분류로 분석하여 다양한 사례를 들어 논의하였다.
대상 데이터
개발된 국어파괴도 웹사이트를 이용하여, 연구팀의 지인들로부터 수집한 카카오톡 2,480 문장에 대한 국어파괴도의 계산을 수행하였으며, 샘플 문장 2,480 개에 대한 국어파괴도의 분포 결과는 그림 1과 같다. 2,480 문장에 대한 평균 국어 파괴도는 35.
샘플 문장의 분석 결과, 30 미만의 국어 파괴도를 기록한 문장들의 경우, 대부분 ‘기호의 사용’ 문장(예: "그건 살수있나ㅠ“, ”시간있을 때 여행이나 다녀~“ 등)으로 나타났으며, 전체 문장의 해석에 무리가 없는 경우가 많음을 발견하였다. 국어 파괴도 30 이상의 문장들을 표준어 자동 번역 대상 문장으로 설정하였다.
대통령 소속 국민대통합위원회가 지난해 1월부터 올해 4월까지 청소년들이 인터넷 공간에 올린 게시글 13만건을 빅 데이터로 분석했다. 이 가운데 32%가 욕설이나 줄임말 같은 은어로 채워져 있었다.
본 논문에서는 “Advanced REST Client" 플러그인을 사용하였다.
[1단계] 웹 브라우저를 실행한다. 본 논문에서는 Google사의 크롬(Chrome) 브라우저를 사용하였다.
이론/모형
’음운 형태 변이‘ 검사는 일반적인 문자열 검색 방법으로 접두사 또는 접미사를 대상으로 실시하며, Boyer-Moore 문자열 검색 방법 알고리즘을 사용하여 실시한다.
성능/효과
개발된 국어파괴도 웹사이트를 이용하여, 연구팀의 지인들로부터 수집한 카카오톡 2,480 문장에 대한 국어파괴도의 계산을 수행하였으며, 샘플 문장 2,480 개에 대한 국어파괴도의 분포 결과는 그림 1과 같다. 2,480 문장에 대한 평균 국어 파괴도는 35.005를 기록하여, 평균 3 단어 이상이 형태소 분석이 이루어지지 않음을 발견하였고, 샘플 문장에 대한 범위별 국어 파괴도 분포는 그림 2에 도식화 하였다.
각 보도 내용들을 정리 및 비교한 결과가 표 1에 기술되어 있으며, 검색을 통하여 확인되는 보도의 빈도수가 2015년 들어 급격히 증가하고 있음을 확인할 수 있다. 국어 파괴 현상에 대한 부정적 기능으로서 세대간 소통의 단절과 우리 문화 전반에 미치는 부정적 영향을 많이 언급하고 있으며, 긍정적 기능으로서 ‘감정 해소의 도구’라는 시각도 확인할 수 있었다.
국립국어원이 최근 ‘청소년 언어실태, 언어의식 조사’를 한 결과 초·중·고 재학생 95%가 일상생활 대화에서 신조어와 욕설을 섞어 쓰고 있는 것으로 나타났다.
국어 파괴 현상에 대한 부정적 기능으로서 세대간 소통의 단절과 우리 문화 전반에 미치는 부정적 영향을 많이 언급하고 있으며, 긍정적 기능으로서 ‘감정 해소의 도구’라는 시각도 확인할 수 있었다.
본 논문에서는 인터넷 매체 언어상에서 나타나는 국어 파괴 현상을 고찰하여, 기술적 대응 방법으로서의 표준어 번역 기술을 제안하였다. 국어 파괴 현상의 고찰을 위하여 국내의 언론 보도 내용과 기존 연구 내용들을 고찰하였으며, 국어 파괴 현상에 대한 문제의식이 최근 들어 점점 더 증가되고 있는 경향을 확인할 수 있었다. 언론 보도 내용은 국어 파괴 현상에 대한 현재 상황을 보도 하면서 ‘문제의 심각성’을 알리는 내용이 주를 이루었으며, 이에 대한 사회적, 기술적 대응을 위한 논의에 대해서는 아직 부족한 모습을 확인하였으며, 기존 연구 역시 국어 파괴 현상에 대한 대응 방안에 대해서는 연구가 진행 되고 있지 않다.
샘플 문장 2,480개를 통하여 ‘국어 파괴도’가 30이상 진행된 문장들에 대하여 ‘표준어 번역 기술’을 적용하는 것이 효과적임을 밝혔다.
샘플 문장의 분석 결과, 30 미만의 국어 파괴도를 기록한 문장들의 경우, 대부분 ‘기호의 사용’ 문장(예: "그건 살수있나ㅠ“, ”시간있을 때 여행이나 다녀~“ 등)으로 나타났으며, 전체 문장의 해석에 무리가 없는 경우가 많음을 발견하였다.
해당 연구를 통하여 전체 분석 글의 83%에서 국어 파괴 현상이 나타나고 있음을 확인하였으며, ‘대자보’와 같은 대학생들의 실제 게시글에서 이처럼 높은 빈도로 인터넷 매체 언어가 일상적으로 사용되고 있음을 주장하였다.
후속연구
본 논문의 결과물을 메쉬업(MESH-UP) 형태의 웹서비스, 앱 서비스 개발을 지원할 수 있는 오픈 API 형태로 공개할 계획을 가지고 있으며, 이러한 노력들과 본 논문의 성과가 국어 파괴 현상에 대한 기술적 대응 노력에 대한 사회 및 학계의 관심을 불러일으키는데 기여할 수 있도록 계속 관심을 갖고 연구해 나갈 것이다.
형태소 분석 정보에만 의존하고 있는 국어 파괴도 역시, 다양한 자연어 처리 정보들을 반영하는 형태로 확장 되어질 수 있으며, 이러한 확장 방법에 대한 연구도 향후에 필요할 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
인터넷 접속 문화의 확산은 어떤 현상을 낳게 되었는가?
최근 스마트 기기의 보급이 대중화되면서 생활속의 인터넷 접속 시간과 사용 빈도수가 점점 늘어나고 있다. 이와 같은 인터넷 접속 문화의 확산은 신분의 노출이 제한적이고, 입출력 장치의 한계, 커뮤니케이션 제어 기능의 부재라는 인터넷 문화의 특성에 기반하여 인터넷 상에서의 언어 파괴 현상을 낳게 되었다. 인터넷 문화에 기반하여 사용되어지고 있는 언어를 ‘인터넷 매체 언어’라고 정의하며, 인터넷 매체 언어상에서 발견되어 지고 있는 언어의 본질적 문법 규범의 파괴 현상은 ‘국어 파괴 현상’이라고 정의된다[1].
성차에 의한 의사 표현 시에 나타나는 담화 분석에서 인터넷 매체 언어가 어떠한 국어 파괴 현상의 영향을 받고 있는지에 대한 근거는?
(2) 한국어와 영어로 이루어지는 인터넷 통신 의사소통에서 나타나는 남성과 여성의 성차와 성역학 관계에 대하여 논의하는 연구를 수행하였는데, 각 성차에 의한 의사 표현 시에 나타나는 담화 분석에서 인터넷 매체 언어가 어떠한 국어 파괴 현상의 영향을 받고 있는지에 대한 다양한 근거를 확인할 수 있다[7]. 예를 들어, 여성들의 경우 ‘겸양의 1인칭 대명사’인 ‘저’를 빈번하게 사용하는 한편, 남성의 경우, ‘대명사’인 ‘나’가 생략되는 문법 변형 문장이 많음을 주장하였다.
언어 파괴 현상은 인터넷 접속 문화의 어떤 특성에 의해 나타나게 되었는가?
최근 스마트 기기의 보급이 대중화되면서 생활속의 인터넷 접속 시간과 사용 빈도수가 점점 늘어나고 있다. 이와 같은 인터넷 접속 문화의 확산은 신분의 노출이 제한적이고, 입출력 장치의 한계, 커뮤니케이션 제어 기능의 부재라는 인터넷 문화의 특성에 기반하여 인터넷 상에서의 언어 파괴 현상을 낳게 되었다. 인터넷 문화에 기반하여 사용되어지고 있는 언어를 ‘인터넷 매체 언어’라고 정의하며, 인터넷 매체 언어상에서 발견되어 지고 있는 언어의 본질적 문법 규범의 파괴 현상은 ‘국어 파괴 현상’이라고 정의된다[1].
참고문헌 (13)
Na-ya Choi, Eugene Han, "Effects of Students' Attitudes to Internet Media Language and Orthographic Knowledge on Their Use of Internet Media Language", Korean Journal of Child Studies, 31(5), pp.31-45, 2010.
Jeong-Bog Lee, "The expansion of the spread of Internet communication language and Korean studies", Sotong, 2009.
"Language destruction of '10 teenagers near the Password' Serious", yonhaptimes, 2014. 10. 8.
"노잼 열폭 낫닝겐 ? ... Where to 'Korean destruction'", KBS news, 2015. 7. 14.
"음오아예'.'심쿵해'.'쩔어'...Korean destruction vs Another communication", sports dong-a, 2015. 6. 30.
Semo-dol Son, "The Relation on Anonymity and Using swearwords/vulgar words in Titles on Net Boards", The Text Linguistic Society of Korea, Text Linguistic, 15, pp.169-198, 2003.
Kyoung-Sook Song, "An Analysis of Person Deixis in Korean and English Internet Chat", The Text Linguistic Society of Korea, Text Linguistic, 15, pp.463-482, 2003.
Jeong-Bog Lee, "The Internet Communication Language in Bulletin Board Messages by University Students of Daegu Area", The Linguistic Society of Korea, Korean Linguistic, 21, pp.239-267, 2003.
Eun-A Seo, Netizens Language, communication Books, 2007.
David Crystal, Is it text messages the disaster of language? Is Evolution?, Almabooks, 2011.
Sung-Kwon Choi, Ki-Young Lee, Yoon-Hyung Roh, Oh-Woog Kwon, Young-Gil Kim, "Customization Method for Commercialization of a Pattern-based English-Korean Machine Translation System", KOREA INFORMATION SCIENCE SOCIETY, Journal of KISS : Software and Applications, 39(4), pp.253-260, 2012.
Sung-Kwon Choi, Young-Kil Kim, "Semantic Classification of Lexical Translation Patterns Extracted from Bilingual Corpus and Application of Lexical Translation Patterns to MT System", The Korean Association Of Translation Studies, The Journal of translation studies, 11(3), pp.277-301, 2010.
M.G. Barry, M.E. Purcell, B.J. Eck, J. Hayes, E. Arandia, "Web Services for Water Systems: The iWIDGET REST API", 16th Water Distribution System Analysis Conference, Procedia Engineering, Vol. 89, pp.1120-1127, 2014.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.