[논문]한글 부호의 최적화 전송을 위한 한국어 낱자 분석

홍완표

doi:10.13067/jkiecs.2015.10.1.33

한글 부호의 최적화 전송을 위한 한국어 낱자 분석
An Analysis on the Korean Language for Optimum Transmission of Hangul Code 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.10 no.1, 2015년, pp.33 - 38

초록
AI-Helper

본 논문은 한글부호의 전송을 최적화하는데 요구되는 한글낱자를 연구하였다. 한글낱자는 한국어를 구성하고 있는 한글을 토대로 하여 분석하였다. 한글낱자의 분석은 세가지 유형을 대상으로 하여 수행하였다. 첫번째 대상은 한글맞춤법 통일안의 24개 낱자이었다. 두번째 대상은 표준 두벌식 글자판의 낱자 28개이었다. 세 번째 대상은 한글맞춤법 통일안에 겹낱자를 포함한 총 54개 낱자이었다. 이 세가지 분석대상별로 각 낱자에 대한 사용빈도를 분석하였다. 국립국어원의 한국어자료에 수록된 총 한국어 단어는 총58,437개인데, 단어들은 총 1,540자의 글자로 구성되어 있다. 이 한글들을 분석한 결과, 사용빈도수를 보면, 첫 번째 대상의 경우, 닿소리는 "ㅇ"이 가장 많고 "ㅋ"이 가장 적었으며 홑소리는 "ㅏ"가 가장 많고 "ㅑ"가 가장 적었다. 두 번째 대상의 경우, 닿소리는 첫 번째 대상과 같고 홑소리는 "ㅏ"가 가장 많고 "ㅒ"가 가장 적었다. 세 번째 대상의 경우, 닿소리는 "ㄱ"이 가장 많고 "ㄽ"이 가장 적었으며 홑소리는 "ㅏ"가 가장 많고 "ㅞ"가 가장 적었다.

Abstract ▼ AI-Helper

The goal of this paper is to propose the Hangul Jamo to make a optimum transmission code of Hangul consonant and vowel(Jamo). The Hangul Jamo was analyzed by three kinds of Hangul Jamo. First one is the basic Hangul Jamo which is consisted by 24ea Jamo. Second one is a two combination keyboard which has 28ea Jamo. Third one is 54 Jamo set which is added the double Jamo to the second one. Use frequency of Hangul-Jamo is analyzed based on the Hangul in "Modern Korean Use Frequency Rate Survey Result" issued by The National Institute of the Korean Language". Total 58,437 Korean words are contained in the report and the words are composed with Hangul 1,540ea. The results of this study are as follows, In the Jamo are that in the first Jamo set case, the highest use frequency consonant is "ㅇ" and the lowest one is "ㅋ", and in the vowel case, the highest use frequency one is "ㅏ" and the lowest one is "ㅑ". In the second case, the highest use frequency consonant is same as first case and the highest vowel is "ㅏ" and the lowest one is "ㅒ". In the third case, the highest consonant is "ㅏ" and the lowest one is "ㅞ". the highest vowel is "ㄱ" and the lowest one is "ㄽ".

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 정보처리 및 네트워크에 전송되는 한글 낱자의 부호화를 최적화하는데 적용할 목적[6-8]으로 한국어에 대한 낱자와 그에 대한 사용빈도수를 분석하였다. 연구결과 한국어 총 58,437자를 구성하고 있는 한글, 총 1,526자를 분석한 결과 한국어를 구성하고 있는 낱자는 닿소리 30자, 홀소리 21자, 즉 51개의 낱자로 구성되어 있는 것이다.
이렇게 할 경우 회선부호화과정에서 작동하는 스크램블러의 동작횟수를 감소시켜 회선부호기의 운용효율을 증가 시킬 수 있거나 현재 물리계층에서 동작하는 스크램블러 기능을 표현계층에서 소프트웨어적으로 처리해 줌으로써 회선부호기의 운용효율을 더욱 증가시킬 수 있다. 본 논문은 통신에 적합한 한글 낱자 부호 체계를 갖는데 필요한 한글 낱자에 대한 사용현황과 사용 빈도수를 분석하였다.

제안 방법

그리고 모음 중에서 겹 낱자가 있는 글자만을 뽑아서 한 부분으로 만들었다. 네 번째로 이렇게 정렬된 각 부분에서 동일 한 낱자끼리 모아 그 사용빈도를 합하여 각 낱자별로 한 개씩으로 정리하였다. 다섯 번째로 이렇게 정렬된 첫소리, 가운데소리, 끝소리 낱자 및 겹 낱자 묶음을 토대로 하여 세가지 유형으로 정리하였다.
네 번째로 이렇게 정렬된 각 부분에서 동일 한 낱자끼리 모아 그 사용빈도를 합하여 각 낱자별로 한 개씩으로 정리하였다. 다섯 번째로 이렇게 정렬된 첫소리, 가운데소리, 끝소리 낱자 및 겹 낱자 묶음을 토대로 하여 세가지 유형으로 정리하였다. 첫 번째 유형은 한글맞춤법통일안의 닿소리 14개, 홀소리 10개에 대한 것이다.
그리고 각 부분에서 첫소리 겹 낱자만을 추려서 한 부분을 만들었다. 다음으로 끝소리 낱자를 분석하기 위해 한글전체 한 부분을 끝소리 자음순서대로 나누어서 정렬하였다. 그리고 역시 이 부분에서 끝 소리 겹 낱자만을 추려서 한 부분으로 만들었다.
분석절차는 첫 번째로 한국어 구성글자 1,540자를 오름차순으로 정렬하였다. 두 번째로 이렇게 정렬된 글자묶음을 첫소리, 끝소리, 가운데소리 세부분으로 정리하기 위해 여섯 부분으로 나누었다. 세 번째로 첫소리 낱자를 분석하기 위해 세 부분 중 한 부분을 첫소리 자음순서대로 14개로 나누어서 정렬하였다.
본 논문에서는 한글의 낱자구성 현황을 분석하기 위하여 한국어의 글자구성현황을 분석한 결과를 사용하였다. 분석을 위하여 사용된 한국어는 국립국어원의 연구보고서 “현대국어사용빈도조사” 자료를 대상으로 분석한 것이다(한국어이용빈도조사: 국립국어원).
한국어의 낱자 분석은 한국어의 글자 분석 자료를 토대로 하였다. 분석절차는 첫 번째로 한국어 구성글자 1,540자를 오름차순으로 정렬하였다. 두 번째로 이렇게 정렬된 글자묶음을 첫소리, 끝소리, 가운데소리 세부분으로 정리하기 위해 여섯 부분으로 나누었다.
두 번째로 이렇게 정렬된 글자묶음을 첫소리, 끝소리, 가운데소리 세부분으로 정리하기 위해 여섯 부분으로 나누었다. 세 번째로 첫소리 낱자를 분석하기 위해 세 부분 중 한 부분을 첫소리 자음순서대로 14개로 나누어서 정렬하였다. 그리고 각 부분에서 첫소리 겹 낱자만을 추려서 한 부분을 만들었다.

대상 데이터

본 논문의 주제인 한글 낱자는 한글기본낱자의 경우, 첫소리 19자, 가운데소리 21자, 끝소리27자로 구성되어 있다[2]. 그러나 KS X 1001에는 첫소리 44자 가운데소리 21자, 끝소리 51자로 부호화되어 있다.
참고로 연구결과상의 한글수대 유니코드 및 KS X 1001체계를 볼 때 유니코드체계는 연구결과 한글 수보다 약 730%, KS X 1001체계는 약 150% 한글 수가 더 많은 것으로 나타났다. 본 연구에 적용된 한글 수는 일반적으로 상용으로 보편적으로 사용되고 있는 한글이다. 즉 통신망에 전송되는 한글은 대부분 이것들임을 알 수 있다.
분석을 위하여 사용된 한국어는 국립국어원의 연구보고서 “현대국어사용빈도조사” 자료를 대상으로 분석한 것이다(한국어이용빈도조사: 국립국어원).
표 5는 현대낱자를 기준으로 하여 분석한 것이다. 즉 닿소리와 홀소리에 있는 모든 겹 낱자를 제외하고 순수하게 24개의 낱자만을 기준으로 한 것이다. 이 경우에는 표 5에서 보듯이 닿소리는 “ㅇ”이 가장 사용 빈도가 “ㅍ”이 사용빈도가 가장 낮다.

성능/효과

KS X 1001 국내표준의 경우에는 연구결과보다 42개의 낱자를 더 사용하고 있다. 문자 사용수대 조합가능 문자수를 보면 연구결과는 14%, 유니코드는 0.7%, KS X 1001 체계는 5.2% 사용하는 것으로 나타났다. 참고로 연구결과상의 한글수대 유니코드 및 KS X 1001체계를 볼 때 유니코드체계는 연구결과 한글수보다 약 730%, KS X 1001체계는 약 150% 한글수가 더 많은 것으로 나타났다.
본 연구결과는 통신용에 적합한 최적의 한글부호체계를 마련하는데 적용이 가능할 뿐만 아니라 타이핑 능률을 제고시키는 한글자판상 한글배치에도 적용이 가능하다. 향후 본 연구결과를 적용한 최적 통신용 한글부호체계에 대한 연구와 최고 타이핑 능률을 제고시키는 한글자판의 연구가 이루어질 것으로 기대한다.
본 논문은 정보처리 및 네트워크에 전송되는 한글 낱자의 부호화를 최적화하는데 적용할 목적[6-8]으로 한국어에 대한 낱자와 그에 대한 사용빈도수를 분석하였다. 연구결과 한국어 총 58,437자를 구성하고 있는 한글, 총 1,526자를 분석한 결과 한국어를 구성하고 있는 낱자는 닿소리 30자, 홀소리 21자, 즉 51개의 낱자로 구성되어 있는 것이다. 이것은 첫소리 낱자 19자, 가운데소리 낱자 21자, 끝소리 낱자 27자로서 한글기본낱자와 동일한 것이다.
2% 사용하는 것으로 나타났다. 참고로 연구결과상의 한글수대 유니코드 및 KS X 1001체계를 볼 때 유니코드체계는 연구결과 한글수보다 약 730%, KS X 1001체계는 약 150% 한글수가 더 많은 것으로 나타났다.
2% 사용하는 것으로 나타났다. 참고로 연구결과상의 한글수대 유니코드 및 KS X 1001체계를 볼 때 유니코드체계는 연구결과 한글수보다 약 730%, KS X 1001체계는 약 150% 한글수가 더 많은 것으로 나타났다.
표 2 - 표 4는 한국어에 대한 낱자를 분석한 결과를 보여주고 있다. 표 2에서와 같이 한국어 총 58,437 자를 구성하고 있는 한글, 총 1,526자를 분석한 결과 한국어를 구성하고 있는 낱자는 표 1의 한글기본낱자와 동일한 낱자로 구성되어 있는 것으로 분석되었다. 표 2는 이와 같이 분석된 낱자를 첫 낱자, 가운데 낱자, 끝 낱자로 구분하여 사용빈도를 분석한 것이다.
KS X 1001 국내표준의 경우에는 연구결과보다 42개의 낱자를 더 사용하고 있다. 한글사용수대 조합가능 한글을 보면 연구결과는 14%, 유니코드는 0.7%, KS X 1001 체계는 5.2% 사용하는 것으로 나타났다. 참고로 연구결과상의 한글수대 유니코드 및 KS X 1001체계를 볼 때 유니코드체계는 연구결과 한글 수보다 약 730%, KS X 1001체계는 약 150% 한글 수가 더 많은 것으로 나타났다.
즉 통신망에 전송되는 한글은 대부분 이것들임을 알 수 있다. 현재의 유니코드 한글부호체계와 KS X 1001체계와 유니코드상에 동일하게 호환용 한글 자모로 부호화 되어 있는 한글낱자에 대한 부호 체계는 통신용으로 사용하기에는 지나치게 많은 부호를 갖고 있는 것으로 나타났다.

후속연구

본 연구결과는 통신용에 적합한 최적의 한글부호체계를 마련하는데 적용이 가능할 뿐만 아니라 타이핑 능률을 제고시키는 한글자판상 한글배치에도 적용이 가능하다. 향후 본 연구결과를 적용한 최적 통신용 한글부호체계에 대한 연구와 최고 타이핑 능률을 제고시키는 한글자판의 연구가 이루어질 것으로 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	회선부호화란?	정보기기에서 생성되는 한글부호는 인터넷 등 정보 통신망으로 전송되기 전에 통신망에 적합한 신호로 부호화된다. 이것을 회선부호화라고 한다[1].
	아래한글 문서작성기는 어떤 한글부호를 사용하는가?	한글을 가장 많이 처리하는 컴퓨터 프로그램은 문서작성기인 아래한 글과 윈도우 오피스의 워드이다. 아래한글 문서작성기 는 한국 표준인 KS X 1001한글 부호와 ISO 10646-1 Unicode 1.1 국제표준의 한글부호를 사용하고 있다. 윈도우 오피스의 워드 문서작성기는 Unicode의 한글 부호를 사용하고 있다.

참고문헌 (8)

B. A. Forouzan, Data Communications and Networking, 4th ed. New York : McGraw Hill, 2007.
W. Hong, "Hangul Jamo Analysis Optimum Transmission Coding of Hangul," In Proc. Korea Institute of Electronic Communication Sciences, 2014 Autumn Conf., Cheonan, Korea, Nov. 2014, pp. 109-114.
J. D. Gibson, The Mobile Communications Handbook Second Edition. Boca Raton: 1999 CRC press, 1999.
W. Stallings, Data and Computer Communications, 8th ed. New Jersey : Pearson Prentice Hall, 2007.
W. Hong, "Hangul Analysis for Optimum Hangul Coding," In Proc. Korea Institute of Electronic Communication Sciences, 2014 Autumn Conf., Cheonan, Korea, Nov. 2014, pp. 105-108.
Y. Han, "A study on motion prediction and subband coding of moving pictuers using GRNN," J. of the Korea Institute of Electronic Communication Sciences, vol. 5, no. 3, 2010, pp. 256-261.
K. Lee and Y. Son, "Fast Encoding Algorithm of Low Density Codes," J. of the Korea Institute of Electronic Communication Sciences, vol. 9, no. 4, 2014, pp. 403-408.

원문보기 상세보기
Y. Kim, "A Study on Fractal Image Coding," J. of the Korea Institute of Electronic Communication Sciences, vol. 7, no. 3, 2012, pp. 559-566.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증