[논문]데이터전송효율을 고려한 유니코드의 한글글자마디에 대한 연구

홍완표

doi:10.13067/jkiecs.2015.10.1.39

데이터전송효율을 고려한 유니코드의 한글글자마디에 대한 연구
A Study on the Hangul Syllables of Unicode System considering Data Transmission Efficiency 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.10 no.1, 2015년, pp.39 - 46

초록
AI-Helper

본 논문은 유니코드 한글글자마디부호를 사용할 때 스크램블링으로 인하여 회선부호기의 데이터 전송효율에 미치는 영향을 연구하였다. 회선부호기의 스크램블링은 원천부호의 문제를 해결하기 위한 것이다. 본 논문은 장거리전송에 사용되는 AMI회선부호화에 적용하는 국제표준방식인 HDB-3 스크램블링 방식을 토대로 하였다. 본 연구에 필요한 한글글자마디와 이에 대한 사용빈도는 국립국어원의 한국어자료를 분석한 데이터를 사용하였다. 연구결과 유니코드 한글글자마디에서 평균 24%의 스크램블링이 발생하였다. 유니코드 한글글자마디부호에 참고된 한글글자마디를 적용할 경우에 평균 27%의 스크램블링이 발생하였다. 유니코드 총 11,172개의 한글글자마디에서 스크램블링이 발생하지 않는 글자마디는 총 8,928개였다. 그러므로 참고된 한글글자마디 총1,540자를 스크램블링이 발생하지 않는 부호영역에 수용하여 스크램블링이 발생되지 않는 원천부호체계를 만드는 것이 가능하다는 결론을 도출하였다. 새로운 한글글자마디 부호체계를 적용할 경우, 27%의 스크램블링을 완전히 제거할 수 있다. 또한 물리계층의 회선 부호화기에서 발생하는 스크램블링을 표현계층에서 소프트웨어 적으로 수행하게 되어, 회선부호기의 데이터전송처리 효율을 최소 27%이상 제고시킬 수 있다.

Abstract ▼ AI-Helper

The paper studied possibility of improvement of efficient of data processing in the line coder when Hangul syllables in Unicode system is used for the source code. The scrambling in the line coder is to solve the problem happened due to the source code. The study is based on the HDB-3 scrambling method in ITU-T standards that is applied to AMI line coder. The referred data of Hangul syllables and its use frequency which are required to analysis was used the data extracted from the source data of the National Korean Language Institute. According to the analysis, the average 24% scrambling was generated in source code of Hangul syllables in Unicode system. When the referred Hangul syllables was applied to Unicode system, the average 27% scrambling was producted. Total 8,924ea Hangul syllables in 11,172ea Hangul syllables in Unicode system were not scrambled. Therefore the referred Hangul syllables 1,540ea were accepted in the unscrambled code areas. As a result, the existing Unicode Hangul syllable codes can't prevent the scrambling, but it is possible to completely remove the 27% scrambling with new source coding system. And then, it can be improved the data processing efficient upto minimum 27% in line coder by software in presentation layer instead of physical layer.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 국제 원천부호체계인 유니코드부호체계에 속한 한글글자마디부호가 회선 부호기 과정에서 미치는 영향을 분석하여 그 영향의 정도를 정량적으로 산출하였다. 유니코드의 한글글자마디가 회선부호 과정에 미치는 영향은 회선부호과정에서 원천부호로 인하여 발생하는 뒤섞기의 발생량으로 산출하였다.
결과적으로 회선 부호기에서의 스크램블링 기능은 데이터의 전송효율에 영향을 주게 된다. 본 논문은 국제적으로 널리 사용되는 유니코드내의 한글글자마디 부호가 회선 부호기의 스크램블링에 어느 정도 영향을 주는지를 발생하는지 정량적으로 분석하였다. 유니코드내에서의 스크램블링 발생에 대한 분석은 참고문헌[2]에서 제시하고 있는 문자의 원천부호화 규칙을 적용하였다.

제안 방법

유니코드내에서의 스크램블링 발생에 대한 분석은 참고문헌[2]에서 제시하고 있는 문자의 원천부호화 규칙을 적용하였다. 그리고 스크램블링 발생량을 정량적으로 산출하기 위해 글자의 사용빈도통계를 사용하였다. 글자의 사용빈도 통계는 국립국어원의 한글파일에 수록되어 있는 58,434개의 한국어를 분석하여 제시한 참고문헌[3]의 연구결과를 토대로 하였다.
뒤섞기의 발생량은 한글글자마디 각각의 뒤섞기 발생하는 글자마디를 분석한 후에, 뒤섞기가 발생하는 글자마디의 사용빈도를 산출하여 그 산출량을 뒤섞기 산출량으로 도출하였다. 이를 위해 국립국어원에서 발표한 한국어사용빈도를 근거로 분석된 한글글자마디와 그에 대한 사용빈도통계를 사용하였다.
뒤섞기의 발생량은 한글글자마디 각각의 뒤섞기 발생하는 글자마디를 분석한 후에, 뒤섞기가 발생하는 글자마디의 사용빈도를 산출하여 그 산출량을 뒤섞기 산출량으로 도출하였다. 이를 위해 국립국어원에서 발표한 한국어사용빈도를 근거로 분석된 한글글자마디와 그에 대한 사용빈도통계를 사용하였다. 분석결과 유니코드 한글글자마디에서 총 글자마디 대비 약 24%의 뒤섞기가 발생하였고 한국어 조사 글자마디 중에서 약 27%의 뒤섞기가 발생하는 것으로 분석되었다.
이상에서 한글글자체계에 대한 현황과 유니코드와 한국어 한글글자마디에 대한 사용 빈도율을 살펴보았다.
총 14개의 글자그룹중에서 원천부호화 규칙의 조합제한에 가장 많은 부분을 차지하는 “ㄱ”, “ㄴ” 및 “ㄷ”의 세 개 그룹에 대하여만 발췌하여 제시하였다.

대상 데이터

그리고 스크램블링 발생량을 정량적으로 산출하기 위해 글자의 사용빈도통계를 사용하였다. 글자의 사용빈도 통계는 국립국어원의 한글파일에 수록되어 있는 58,434개의 한국어를 분석하여 제시한 참고문헌[3]의 연구결과를 토대로 하였다. 참고문헌[4]의 연구결과에 의하면 국립국어원에서 발표한 한국어 58,434자(한국어이용빈도조사 : 국립국어원)를 구성하고 있는 글자 수는 총1,540자이다.
향후 연구하여야 할 분야로는 본 논문의 연구결과를 기초로 뒤섞기가 발생하지 않는 원천부호체계를 구현하는 것이다. 또한 유니코드 부호체계를 현행대로 유지하면서 새로운 부호체계를 적용할 수 있는 두 부호체계간의 호환 프로그램의 구현 등에 대한 방안도 연구대상이다.

이론/모형

본 논문은 국제적으로 널리 사용되는 유니코드내의 한글글자마디 부호가 회선 부호기의 스크램블링에 어느 정도 영향을 주는지를 발생하는지 정량적으로 분석하였다. 유니코드내에서의 스크램블링 발생에 대한 분석은 참고문헌[2]에서 제시하고 있는 문자의 원천부호화 규칙을 적용하였다. 그리고 스크램블링 발생량을 정량적으로 산출하기 위해 글자의 사용빈도통계를 사용하였다.

성능/효과

유니코드 한글글자마디 글자수로 볼 때 총 11,172개의 한글글자마디에서 뒤섞기가 발생하지 않는 글자마디는 총 8,928개였다. 그러므로 한국어 조사 한글글자마디 총1,540자를 뒤섞기가 발생하지 않는 부호 영역에서 부호화한다하여도 뒤섞기가 발생하지 않는 부호가 총 7,388개가 되는 것으로 나타났다. 그러므로 현재의 유니코드 한글글자마디 부호체계내에서도 뒤섞기가 발생되지 않는 부호체계를 구현할 수 있는 것으로 나타났다.
그러므로 한국어 조사 한글글자마디 총1,540자를 뒤섞기가 발생하지 않는 부호 영역에서 부호화한다하여도 뒤섞기가 발생하지 않는 부호가 총 7,388개가 되는 것으로 나타났다. 그러므로 현재의 유니코드 한글글자마디 부호체계내에서도 뒤섞기가 발생되지 않는 부호체계를 구현할 수 있는 것으로 나타났다. 한편 현재 뒤섞기가 물리계층에서 하드웨어적으로 수행되고 있는데 이를 표현계층의 소프트웨어적으로 처할 수 있어 데이터의 전송효율에 대한 제고도가 높을 것으로 분석되었다.
또한 사용 빈도율이 가장 낮은 “ㅋ”그룹의 경우에는 상대적으로 사용 빈도율이 높은 “ㅈ”그룹보다 한국어조사 글자수대 유니코드 글자수의 비율이 높은 것으로 나타났다.
이를 위해 국립국어원에서 발표한 한국어사용빈도를 근거로 분석된 한글글자마디와 그에 대한 사용빈도통계를 사용하였다. 분석결과 유니코드 한글글자마디에서 총 글자마디 대비 약 24%의 뒤섞기가 발생하였고 한국어 조사 글자마디 중에서 약 27%의 뒤섞기가 발생하는 것으로 분석되었다. 유니코드 한글글자마디 글자수로 볼 때 총 11,172개의 한글글자마디에서 뒤섞기가 발생하지 않는 글자마디는 총 8,928개였다.
즉 스크램블링이 발생하는 원인이 되는 조합이 되는 것이다. 이 규칙에 의하여 유니코드 한글글자마디 한 개의 부호를 형성하고 있는 16비트 조합중에서 스크램블링이 발생하는 것을 분석할 수 있다. 또한 이 규칙에 의하여 사용 빈도가 높은 글자마디에는 스크램블링이 발생하지 않는 비트열로 부호화한다[5-7].
이 원천 부호화 규칙에 의하여 분석한 결과 유니코드 한글글자마디의 경우에는 표 5에서와 같이 11,172자의 글자마디 부호 중에서 2,544개의 부호에 뒤섞기가 발생하는 것으로 분석되었다. 이것은 전체의 24%에 해당되는 높은 값이다.
한국어 조사 글자마디의 경우에는 총49자에 뒤섞기가 발생하여 뒤섞기 발생율이 51%에 달했다. 이와 같이 유니코드 글자마디 전체로 볼 때, 글자마디 총 11,172개 중에서 총 2,544개의 글자마디에 뒤섞기가 발생하여 뒤섞기 발생율이 평균 24%에 달했다. 한국어 조사 글자마디의 경우에는 총394개의 부호에서 뒤섞기가 발생하여 평균 뒤섞기 발생율이 27%에 달하는 것으로 분석되었다.
즉, 한국어 조사 한글글자마디가 총 1,540개인 점을 고려할 때 이 글자마디 모두를 뒤섞기가 발생하지 않는 부호영역에서 부호화할 수 있다는 것을 뜻한다. 유니코드 한글글자마디 부호영역에서는 한국어 조사 한글글자마디 1,540자를 뒤섞기가 발생하지 않는 부호영역에서 부호화한 후에도 뒤섞기가 발생하지 않는 부호수가 총7,088개나 남는 결과를 나타냈다.
표 5에서 글자 그룹별로 뒤섞기 발생 현황을 볼 때, “ㄱ”그룹의 경우 총1,176개의 글자마디 부호 중에서 403개가 뒤섞기가 발생하여 뒤섞기 발생율이 34%에 달했다.

후속연구

한편 현재 뒤섞기가 물리계층에서 하드웨어적으로 수행되고 있는데 이를 표현계층의 소프트웨어적으로 처할 수 있어 데이터의 전송효율에 대한 제고도가 높을 것으로 분석되었다. 향후 연구하여야 할 분야로는 본 논문의 연구결과를 기초로 뒤섞기가 발생하지 않는 원천부호체계를 구현하는 것이다. 또한 유니코드 부호체계를 현행대로 유지하면서 새로운 부호체계를 적용할 수 있는 두 부호체계간의 호환 프로그램의 구현 등에 대한 방안도 연구대상이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	유니코드에는 한글글자가 몇 개 부호화되어있는가?	유니코드에는 총 11,172개의 한글글자마디 부호가 가, 나, 다 순서로 부호화되어 있다. 유니코드에는 이 한글글자마디 외에 한국표준 KSX 1001에 있는 한글 글자마디 2,350자와 한글낱자들을 포함하고 있다.
	뒤섞기 산출량을 도출하기 위해 사용한 자료는?	뒤섞기의 발생량은 한글글자마디 각각의 뒤섞기 발생하는 글자마디를 분석한 후에, 뒤섞기가 발생하는 글자마디의 사용빈도를 산출하여 그 산출량을 뒤섞기 산출량으로 도출하였다. 이를 위해 국립국어원에서 발표한 한국어사용빈도를 근거로 분석된 한글글자마디와 그에 대한 사용빈도통계를 사용하였다. 분석결과 유니코드 한글글자마디에서 총 글자마디 대비 약 24%의 뒤섞기가 발생하였고 한국어 조사 글자마디 중에서 약 27%의 뒤섞기가 발생하는 것으로 분석되었다.
	정보통신망에서 전송되는 한글부호는 어떤 표준을 따르는가?	현재 정보통신망에서 전송되는 한글부호는 크게 한국 KS표준인 KSX 1001 (정보교환용부호계: 국가기술표준원)과 ISO 10646-1 Unicode 1.1 (Unidoce versions : wikibooks). 국제표준을 따르고 있다. 현재 한글 문서 작성기는 한국 표준인 KSX 1001한글 부호와 ISO 10646-1 Unicode 1.

참고문헌 (7)

B. A. Forouzan, Data communications and Networking, 4th ed. New York : McGraw Hill, 2007.
W. Hong, "Coding Rule of Characters by 2 bytes with 4x4 bits to Improve the Transmission Efficiency in Data Communications," J. of Korea Navigation Institute, vol. 15, no. 5, Oct. 2011, pp. 749-756.
W. Hong, "Hangul Jamo Analysis Optimum Transmission Coding of Hangul," In Proc. Korea Institute of Electronic Communication Sciences, 2014 Autumn Conf., Cheonan, Korea, Nov. 2014, pp. 109-114.
W. Hong, "Hangul Analysis for Optimum Hangul Coding," In Proc. Korea Institute of Electronic Communication Sciences, 2014 Autumn Conf., Cheonan, Korea, Nov. 2014, pp. 105-108.
Y. Han, "A study on motion prediction and subband coding of moving pictuers using GRNN," J. of the Korea Institute of Electronic Communication Sciences, vol. 5, no. 3, 2010, pp. 256-261.
K. Lee and Y. Son, "Fast Encoding Algorithm of Low Density Codes," J. of the Korea Institute of Electronic Communication Sciences, vol. 9, no. 4, 2014, pp. 403-408.

원문보기 상세보기
Y. Kim, "A Study on Fractal Image Coding," J. of the Korea Institute of Electronic Communication Sciences, vol. 7, no. 3, 2012, pp. 559-566.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증