최근 소셜 네트워크 서비스(SNS)의 발전으로 빅데이터가 출현하였고, 이를 분석하기 위한 분산 병렬 플랫폼으로 하둡이 개발되었다. 하둡을 사용하는 기업은 개인적인 정보가 포함된 데이터를 분석하여 마케팅 등에 활용하고 있다. 이에 따라, 하둡에 저장된 센서티브(sensitive) 데이터의 유출을 방지하기 위한 데이터 암호화 연구가 수행되었다. 하지만 기존 데이터 암호화에 대한 연구는 국외 표준인 AES 암호화 알고리즘만을 지원하는 한계점이 존재한다. 한편 정부에서는 데이터 암호화 알고리즘으로 ARIA 알고리즘을 국내 표준으로 지정하였다. 본 논문에서는 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 첫째, 제안하는 암호화 기법은 하둡의 분산 컴퓨팅 환경에서 ARIA 암호화 및 복호화를 수행하는 HDFS 블록 분할 컴포넌트를 제공한다. 둘째, 제안하는 암호화 기법은 데이터의 마지막 블록이 128비트 단위의 데이터가 아닐 경우, 더미(dummy) 데이터를 추가하여 암호화 및 복호화를 수행하는 가변길이 데이터 처리 컴포넌트를 제공한다. 마지막으로 성능 평가를 통해, 제안하는 ARIA 기반 암호화 기법이 텍스트 문자열 처리 응용 및 과학 데이터 분석 응용에서 효과적으로 사용될 수 있음을 보였다.
최근 소셜 네트워크 서비스(SNS)의 발전으로 빅데이터가 출현하였고, 이를 분석하기 위한 분산 병렬 플랫폼으로 하둡이 개발되었다. 하둡을 사용하는 기업은 개인적인 정보가 포함된 데이터를 분석하여 마케팅 등에 활용하고 있다. 이에 따라, 하둡에 저장된 센서티브(sensitive) 데이터의 유출을 방지하기 위한 데이터 암호화 연구가 수행되었다. 하지만 기존 데이터 암호화에 대한 연구는 국외 표준인 AES 암호화 알고리즘만을 지원하는 한계점이 존재한다. 한편 정부에서는 데이터 암호화 알고리즘으로 ARIA 알고리즘을 국내 표준으로 지정하였다. 본 논문에서는 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 첫째, 제안하는 암호화 기법은 하둡의 분산 컴퓨팅 환경에서 ARIA 암호화 및 복호화를 수행하는 HDFS 블록 분할 컴포넌트를 제공한다. 둘째, 제안하는 암호화 기법은 데이터의 마지막 블록이 128비트 단위의 데이터가 아닐 경우, 더미(dummy) 데이터를 추가하여 암호화 및 복호화를 수행하는 가변길이 데이터 처리 컴포넌트를 제공한다. 마지막으로 성능 평가를 통해, 제안하는 ARIA 기반 암호화 기법이 텍스트 문자열 처리 응용 및 과학 데이터 분석 응용에서 효과적으로 사용될 수 있음을 보였다.
Due to the growth of social network systems (SNS), big data are realized and Hadoop was developed as a distributed platform for analyzing big data. Enterprises analyze data containing users' sensitive information by using Hadoop and utilize them for marketing. Therefore, researches on data encryptio...
Due to the growth of social network systems (SNS), big data are realized and Hadoop was developed as a distributed platform for analyzing big data. Enterprises analyze data containing users' sensitive information by using Hadoop and utilize them for marketing. Therefore, researches on data encryption have been done to protect the leakage of sensitive data stored in Hadoop. However, the existing researches support only the AES encryption algorithm, the international standard of data encryption. Meanwhile, Korean government choose ARIA algorithm as a standard data encryption one. In this paper, we propose a HDFS data encryption scheme using ARIA algorithms on Hadoop. First, the proposed scheme provide a HDFS block splitting component which performs ARIA encryption and decryption under the distributed computing environment of Hadoop. Second, the proposed scheme also provide a variable-length data processing component which performs encryption and decryption by adding dummy data, in case when the last block of data does not contains 128 bit data. Finally, we show from performance analysis that our proposed scheme can be effectively used for both text string processing applications and science data analysis applications.
Due to the growth of social network systems (SNS), big data are realized and Hadoop was developed as a distributed platform for analyzing big data. Enterprises analyze data containing users' sensitive information by using Hadoop and utilize them for marketing. Therefore, researches on data encryption have been done to protect the leakage of sensitive data stored in Hadoop. However, the existing researches support only the AES encryption algorithm, the international standard of data encryption. Meanwhile, Korean government choose ARIA algorithm as a standard data encryption one. In this paper, we propose a HDFS data encryption scheme using ARIA algorithms on Hadoop. First, the proposed scheme provide a HDFS block splitting component which performs ARIA encryption and decryption under the distributed computing environment of Hadoop. Second, the proposed scheme also provide a variable-length data processing component which performs encryption and decryption by adding dummy data, in case when the last block of data does not contains 128 bit data. Finally, we show from performance analysis that our proposed scheme can be effectively used for both text string processing applications and science data analysis applications.
본 논문에서는 국내 표준으로 채택된 ARIA 암호화 알고리즘을 하둡 기반의 응용에 사용하기 위해, 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 제안하는 기법은 데이터를 HDFS 블록 단위(64MB)로 나누어 암호화를 수행함으로써 하둡 분산 병렬 처리 환경에서 암호화 및 복호화를 지원하는 HDFS 블록 분할 컴포넌트를 제공하고, 암호화 블록 단위인 128비트 단위의 데이터뿐만 아니라 가변 길이의 데이터 암호화를 제공하는 가변길이 데이터 처리 컴포넌트를 제공한다.
제안 방법
본 논문에서는 국내 표준으로 채택된 ARIA 암호화 알고리즘을 하둡 기반의 응용에 사용하기 위해, 하둡 상에서 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법을 제안하였다. 제안하는 기법은 데이터를 HDFS 블록 단위(64MB)로 나누어 암호화를 수행함으로써 하둡 분산 병렬 처리 환경에서 암호화 및 복호화를 지원하는 HDFS 블록 분할 컴포넌트를 제공하고, 암호화 블록 단위인 128비트 단위의 데이터뿐만 아니라 가변 길이의 데이터 암호화를 제공하는 가변길이 데이터 처리 컴포넌트를 제공한다. 아울러 국내외 표준을 지원하기 위한 ARIA/AES 코덱 변환 기능을 추가적으로 제공한다.
따라서 본 논문에서는 HDFS 코덱 기반 ARIA 암호화 기법을 제안한다. 제안하는 암호화 기법은 첫째, 데이터를 HDFS 블록 데이터로 나누어 암호화 및 복호화를 수행하기위해, 하둡의 분산 컴퓨팅 환경에서 ARIA 암호화 및 복호화를 수행하는 HDFS 블록 분할 컴포넌트를 제공한다. 둘째, 기존 AES 기반 하둡 암호화 기법은 암호화 블록 단위인 128비트 단위의 데이터만을 암호화/복호화를 수행한다.
대상 데이터
네 개의 응용에 사용한 각 데이터는 Table 3과 같다. Table 2에서 위키피디아 영문 덤프 데이터 및 메타위키 토막글 덤프 데이터는 타임스탬프가 포함된 XML 데이터 셋이며, MODIS AQUA 데이터는 해양 과학 분야에서 사용하는 연/월 간 해조류 정보를 포함하는 데이터이다.
데이터처리
아울러 ARIA 알고리즘을 이용한 HDFS 데이터 암호화 기법에 대한 성능평가는 문자열 데이터를 처리하는 두 개의 대표적인 응용 및 과학 빅데이터 처리를 수행하는 두 개의 대표적 응용에 대해 성능을 측정하였다. 단어계산 응용은 문자열 데이터를 처리하는 가장 기본적인 응용이며, 정렬 응용은 단어 계산보다 연산량이 많은 응용에 대해 암호화 알고리즘의 처리성능을 확인할 수 있다.
성능/효과
아울러 국내외 표준을 지원하기 위한 ARIA/AES 코덱 변환 기능을 추가적으로 제공한다. 성능평가에서는 단어계산, 정렬, k-Means, 계층적 클러스터링 응용에 대해 XML 데이터 및 과학 빅데이터를 사용하여 다양한 응용에 대한 ARIA 암호화를 지원할 수 있음을 보였다. 제안하는 ARIA 기반 암호화 기법은 AES 기반 암호화 기법과 비교하여 성능이 2-3% 늦은 것으로 나타났으나, AES 와 동일한 암호화 Key 비트 적용을 통해 같은 수준의 데이터 보호도를 지원하고, 가변 길이 블록을 지원하는 장점을 지니고 있다.
성능평가에서는 단어계산, 정렬, k-Means, 계층적 클러스터링 응용에 대해 XML 데이터 및 과학 빅데이터를 사용하여 다양한 응용에 대한 ARIA 암호화를 지원할 수 있음을 보였다. 제안하는 ARIA 기반 암호화 기법은 AES 기반 암호화 기법과 비교하여 성능이 2-3% 늦은 것으로 나타났으나, AES 와 동일한 암호화 Key 비트 적용을 통해 같은 수준의 데이터 보호도를 지원하고, 가변 길이 블록을 지원하는 장점을 지니고 있다.
후속연구
향후 연구로는 위치 정보, 금융 정보 등 실생활에서 사용되는 데이터에 대해 본 연구에서 제안하는 암호화 기법을 적용하여 보안을 지원하는 것이다. 아울러 더미 데이터를 공백문자로 채웠을 때, 산술 데이터를 처리할 경우에는 정수형이나 복소수형의 변수 값으로 변환할 때 가장 뒤에 채워진 공백문자를 무시하기 때문에 원본 데이터에 대한 손실우려가 없다.
질의응답
핵심어
질문
논문에서 추출한 답변
AES 암호화 알고리즘은 무엇인가?
AES 암호화 알고리즘[7, 8]은 미국 표준 기술 연구소(NIST)에서 연방 정보처리 표준으로 발표한 대칭키 기반 암호화 알고리즘으로, 현재 국외에서는 프로그램에서 관리하는 데이터에 암호화가 필요할 경우, AES 암호화 알고리즘을 보편적으로 활용하고 있다.
하둡은 케르베로스 시스템을 통해 무엇을 차단하는가?
첫째, 네트워크 공격을 통한 데이터 유출을 방지하기 위한 연구로, 케르베로스(Kerberos)[3, 4]가 존재한다. 하둡은 케르베로스 시스템을 통해, 사용자 인증을 이용한 네트워크 보안을 지원하여 외부의 악의적인 공격자의 접근을 차단한다. 둘째, 하둡 내부의 데이터 보호를 위해 HDFS(Hadoop Distributed File System)내 데이터를 압축하는 코덱(Compression Codec) 기능을 이용하여 데이터 암호화를 수행하는 연구[5, 6]가 존재한다.
ARIA 알고리즘의 특징은 무엇인가?
ARIA 알고리즘[9, 10]은 국가 보안 기술 연구소 주도로 학계, 연구소, 정부기관 등의 암호 기술 전문가들이 개발한국내 기술 암호화 알고리즘이다. 128비트의 데이터 블록을 처리할 수 있으며, AES와 동일한 128/192/256비트의 암호화 키를 사용한다. 대부분의 연산은 XOR과 같은 비트 연산으로 구성되어 있으며, 키 크기에 따라 12/14/16 라운드로 암호화를 수행하여 데이터 보호 복잡도를 시스템 성능 요구에 맞추어 제공할 수 있다. 아울러 ARIA는 AES와 동일한 128비트 블록 비트 기반의 데이터 암호화를 수행하기 때문에 국내에서 AES 암호화 알고리즘을 대체할 수 있는 특징이 존재한다. Table 1은 AES와 ARIA를 비교한 것이다.
참고문헌 (11)
J. Dean and S. Ghemawat, "MapReduce: Simplified data processing on large clusters," Communications of the ACM, Vol.51, Issue.1, pp.107-113, 2008.
S. Narayanan, "Securing Hadoop : Implement robust end-to-end security for your Hadoop ecosystem," 1st Vol, PACKT Publishing, 2014.
So Hyeon Park and Ik Rae Jeong, "A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos," Journal of the Korea Institute of Information Security and Cryptology, Vol.23, Issue.5, pp.803-813, 2013.
Liu Yi, Hadoop Crypto Design [Internet], https://issues.apache.org/jira/secure/attachment/12571116/HadoopCryptoDesign.pdf.
Seonyoung Park and Youngseok Lee, "A Performance Analysis of Encryption in HDFS," Journal of KISS : Databases, Vol.41, Issue.1, pp.21-27, 2014.
Byeong-yoon Choi. "Design of Cryptographic Processor for AES Rijndael Algorithm," The Journal of The Korean Institute of Communication Sciences, Vol.26, Issue.10, pp. 1491-1500, 2001.
Yong Kuk Cho, Jung Hwan Song, and Sung Woo Kang, "Criteria for Evaluating Cryptographic Algorithms based on Statistical Testing of Randomness," Journal of the Korea Institute of Information Security and Cryptology, Vol.11, Issue.6, pp.67-76, 2001.
ARIA Development Team, Block Encryption Algorithm ARIA [Internet], http://glukjeoluk.tistory.com/attachment/ok110000000002.pdf.
Korea Internet & Security Agency, 민관겸용 블록 암호 알고리즘 ARIA 알고리즘 명세서 [Internet], http://seed.kisa.or.kr/iwt/ko/bbs/EgovReferenceDetail.do?bbsIdBBSMSTR_000000000002&nttId39&pageIndex1&searchCnd&searchWrd.
Jeffrey Root, Intel $^{(R)}$ Advanced Encryption Standard Instructions(AES-NI), https://software.intel.com/en-us/articles/intel-advanced-encryption-standard-instructions-aes-ni.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.