[논문]비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현

김창수; 심규철; 강병준; 김경환; 정회경

doi:10.6109/jkiice.2014.18.2.387

비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현
Design and Implementation of Input and Output System for Unstructured Big Data 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.18 no.2, 2014년, pp.387 - 393

김창수 (Department of Computer Engineering, Paichai University) , 심규철 (Commu Co. Ltd.) , 강병준 (Commu Co. Ltd.) , 김경환 (Commu Co. Ltd.) , 정회경 (Department of Computer Engineering, Paichai University)

초록
AI-Helper

컴퓨터의 보급에 따라 비정형 대용량 데이터가 범람하고 이를 효율적으로 처리하기 노력이 요구되고 있다. 이에 본 논문에서는 오피스(office) 파일(아래한글, MS-Office 등)에 입력된 데이터를 바로 XML로 변환하고, 사용자가 XML 매핑 파일을 만들어서 워드프로세서에 입력 된 데이터를 바로 추출하여 데이터베이스에 저장하는 시스템을 제안하였다. 또한, 본 시스템은 워드프로세스에 양식을 미리 작성하여 필요한 데이터를 데이터베이스에서 조회하여 워드프로세서 문서를 응용프로그램에서 오피스 파일을 생성 할 수 있다. 이는 대용량의 비정형 데이터를 활용가능하게 할 것이다.

Abstract ▼ AI-Helper

In recent years, the spread of computers is increasing, and efficient processing effort for unstructured Big Data is required. In this paper, we are proposed a system to extract the data typed in a word processor quickly by user creating and XML mapping file after converting XML data that has been entered in the office file(HWP, MS-office). In addition, we proposed a system is able to lookup the necessary data from a database by entered form in advance and convert word processor document to office files by the application program. The unstructured big data will be available to be used.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 원본을 XML로 변환하여 이 변환된 XML파일에서 데이터 부분을 추출하기 위하여 매핑 XML 파일을 작성한다. 또한, 원본 XML 파일과 매핑 XML 파일을 파싱하여 원본의 XML 파일에서 데이터를 추출한다.
이에, 본 논문에서는 업로드 된 바이너리(binary) 파일을 XML(eXtensible Markup Language) 파일로 변환할 수 있는 엔진을 구현하였다. 또한, 변환된 XML 파일과 Mapping XML 파일을 파싱하여 데이터베이스에 데이터를 입력하거나 또는 데이터베이스에 입력된 데이 터를 양식(HWP, MS-Office) 파일로 출력할 수 있는 시스템을 설계 및 구현 하였다.

제안 방법

대용량 비정형 데이터 출력시스템은 기존 Active-X 방식의 웹 리포팅(Reporting) 툴의 처리방식과는 다르게 처리하였다. HWP, MS-Office의 양식파일을 작성하여 데이터출력 부분에 변수명을 기입하고 데이터베이스에서 데이터를 조회하여 원본파일의 변수명과 치환 하여 다시 원본파일을 작성한다. 작성된 원본파일은 HTTP 프로토콜을 사용하여 사용자에게 다운로드할 수 있는 기능을 구현하여 제공하였다.
또한, 원본파일을 바이너리 파일로 출력에 사용하기 위하여 원본파일을 파싱하여 파일의 변수부분에 데이터를 치환한다. 그리고 원본파일의 복사본을 바이너리 파일 변환하는 기능을 함께 제공할 수 있도록 설계하였다.
분리된 엔진들은 독립적으로 실행이 가능하도록 하여 향후 다른 시스템에서 각각의 엔진을 사용할 수 있도록 구현하였다. 또한 엔진에 구현된 컴포넌트들도 독립적인 모듈로 구현하여 다른 어플리케이션에서도 라이브러리 또는 단위 어플리케이션으로 활용이 가능하도록 구현하였다.
이에, 본 논문에서는 업로드 된 바이너리(binary) 파일을 XML(eXtensible Markup Language) 파일로 변환할 수 있는 엔진을 구현하였다. 또한, 변환된 XML 파일과 Mapping XML 파일을 파싱하여 데이터베이스에 데이터를 입력하거나 또는 데이터베이스에 입력된 데이 터를 양식(HWP, MS-Office) 파일로 출력할 수 있는 시스템을 설계 및 구현 하였다.
원본파일은 NODE JS 엔진 및 HTTP 프로토콜을 사용하여 서버에 업로드 할 수 있는 기능을 제공하고 HWP 컴포넌트(Component)와 MS-Office 컴포넌트를 사용하여 원본파일을 XML 파일로 변환한다. 또한, 원본파일을 바이너리 파일로 출력에 사용하기 위하여 원본파일을 파싱하여 파일의 변수부분에 데이터를 치환한다. 그리고 원본파일의 복사본을 바이너리 파일 변환하는 기능을 함께 제공할 수 있도록 설계하였다.
입력된 데이터는 바로 화면에 HTML 형태로 출력하여 필요시 웹 화면에서도 수정이 가능하도록 하였다. 또한, 원본파일을 수정하여 다시 업로드하여 데이터의 내용을 수정할 수 있도록 구현하였다.
매핑 XML의 내용은 여러 종류의 양식을 구분하기 위하여 formno와 테이블의 데이터를 추출하기 위하여 datapos와 같은 테그를 정의하여 매핑 XML를 정위하였다. 그림 7과 같은 양식을 구분하기 위하여 워드프로세서 파일로 최상위 1칸의 테이블을 만들고 ‘양식’이라 표기하여 양식을 구분 할 수 있도록 하였다.
매핑 엔진은 XML 파서를 이용하여 원본 XML 파일과 매핑 XML 파일을 검증하여 이상이 없을 때 XML 문서 생성기(XML Generator)를 이용하여 원본파일과 매 핑 XML 파일을 분석한다. 다음으로 데이터베이스에 입력할 수 있는 SQL 문장을 생성한다.
만약 검증의 문제나 두 XML 파일에 오류가 발생하면 사용자에게 그 오류 코드를 사용자에게 전송한다. 매핑 엔진은 XML 파싱 및 데이터베이스에 데이터를 입출력할 수 있는 모듈을 모두 포함하여 입력 및 출력에 사용할 수 있도록 독립적인 형태로 설계하였다. XML 매핑 엔진 구성도는 그림 5와 같다.
본 논문에서 제안한 시스템은 웹상에서 비정형 대용량 데이터에 대해 다양한 양식을 통하여 시스템에 빠른 입출력을 제공할 수 있는 프로그램으로 사용자나 관리자 모두에게 편리한 방식의 데이터 입력 시스템으로 사용할 수 있다. 따라서, 매우 편리하게 사용이 가능 할 것으로 예상된다.
본 논문의 시스템은 그림 6과 같이 엔진을 분리하여 개발하였다. 분리된 엔진들은 독립적으로 실행이 가능하도록 하여 향후 다른 시스템에서 각각의 엔진을 사용할 수 있도록 구현하였다.
변환단계는 잘 구성된(Well-formed) XML 문서로 변환하는 부분이다. 본 시스템에서 필터링 단계를 거쳐 생성된 중간 단계의 서식 파일을 읽어들인 후, DOM 인터페이스를 이용하여 태그 빌드와 내용 빌드를 생성하고 문서 구조를 검증한 후, 각각의 인덱스 값을 매핑하여 원문서의 변형없이 구조적인 XML 문서를 생성하도록 정의하였다.
본 시스템의 엔진은 크게 2개 부분으로 분리하여 설계하였다. 이는 다른 시스템 구축 시에도 엔진을 각각 활용 할 수 있도록 하였으며, 두 엔진간의 통신은 IPC (Interprocess Communication)를 사용하여 서로 데이터를 송수신 할 수 있도록 하였다.
본 논문의 시스템은 그림 6과 같이 엔진을 분리하여 개발하였다. 분리된 엔진들은 독립적으로 실행이 가능하도록 하여 향후 다른 시스템에서 각각의 엔진을 사용할 수 있도록 구현하였다. 또한 엔진에 구현된 컴포넌트들도 독립적인 모듈로 구현하여 다른 어플리케이션에서도 라이브러리 또는 단위 어플리케이션으로 활용이 가능하도록 구현하였다.
비정형 대용량 데이터 입력 및 출력 시스템 구성은 다양한 O/S 환경에서 설치가 가능하도록 개발하고 또한 Active-X 방식을 사용하지 않도록 설계하여 다양한 브라우저를 지원할 수 있도록 설계하였다. 그림 2는 전체 시스템 구성도이다.
비정형 대용량 데이터 입력시스템은 관리자가 원본 파일을 배포하여 사용자가 원본파일에 데이터를 작성한다. 시스템에 업로드하면 원본파일과 매핑 XML 파일을 파싱하여 데이터베이스에 데이터를 입력할 수 있도록 구현하였다. 입력된 데이터는 바로 화면에 HTML 형태로 출력하여 필요시 웹 화면에서도 수정이 가능하도록 하였다.
유효성 검증 후 구조 분석이 이루어지고, DOM 인터페이스를 이용하여 데이터를 필드 단위로 각각 메모리에 적재하여 처리한다. 이는 XML 구문 규칙을 사용하고 있기 때문에 DOM 인터페이스를 제어 할 수 있다.
본 시스템의 엔진은 크게 2개 부분으로 분리하여 설계하였다. 이는 다른 시스템 구축 시에도 엔진을 각각 활용 할 수 있도록 하였으며, 두 엔진간의 통신은 IPC (Interprocess Communication)를 사용하여 서로 데이터를 송수신 할 수 있도록 하였다.
HWP, MS-Office의 양식파일을 작성하여 데이터출력 부분에 변수명을 기입하고 데이터베이스에서 데이터를 조회하여 원본파일의 변수명과 치환 하여 다시 원본파일을 작성한다. 작성된 원본파일은 HTTP 프로토콜을 사용하여 사용자에게 다운로드할 수 있는 기능을 구현하여 제공하였다.
또한, 원본 XML 파일과 매핑 XML 파일을 파싱하여 원본의 XML 파일에서 데이터를 추출한다. 추출하기 전에 먼저 원본 XML파일과 매핑 XML 파일의 유효성 검증(Validation check)을 수행하여 XML 파일의 정확성을 확인하여 다음 작업을 진행하도록 한다.

이론/모형

웹서버를 지원하기 위하여 Open Source 엔진인 NODE JS 엔진을 활용하였다. NODE JS 엔진은 기존 웹서버나 웹 어플리케이션 서버보다 가볍고 JavaScript를 사용하여 개발이 가능하며 다양한 어플리케이션에 활용이 가능하다 최근에는 계속 버전을 업그레이드하여 안전성 및 성능이 많이 향상되었다.

후속연구

본 논문에서 제안한 시스템은 하나의 독립된 솔루션으로 구축이 가능하여 향후 어플라이언스 서버에 소프트웨어를 탑재하여 단독으로 다양한 포맷의 데이터를 고속으로 처리할 수 있도록 개발이 가능할 것이다.
하지만 이 시스템은 사용자가 매핑 XML 파일을 규칙에 맞도록 작성하여야 하므로 매핑 XML 파일 작성 방법을 습득하여야하는 단점이 있다. 이를 해결하기 위하여 사용자가 매핑 XML 파일을 쉽게 작성할 수 있도록 GUI 어플리케이션을 작성하여 제공한다면 이 단점도 해결이 가능하리라 사료된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서 생성기는 어떤 역할을 하는가?	문서 생성기는 구조 분석기 정보를 이용하여 XML 문서를 생성하는 역할을 담당한다. 구조 분석기에서 요구하는 엘리먼트 추출기와 속성 추출기에서는 각각의 엘리먼트와 속성 내용을 추출하여 구조체에 삽입하고, 내부 구조 생성기에서 시작 태그가 생성되기 위한 실제적 내용의 엘리먼트 이름을 엘리먼트 추출기에서 추출하여 생성한다.
	복합 파일을 사용하는 이유는 무엇인가?	하나의 스트림에는 일반적으로 바이너리나 레코드 구조로 데이터가 저장되고 스트림에 따라서 압축/암호화가 되기도 한다. 복합 파일을 사용하는 이유는 4기가(giga) 이상의 파일을 저장하기 위하여 사용한다[1].
	제안하는 데이터 입력 시스템의 단점은 무엇인가?	하지만 이 시스템은 사용자가 매핑 XML 파일을 규칙에 맞도록 작성하여야 하므로 매핑 XML 파일 작성 방법을 습득하여야하는 단점이 있다. 이를 해결하기 위하여 사용자가 매핑 XML 파일을 쉽게 작성할 수 있도록 GUI 어플리케이션을 작성하여 제공한다면 이 단점도 해결이 가능하리라 사료된다.

참고문헌 (5)

D Rentz, "Microsoft Compound Document File Format," [Internet]. Available: http://www.openoffice.org.zaxyproxy.com/.
Hangul and Computer Co., Ltd.. Hangul document file formats Open project [Internet]. Available: http://www.hancom.com/.
J. H. Yun, J. H. Park, and S. J. Lee, "Methods for Investigating of Edit History about MS PowerPoint Files That Using the OOXML Formats," Journal of Korea Information Processing Society, vol. 19, no. 4, pp. 215-224, Apr. 2011.

원문보기 상세보기
Apache[Internet]. Available: http://www.apache.org/.
S. M. Han, "Open Source DBMS based Design and Implementation of Query and Transformation Processor for Geo-Spatial Information Metadata," M. S. dissertation, Hansung University, Seoul, MA, 2010.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증