보고서 정보
주관연구기관 |
한국항공대학교 Hankuk Aviation University |
연구책임자 |
이재환
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2018-07 |
과제시작연도 |
2017 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
과제관리전문기관 |
한국연구재단 National Research Foundation of Korea |
등록번호 |
TRKO202200002753 |
과제고유번호 |
1711056980 |
사업명 |
개인기초연구(미래부) |
DB 구축일자 |
2022-06-18
|
키워드 |
빅데이터.분산컴퓨팅 플랫폼.인스토리지 프로세싱.하둡.메소스.
|
초록
▼
□ 연구개요
빅데이터 응용 특성을 고려할 때, 저장장치에서 바로 읽어서 필터링을 하는 것이 필요하다.
인스토리지 프로세싱(In-storage Processing:ISP)은 저장장치에서 바로 필터링하여 호스트에 보내주므로 데이터 이동량과 시간을 최소화하여 대용량 데이터를 효과적으로 처리할수 있다.
본 연구에서, 저비용 스마트 스토리지의 프로토타입을 설계하고, 이를 분산화하는 전체적인 프레임워크를 개발하였다. 기본적인 파일 읽기/쓰기 성능은 물론, 데이터 전처리를 위한 각종 API를 설계하였다. 또한, 오픈소스 기반의
□ 연구개요
빅데이터 응용 특성을 고려할 때, 저장장치에서 바로 읽어서 필터링을 하는 것이 필요하다.
인스토리지 프로세싱(In-storage Processing:ISP)은 저장장치에서 바로 필터링하여 호스트에 보내주므로 데이터 이동량과 시간을 최소화하여 대용량 데이터를 효과적으로 처리할수 있다.
본 연구에서, 저비용 스마트 스토리지의 프로토타입을 설계하고, 이를 분산화하는 전체적인 프레임워크를 개발하였다. 기본적인 파일 읽기/쓰기 성능은 물론, 데이터 전처리를 위한 각종 API를 설계하였다. 또한, 오픈소스 기반의 Mesos를 활용하여 자원을 분산관리하고, 작업을 효율적으로 스케쥴링 하는 방안을 제시하였다. 분산화를 효율적으로 지원하기 위해, 스마트 스토리지용 분산파일 시스템을 개발하였고, 이를 자원 관리 시스템과 연동하였다. 이를 바탕으로 각종 다양한 응용에 적용하였다. NoSQL의 일종인 몽고DB에 이를 적용하여 성능을 평가하였다. 또한, 저장된 데이터의 보안 성능을 높이기 위해 스토리지 내에서 악성코드를 검출하는 방안을 제시하였다. 이러한 기본적인 하드웨어/소프트웨어 프레임워크, API, 파일 시스템을 기반으로 다양한 응용에 적용할 예정이다.
□ 연구 목표대비 연구결과
본 연구과제 수행 결과 SCI급 논문 5편(게제예정 포함), 국내 등재지 1편, 학술대회 발표 6편 (국내:5, 국외:1), 특허 출원 3건, 등록 1건 등의 수행결과를 이루었다.
내용적으로 볼 때 다음과 같은 목표와 결과를 이루었다.
1) 개방형 표준화된 ISP 저장 장치
저비용 소형 컴퓨터 (바나나파이)를 이용하여, 개방형, 표준형 ISP 저장 장치의 하드웨어를 구성하고, 이를 클러스터 형태로 연결하였다. 기본적인 분산처리를 위해 오픈 소스 기반의 Mesos 프레임워크를 사용하여, 분산 자원 관리 및 태스크 스케쥴링을 구현하였다. 기본적인 응용 프로그램을 구현하여 이를 기존 시스템과 비교하여 성능 향상을 확인하였다.
2) ISP 응용 분산형 빅데이터 처리 시스템
위에서 구성된 클러스터를 보다 효율적으로 이용하기 위하여, 데이터 처리 및 필터링을 할수 있는 기본적인 API를 구성하였다. 또한, 복잡한 워크로드를 구현하기 위해 복수의 스테이지로 구성된 워크플로우를 작성하고, 이를 수행하였다. 워크플로우를 효율적으로 지원하기 위해, 분산 파일 시스템을 개발하였고, 이를 스케쥴링 시스템과 연동하여 분산화를 구현하였다.
3) 다양한 응용 워크로드 지원
다양한 워크로드에 효율적으로 적용하기 위해, 응용 예제를 구성하였다. NoSQL DB인 몽고 DB를 응용하여, 이를 적용하고 성능을 비교하였다. 또한, 분산 파일 시스템의 보안 측면에서, ISP 응용 바이러스 감지 시스템을 구현하고, 이를 적용하였다.
이와같이, 연구목표에서 제시한 내용을 모두 수행하고, 그 이상의 성과를 이룩하였다.
□ 연구개발결과의 중요성
빅 데이터 응용의 수요가 증가하면서, 컴퓨팅의 중심이 CPU위주의 복잡한 연산 중심에서, 대용량 데이터를 저장장치에서 메모리까지 효율적으로 이동시키는 I/O 중심으로 이동하고 있다.
하지만 대량의 데이터 전송이 필요한 응용 프로그램의 경우, 저장장치의 I/O인터페이스가 데이터 전송의 병목 구간이 되어 전체 시스템의 성능을 저하시키게 된다. 따라서, 이러한 I/O 병목현상을 해결할 스토리지 컴퓨팅 기술이 필요하다. 반면에, 대량의 데이터를 처리해야 할 경우,실제로 연산량이 많고 관심 있는 데이터의 양은 그 중에서 극히 일부인 경우가 많다. 이러한 관심 있는 데이터를 필터링하는 연산을 저장장치 내에서 수행하면 I/O 인터페이스를 통해 전송되는 데이터의 양을 크게 줄일 수 있다. 본 연구 결과를 이용할 경우, 표준화/개방성을 지원하므로 다양한 응용 분야에 쉽게 적용할 수 있다. 또한, 분산형 ISP 모델을 제시함으로써, 대용량 빅데이터 워크로드에 쉽게 적용할 수 있다. 스마트 스토리지 핵심 기술은 향후 Rack-scale Computing, 고성능 컴퓨터의 Burst Buffer 등, 현재 분산 환경에서 사용되고 있는 고성능 I/O 기술에 접목하여 사용될 수 있다. 또한, 현재의 I/O 기술 트렌드인 in-situ data processing, near data processing, edge computing 등에도 응용이 가능한 기반 기술로, 다양한 응용이 기대된다.
(출처 : 연구결과 요약문 2p)
목차 Contents
- 표지 ... 1
- 연구결과 요약문 ... 2
- 목차 ... 3
- 1. 연구개발과제의 개요 ... 4
- 가. 연구의 개요 및 목표 ... 4
- 나. 연구의 필요성 ... 5
- 다. 연구범위 ... 5
- 2. 연구수행내용 및 연구결과 ... 7
- o ISP응용 분산 처리 클러스터 구성 및 분산 처리 실험 ... 7
- o ISP응용 Multi-stage application 분산 처리 실험 ... 8
- o Mesos c++ 프레임워크 개발 ... 10
- o ISP기반 분산 파일시스템 개발 ... 10
- o ISP기반 NoSQL DB 수행 ... 12
- o ISP기반 바이러스 사전 탐지 시스템 ... 13
- 3. 연구개발결과의 중요성 ... 14
- 4. 참고문헌 ... 15
- 5. 연구성과 ... 16
- 대표적 연구실적 ... 18
- 끝페이지 ... 27
※ AI-Helper는 부적절한 답변을 할 수 있습니다.