[논문]윈도우 기반의 광학문자인식을 이용한 영상 번역 시스템 구현

황선명; 염희균

doi:10.20465/kiots.2019.5.2.015

초록
AI-Helper

기계학습 연구가 발달함에 따라 번역 분야 및, 광학 문자 인식(Optical Character Recognition, OCR) 등의 이미지 분석 기술은 뛰어난 발전을 보였다. 하지만 이 두 가지를 접목시킨 영상 번역은 기존의 개발에 비해 그 진척이 더딘 편이다. 본 논문에서는 기존의 OCR 기술과 번역기술을 접목시킨 이미지 번역기를 개발하고 그 효용성을 검증한다. 개발에 앞서 본 시스템을 구현하기 위하여 어떤 기능을 필요로 하는지, 기능을 구현하기 위한 방법은 어떤 것이 있는지 제시한 뒤 각기 그 성능을 시험하였다. 본 논문을 통하여 개발된 응용프로그램으로 사용자들은 좀 더 편리하게 번역에 접근할 수 있으며, 영상 번역이라는 특수한 환경으로 한정된 번역기능에서 벗어나 어떠한 환경에서라도 제공되는 편의성을 확보하는데 기여할 수 있을 것이다.

Abstract ▼ AI-Helper

As the machine learning research has developed, the field of translation and image analysis such as optical character recognition has made great progress. However, video translation that combines these two is slower than previous developments. In this paper, we develop an image translator that combi...

As the machine learning research has developed, the field of translation and image analysis such as optical character recognition has made great progress. However, video translation that combines these two is slower than previous developments. In this paper, we develop an image translator that combines existing OCR technology and translation technology and verify its effectiveness. Before developing, we presented what functions are needed to implement this system and how to implement them, and then tested their performance. With the application program developed through this paper, users can access translation more conveniently, and also can contribute to ensuring the convenience provided in any environment.

주제어

표/그림 (7)

표 Google Vision API Feature
그림 [Fig. 1] Flowchart of the proposed system
그림 [Fig. 2] System Architecture
그림 [Fig. 3] UseCase Model
그림 [Fig. 4] System User Interface
표 Boundary Extraction Process
표 System Evaluation

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 OCR 기술과 번역 기술을 접목시킨 이미지 번역 시스템을 개발하였다. 사용자가 프로그램을 실행시키면 일련의 프로세스를 통하여 번역문을 제공받게 된다.
특히 이 문제는 PDF와 같은 장문의 텍스트 이미지 또는 수많은 반복 번역이 필요한 자막 생성과 같은 상황에서는 그 문제점이 크게 나타난다[5,6,7]. 이러한 문제를 해결하기 위하여 본 논문은 기존에 존재하는 OCR 기능과 번역 기술을 접목시켜 데스크톱 기반의 이미지를 해독하여 텍스트를 추출하고, 추출한 텍스트를 번역하는 이미지 번역기 프로그램을 개발하여 사용자의 편의를 확대하고자 한다.

제안 방법

첫 번째는 컬러 이미지를 회색조 이미지로 변환한다. 두 번째는 외곽선 추출을 위해 팽창 및 침식의 모폴로지 연산(MorphologyEx)을 수행한다. 세 번째는 처리된 이미지에 임계값을 적용하여 흑백 이미지를 얻어낸다.
번역된 문장을 디스플레이에 출력시키기 위해 기존 화면에 Blur 처리를 하여 기존 텍스트와의 겹침 현상을 방지하였다. 기존 화면에 Blur 처리를 하여 기존 텍스트와의 겹침 현상을 방지하는 방법으로 기존 화면에 자연스러운 출력이 가능하다.
영상 화면에서 번역 영역을 지정하여 이미지로 변환한 후, 이미지에서 텍스트를 추출하고, 이를 번역하여 출력하는 영상 번역 시스템이다. 사용자는 영상 화면에서 번역 화면 영역 이미지를 지정하고, 그 번역 결과를 확인한다. 먼저 이미지 분할과정은 번역 화면 이미지에서 문자로 인식되는 경계 그룹을 추출하고, 필터링은 비텍스트 영역을 제거하여 경계 그룹의 텍스트 인식률을 높인다.
윈도우 PC 환경에서 OCR, 즉 광학문자 인식 기능은 Tesseract-OCR과 Vision API 라이브러리로 구현 하였다. 이미지 상에 존재하는 텍스트를 추출해내는 단계로서 처리속도뿐 만이 아닌, 정확도 역시 높일 수 있는 방법으로 2개의 라이브러리를 사용한다.
이미지 분할 기능은 OpenCV라이브러리로 구현 하였다. [Table 2] 와 같이 이미지 분할 과정을 통해 텍스트를 추출한다.
제안 시스템은 크게 원본 영상에서 번역 영역을 지정한 후 이미지로 저장 한 후, 이미지 처리 과정, 인식 과정 그리고 번역 과정을 거쳐 마지막 출력 과정으로 이루어지며, 각각의 과정을 통해 최종적으로 원하는 영상의 번역 결과를 화면에 출력하게 된다. [Fig.
텍스트 번역은 구글 번역 API로 구현 하였다. 구글 번역은 NMT 방식을 이용하며 문장 전체를 학습, 분석하여 문장 전체의 문맥을 파악하고 불안정한 번역을 바로 잡는 기능을 제공한다.

성능/효과

기존 시스템과의 평가는 다음 [Table 3]과 같다. 제안 시스템은 출력 속도는 느리나 문자 인식률이 높다. 기존 시스템 출력은 별도 출력 영역에 하는 반면, 제안 시스템은 기존 원본의 텍스트 영역에 출력을 하게 된다.
제안한 시스템의 예상 기대 시간은 약 1~2초 정도로 기대되며, 텍스트 인식 정확도는 98퍼센트로 예상된다. 이 시스템의 가장 큰 장점은 바로 편의성과 범용성이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	NMT 모델에서 전반적으로 보이는 문제점은 무엇인가?	NMT 모델은 단일 신경망 구조를 사용하는 End-to-end 방식의 신경망 번역 모델로, 언어별, 텍스트 유형별로 학습 정도에 따라 차등이 있으나, 두 줄 정도 길이의 문장 내에서는 문맥 파악이 이루어져 결과물의 의미적, 통사적 완성도가 크게 높아진 것을 확인 할 수 있다. 그 외 전반적으로 보이는 문제점으로는 누락, 부적절한 직역으로 인한 의미 전달 오류, 불필요한 표현의 반복, 문장 단위를 벗어난 전문용어의 불일치, 단복수 오류 등이 있다.
	NMT 모델은 무엇인가?	NMT 모델은 단일 신경망 구조를 사용하는 End-to-end 방식의 신경망 번역 모델로, 언어별, 텍스트 유형별로 학습 정도에 따라 차등이 있으나, 두 줄 정도 길이의 문장 내에서는 문맥 파악이 이루어져 결과물의 의미적, 통사적 완성도가 크게 높아진 것을 확인 할 수 있다. 그 외 전반적으로 보이는 문제점으로는 누락, 부적절한 직역으로 인한 의미 전달 오류, 불필요한 표현의 반복, 문장 단위를 벗어난 전문용어의 불일치, 단복수 오류 등이 있다.
	NMT(신경망 기계번역)의 번역과정은 어떤 과정을 거치는가?	딥러닝이 성공적으로 적용되는 대표적인 자연어 처리 분야가 기계번역이라고 할 수 있는데, 신경망(Neural Networks) 기반 기계번역(Neural Machine Translation, NMT)은 하나의 신경망으로 번역 모델이 구성되고 학습된다는 측면에서 기존 여러 모듈에 기반한 기계 번역과 다른 패러다임을 제시하고 있다[8,9,10]. 일반적으로 NMT는 인코더(Encoder)와 디코더(Decoder)로 구성되는데, 단어들로 구성된 입력문장을 인코더가 벡터공간에 표현하고, 이를 디코더가 다시 출력 문장의 단어들을 하나씩 순차적으로 만들어 내는 것으로 번역 과정이 진행된다. 이러한 과정은 전통적인 기계번역 시스템이 단어들을 심볼(Symbols) 수준에서 직접 다루는 것과 상반된다[11].

참고문헌 (15)

K.H.Cho, et al., "Learning phrase representations using RNN encoder-decoder for statistical machine translation," arXiv preprint arXiv: 1406.1078, 2014.
B.Dzmitry, K.H.Cho, and Y.Bengio, "Neural machine translation by jointly learning to align and translate," arXiv preprint arXiv:1409.0473, 2014.
Tu, Zhaopeng, et al., "Context gates for neural machine translation," Transactions of the Association for Computational Linguistics 5, pp.87-99, 2017.

상세보기
V.Ashish, et al., "Attention is all you need," Advances in Neural Information Processing Systems, 2017.
Ma, Mingbo, et al., "Osu multimodal machine translation system report," arXiv preprint arXiv:1710.02718, 2017.
Madhyastha, P.Swaroop, J.Wang, and L.Specia, "Sheffield multimt: Using object posterior predictions for multimodal machine translation," Proc. of the Second Conference on Machine Translation, 2017.
Caglayan, Ozan, et al., "Lium-cvc submissions for wmt17 multimodal translation task," arXiv preprint arXiv:1707.04481, 2017.
N.Kalchbrenner and P.Blunsom, "Recurrent continuous translation models," EMNLP, 2013.
I.Sutskever, O.Vinyals, Q.V.Le, "Sequence to Sequence Learning with Neural Networks," Advances in Neural Information Processing Systems (NIPS), 2014.
D.Bahdanau, K.Cho and Y.Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate," Int'l Conf. on Learning Representations (ICLR), 2015.
P.Koehn, "Statistical Machine Translation. Statistical Machine Translation," Cambridge University Press, ISBN 9780521874151, 2010.
R.Mithe, S.Indalkar, and N.Divekar, "Optical character recognition," International Journal of Recent Technology and Engineering, Vol.2, pp.72-75, 2013.
E.B.Go, Y.J.Ha, S.R.Choi, K.H.Lee, and Y.H.Park, "An implementation of an android mobile system for extracting and retrieving texts from images," Journal of Digital Contents Society, Vol.12, No.1, pp.57-67, 2011.

원문보기 상세보기
M.H.Cho, "A study on character recognition using wavelet transformation and moment," Journal of The Korea Society of Computer and Information, Vol.15, No.10, pp.49-57, 2010.

원문보기 상세보기
J.W.Song, N.R.Jung, and H.S.Kang, "Container BIC-code region extraction and recognition method using multiple thresholding," Journal of the Korea Institute of Information and Communication Engineering, Vol.19, No.6, pp.1462-1470, 2015.

원문보기 상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

윈도우 기반의 광학문자인식을 이용한 영상 번역 시스템 구현
An Implementation of a System for Video Translation on Window Platform Using OCR 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

윈도우 기반의 광학문자인식을 이용한 영상 번역 시스템 구현 An Implementation of a System for Video Translation on Window Platform Using OCR 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7) 모든 표/그림 보기

표/그림 (7) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

황선명 (38) 염희균 (6)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

윈도우 기반의 광학문자인식을 이용한 영상 번역 시스템 구현
An Implementation of a System for Video Translation on Window Platform Using OCR 원문보기

초록
AI-Helper

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper