[논문]심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구

장희진; 채영훈; 이상원; 조진용

doi:10.3745/ktsde.2018.7.11.411

심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구
Automatic Object Extraction from Electronic Documents Using Deep Neural Network 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.7 no.11, 2018년, pp.411 - 418

장희진 (한국과학기술정보연구원 과학기술연구망센터) , 채영훈 (한국과학기술정보연구원 과학기술연구망센터) , 이상원 (한국과학기술원 생명화학공학과) , 조진용 (한국과학기술정보연구원 과학기술연구망센터)

초록
AI-Helper

인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습 모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다.

Abstract ▼ AI-Helper

With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%.

주제어

표/그림 (13)

그림 Fig. 1. Overview of the Proposed System
표 Table 1. The Number and Type of Objects in a Training Set
그림 Fig. 2. Example annotation (Reproduced from Lawson et al. Nature 2015;526(7571):131-5, with Permission of Springer Nature[23])
그림 Fig. 3. Pseudo Code to Generate a TFRecord File
표 Table 2. Deep Learning Environment for Object Detection
표 Table 3. Deep Learning Parameters
그림 Fig. 4. Average Precision for a Validation Set
표 Table 4. The Number and Type of Target Objects in the Evaluation Set
표 Table 5. Issued Year of Articles and Graphic Format of PDF Files
그림 Fig. 5. Correctly Extracted Figure, Table, and Caption ((a) Reproduced from Barre et al. Ecol Evol 2018;8(3): 1496-1501[27], (b) Kuznetsova et al. J Stat Softw 2017;82(13):1-26[28])
그림 Fig. 6. Incorrect Object Extraction of the Proposed System ((a) Reproduced from Lawson et al. Nature 2015;526(7571): 131-5, with Permission of Springer Nature[23], (b) Wahlström et al. Ind Eng Chem Res 2017;57(1):42-53[29])
그림 Fig. 7. Incorrect object extraction of the PDFFigures ((a) Reproduced from Lawson et al. Nature 2015;526(7571):131-5, with permission of Springer Nature[23])
표 Table 6. Performance Comparison

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

전이 학습을 이용하면 성능이 검증된 기존 모델의 설정값을 재활용함으로써 한정된 학습 집단으로부터 효율적으로 새로운 모델을 생성할 수 있다. 본 논문에서는 전이 학습을 기반으로 객체 추출을 위한 새로운 학습모델(trained model)을 제시한다. 추론 단계에서는 대상이 되는 전자문서를 이미지 형태로 변환한 후, 심층 학습을 통해 생성된 학습 모델을 활용하여 목표 객체를 탐지(object detection)한다.
본 논문은 경험적 방법론의 경직성(inflexibility)을 극복하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 제안된 객체 추출 시스템은 텐서플로우 객체 탐지 API(Tensorflow object detection application programming interface)의 Faster R-CNN(Region based Convolution Neural Network) 알고리즘[17]을 이용했다.
본 논문은 전자문서로부터 그림(figure), 표(table), 캡션(caption)의 영역을 탐지하고 탐지된 객체를 자동으로 저장하기 위한 심층 학습 기반의 객체 추출 시스템을 제안한다. 제안된 시스템은 텐서플로우 객체 탐지 API를 이용해 심층신경망을 학습한 후, 입력된 전자문서로부터 개별 객체의 종류와 위치 정보를 추출한다.
본 논문은 전자문서로부터 그림, 표, 캡션과 같은 목표 객체들을 효과적으로 추출하기 위해서 심층 학습망 기반의 객체추출 시스템을 제안하고 경험적 방법론을 활용한 PDFFigures를 대상으로 비교평가를 수행하였다. 제안한 시스템은 PDFFigures에 비해서 약 5.
2%의 높은 성능을 보임을 확인했다. 본 논문은 전자문서에서 객체를 자동으로 추출하기 위해 최초로 심층 신경망 기술을 적용한 연구라는 점에서 의의를 갖는다.

제안 방법

객체 추출 시스템과 PDFFigures의 성능평가를 위해 학습집단에 포함되지 않은 새로운 50개의 연구논문을 수집함으로써 평가 집단(evaluation set)을 구성하였다. 연구논문의 발행시기, 연구 분야, 작성 언어, 파일 내 이미지의 표현 방식 등 정보 추출 성능에 영향을 줄 수 있는 다양한 요소들을 고려하여 총 39개 출판사가 발행한 전자저널로부터 전자문서 형태의 연구논문을 선택하였다.
2와 같이 GUI(Graphical User Interface) 상에서 목표 객체에 대해 테두리 상자(bounding box)를 설정하고 해당 객체를, 예를 들어, 그림으로 분류하면, 객체의 영역 정보와 종류가 XML 파일에 저장된다. 본 논문에서는 그림, 표, 캡션을 각각 독립된 객체로 주석 처리한다. 테두리 상자의 설정 범위 (예, 그림과 캡션의 분리 또는 통합 등) 또는 목표 객체의 추가(예, 본문, 수식, 참고문헌 등) 등이 제안하는 시스템의 성능에 영향을 줄 수 있다.
본 논문에서는 학습 모델의 생성을 위해 ResNet-101[22]구조의 Faster R-CNN을 이용하며 새로운 학습 모델은 전이학습(transfer learning)을 통해 생성된다. 전이 학습은 사전에 학습된 모델(pre-trained model)의 최종 가중치 값을 이용해 새로운 모델의 초기 가중치 값을 설정한 후, 추가적인 학습 집단을 대상으로 재학습을 수행함으로써 새로운 학습 모델을 생성하는 방법이다.
심층 학습을 위한 새로운 알고리즘의 제안은 본 논문의 연구범위를 넘어선다. 본 논문은 적용 가능한 학습 모델을 이용해 전자문서로부터 목표 객체를 추출하는데 있으며 Faster R-CNN의 전이 학습을 통해 새로운 학습 모델을 생성한다. 객체 탐지의 정확도와 높은 학습 속도[24]를 보장하기 위해 Faster R-CNN을 활용했다.
PDFFigures는 그림과 표를 추출하기 위해 경험적 방법론을 활용했다[1]. 전자문서의 메타데이터를 해석한 후, 예약어(예, Fig., Table 등), 폰트크기, 줄 간격, 정렬방식 등 사전에정의된 추출 규칙을 활용하여 그림과 표 객체를 추출한다. 추출 규칙은 사람이 그림과 표, 캡션(caption), 본문 등을 인지하는 방식과 유사하게 정의된다(예, 문헌의 앞부분에 위치하고 본문 폰트보다 크게 작성된 텍스트는 제목으로 인식).
본 논문은 전자문서로부터 그림(figure), 표(table), 캡션(caption)의 영역을 탐지하고 탐지된 객체를 자동으로 저장하기 위한 심층 학습 기반의 객체 추출 시스템을 제안한다. 제안된 시스템은 텐서플로우 객체 탐지 API를 이용해 심층신경망을 학습한 후, 입력된 전자문서로부터 개별 객체의 종류와 위치 정보를 추출한다.
벡터 그래픽은 PDF 파일과 동일한 형태로 저장되기 때문에 그림의 추출이 어렵다. 해당 연구는, 곡선 등 벡터 이미지를 구성하는 세부 객체 및 객체들의 위치를 기계학습으로 파악하고 군집화를 통해 특정 이미지의 영역을 탐지한다. 정확도가 80% 이상인 것으로 보고되었지만 연구논문이 이미지일 경우에는 객체 모델로 표현되지 않기 때문에 추출이 불가능한 문제가 있다.

대상 데이터

전자문서로 저장된 49 개의 연구논문과 1 개의 연구서적이 학습(training) 및 검증(validation)의 대상이다. 선택한 50 개의 전자문서는 총 719 페이지로 이루어져 있다. 제 4장에서 이용된 평가 집단(evaluation set)과 본 절의 학습 집단은 별개의 데이터 집단이다.
제안된 객체 추출 시스템은 텐서플로우 객체 탐지 API(Tensorflow object detection application programming interface)의 Faster R-CNN(Region based Convolution Neural Network) 알고리즘[17]을 이용했다. 심층 학습과 평가를 위해 총 100여 편의 전자문서에 포함된 객체들을 데이터화했으며 객체 추출을 위한 새로운 학습 모델을 생성했다. 또한 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 시스템보다 약5.
연구논문은 다양한 과학적 결과를 함축하는 데이터의 집합체로써 해마다 250만 건 이상의 새로운 논문들이 출판되는 것으로 추정된다[12]. 다수의 연구논문들로부터 그래프, 표등 데이터로써 유의미한 객체를 추출하고 디지털화, 데이터베이스화함으로써 다양한 과학기술 응용연구자들은 축적된 대규모의 연구 데이터를 효과적으로 활용할 수 있을 것으로 예상된다.
객체 추출 시스템과 PDFFigures의 성능평가를 위해 학습집단에 포함되지 않은 새로운 50개의 연구논문을 수집함으로써 평가 집단(evaluation set)을 구성하였다. 연구논문의 발행시기, 연구 분야, 작성 언어, 파일 내 이미지의 표현 방식 등 정보 추출 성능에 영향을 줄 수 있는 다양한 요소들을 고려하여 총 39개 출판사가 발행한 전자저널로부터 전자문서 형태의 연구논문을 선택하였다.
전자문서로 저장된 49 개의 연구논문과 1 개의 연구서적이 학습(training) 및 검증(validation)의 대상이다. 선택한 50 개의 전자문서는 총 719 페이지로 이루어져 있다.

데이터처리

본 장에서는 평가 집단과 성능평가 지표에 대해서 살펴본 후 제안된 객체 추출 시스템과 경험적 방법론이 적용된 PDFFigures의 성능을 비교 분석한다.
제안한 객체 추출 시스템과 PDFFigures의 성능을 비교하기 위해 검출률(recall), 정확도(precision) 및 F1지수를 평가 지표로 선정했다. 겹침 공간의 비율이 75% 이상이면 정상적으로 추출한 것으로 처리한다.

이론/모형

PDFFigures는 그림과 표를 추출하기 위해 경험적 방법론을 활용했다[1]. 전자문서의 메타데이터를 해석한 후, 예약어(예, Fig.
주석 처리 단계에서는 생성된 이미지에 포함된 그림, 표, 캡션 객체를 분류(labeling)하고 주석 정보를 생성한다. 가중치 학습을 위해 이미지 원본(전자문서의 개별 페이지)과 주석 정보, 텐서플로우 객체 탐지 API를 이용한다.
본 논문은 적용 가능한 학습 모델을 이용해 전자문서로부터 목표 객체를 추출하는데 있으며 Faster R-CNN의 전이 학습을 통해 새로운 학습 모델을 생성한다. 객체 탐지의 정확도와 높은 학습 속도[24]를 보장하기 위해 Faster R-CNN을 활용했다. Faster R-CNN은 R-CNN에서 이미지 분류와 영역 조율을 각각 담당하는 SVM과 선형 회귀(linear regression)모델을 CNN 네트워크에 수용하고, 영역 제안(region proposal)을 위한 선택적 탐색(selective search [25]) 알고리즘을 영역 제안 네트워크(region proposal network)로 대체함으로써 R-CNN의 성능을 크게 개선한 심층 학습 알고리즘이다.
본 논문은 객체 추출의 유연성(flexibility) 확보를 위해 텐서플로우 객체 탐지 API[21]를 활용했다. 텐서플로우 객체 탐지 API는 심층 신경망을 이용하는 오픈소스 프레임워크로써 이미지에 포함된 다수의 객체를 탐지하기 위해 고안되었다.
본 논문은 경험적 방법론의 경직성(inflexibility)을 극복하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 제안된 객체 추출 시스템은 텐서플로우 객체 탐지 API(Tensorflow object detection application programming interface)의 Faster R-CNN(Region based Convolution Neural Network) 알고리즘[17]을 이용했다. 심층 학습과 평가를 위해 총 100여 편의 전자문서에 포함된 객체들을 데이터화했으며 객체 추출을 위한 새로운 학습 모델을 생성했다.
학습된 모델의 성능 지표로써 겹침 공간(IoU, Intersection over Union)에 대한 평균 정확도(average precision)를 이용한다. 겹침 공간은 학습을 위해 사전에 주석 처리된 특정 객체의 영역과 학습 모델을 통해 추출한 해당 객체의 영역이 겹치는 비율이다.

성능/효과

검출률과 정확도를 고려한 F1 지수는 74.9%와 69.7%로써 제안한 시스템의 성능이 PDFFigures에 비해 약 5.2% 높았다. 상대적으로 낮은 정확도를 개선하기 위해서 탐지된 객체들 간의 군집화, 이진 분류의 적용 등 탐지된 객체의 후처리 방법들에 대해서 추가적으로 연구할 예정이다.
PDFFigures는 평가 집단 중 1 건의 전자문서를 판독하는데 실패했으며 4 건의 전자문서에 대해서는 목표 객체를 전혀 추출하지 못했다. 결과적으로 평가 집단에 속한 전자문서, 총 593 페이지 중 88.6%의 페이지에 대해서만 하나 이상의 목표객체를 추출할 수 있었다. 하지만 본 논문에서 제안한 객체추출 시스템은 평가 집단의 모든 전자문서에서 하나 이상의 목표 객체를 추출할 수 있었다.
결론적으로 제안한 객체 추출 시스템은 경험적 방법론을 적용한 PDFFigures와는 다르게 다양한 형태의 전자문서로부터 목표 객체의 추출이 가능했다. 또한 F1 지수를 통해 객체추출 시스템의 성능이 PDFFigures 보다 뛰어남을 확인했다.
결론적으로 제안한 객체 추출 시스템은 경험적 방법론을 적용한 PDFFigures와는 다르게 다양한 형태의 전자문서로부터 목표 객체의 추출이 가능했다. 또한 F1 지수를 통해 객체추출 시스템의 성능이 PDFFigures 보다 뛰어남을 확인했다. 제안 시스템의 정확도를 높이기 위해 오탐과 미탐을 방지할 수 있는 전처리 및 후처리 방법에 대한 추가 연구가 필요할 것으로 판단된다.
심층 학습과 평가를 위해 총 100여 편의 전자문서에 포함된 객체들을 데이터화했으며 객체 추출을 위한 새로운 학습 모델을 생성했다. 또한 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 시스템보다 약5.2%의 높은 성능을 보임을 확인했다. 본 논문은 전자문서에서 객체를 자동으로 추출하기 위해 최초로 심층 신경망 기술을 적용한 연구라는 점에서 의의를 갖는다.
정확도는 PDFFigures가 약 21.3% 높은 성능을 보여주었다. 즉 PDFFigures는 목표 객체에 대한 검출률은 낮지만 일단 검출된 객체는 목표 객체일 가능성이 높다는 것을 알 수 있다.
Table 6은 PDFFigures와 제안 시스템의 검출률, 정확도 및 F1 지수를 각각 보여준다. 제안된 시스템은 목표 객체에 대해 평균 84.0%의 검출률을 보임으로써 56.8%의 검출률을 갖는 PDFFigures에 비해서 약 23.2% 높은 성능을 나타냈다. 제안된 시스템이 경험적 방법론이 적용되기 힘든 다양한 형태의 전자저널들을 대상으로 효과적인 객체 추출이 가능함을 의미한다.
2% 높은 성능을 나타냈다. 제안된 시스템이 경험적 방법론이 적용되기 힘든 다양한 형태의 전자저널들을 대상으로 효과적인 객체 추출이 가능함을 의미한다.
본 논문은 전자문서로부터 그림, 표, 캡션과 같은 목표 객체들을 효과적으로 추출하기 위해서 심층 학습망 기반의 객체추출 시스템을 제안하고 경험적 방법론을 활용한 PDFFigures를 대상으로 비교평가를 수행하였다. 제안한 시스템은 PDFFigures에 비해서 약 5.2% 높은 성능을 보였으며 전자문서의 편집 형태나 객체의 문서 내 삽입 형태 등에 구애받지 않고 유연하게 목표 객체를 추출할 수 있었다. 하지만 오탐으로 인한 낮은 정확도의 개선은 추가 연구가 필요할 것으로 판단된다.
하지만 본 논문에서 제안한 객체추출 시스템은 평가 집단의 모든 전자문서에서 하나 이상의 목표 객체를 추출할 수 있었다. 제안한 시스템이 전자문서의 저장형태, 작성언어, 전자문서에 포함된 객체의 그래픽 형태 등에 제한을 받지 않기 때문에 경험적 방법들에 비해 보다 유연하게 적용될 수 있음을 알 수 있다.
6%의 페이지에 대해서만 하나 이상의 목표객체를 추출할 수 있었다. 하지만 본 논문에서 제안한 객체추출 시스템은 평가 집단의 모든 전자문서에서 하나 이상의 목표 객체를 추출할 수 있었다. 제안한 시스템이 전자문서의 저장형태, 작성언어, 전자문서에 포함된 객체의 그래픽 형태 등에 제한을 받지 않기 때문에 경험적 방법들에 비해 보다 유연하게 적용될 수 있음을 알 수 있다.

후속연구

첫째, 오탐(false-positive)과 미탐(false-negative)을 줄이기 위해 대규모 학습 집단(training set)에 대한 심층 학습이 요구되며 객체에 대한 분류 방법(예, 그림과 캡션을 개별 객체로 분리 등)이 성능에 미치는 영향이 분석되어야 한다. 둘째, 오탐으로 인한 성능 저하를 방지하기 위해 객체를 탐지한 후, 분절된 객체들 간의 군집화(clustering) 등 후처리 과정이 연구되어야 한다. 또한 그림 파일로 얻어진 캡션 객체에 대해서 텍스트화할 수 있는 방법이 고안되어야 한다.
수동으로 주석 처리된 객체의 영역은 해당 객체가 차지하고 있는 실제 영역보다 크기때문에 겹침 공간의 비율이 상대적으로 낮아도(즉, 75%) 정상적인 객체 추출이 가능하다. 또한 간단한 후처리 작업을 통해서 최종 추출 객체의 겹침 공간 비율을 더 높일 수 있을 것으로 판단한다.
또한 그림 파일로 얻어진 캡션 객체에 대해서 텍스트화할 수 있는 방법이 고안되어야 한다. 마지막으로, 경험적 방법론과 심층 신경망이 갖는 각각의 장점을 이용함으로써 성능을 극대화하기 위해 하이브리드 모델에 대한 연구도 필요할 것으로 판단된다.
9로 설정했으며 이동 평균(moving average)은 이용하지 않았다. 매개변수들의 최적화 문제는 추가 연구를 통해 해결할 예정이다. 마지막으로 심층 학습은 총 975분 동안 수행되었다.
2% 높았다. 상대적으로 낮은 정확도를 개선하기 위해서 탐지된 객체들 간의 군집화, 이진 분류의 적용 등 탐지된 객체의 후처리 방법들에 대해서 추가적으로 연구할 예정이다. 예를 들어 하나의 객체 영역이 중복으로 탐지되는 경우에는 후처리 과정에서 가장 높은 신뢰도를 갖는 객체만 추출하게 함으로써 정확도를 높일 수 있다.
또한 F1 지수를 통해 객체추출 시스템의 성능이 PDFFigures 보다 뛰어남을 확인했다. 제안 시스템의 정확도를 높이기 위해 오탐과 미탐을 방지할 수 있는 전처리 및 후처리 방법에 대한 추가 연구가 필요할 것으로 판단된다.
테두리 상자의 설정 범위 (예, 그림과 캡션의 분리 또는 통합 등) 또는 목표 객체의 추가(예, 본문, 수식, 참고문헌 등) 등이 제안하는 시스템의 성능에 영향을 줄 수 있다. 추가 연구를 통해 주석처리와 추출성능 간의 상관관계를 분석할 예정이다.
02%를 보였다. 측정된 높은 정확도를 통해 효과적인 객체추출이 가능할 것으로 유추할 수 있다.
2% 높은 성능을 보였으며 전자문서의 편집 형태나 객체의 문서 내 삽입 형태 등에 구애받지 않고 유연하게 목표 객체를 추출할 수 있었다. 하지만 오탐으로 인한 낮은 정확도의 개선은 추가 연구가 필요할 것으로 판단된다. 향후 학습 집단의 확대와 후처리 방법에 대한 연구를 통해 정확도를 높여나갈 예정이다.
하지만 오탐으로 인한 낮은 정확도의 개선은 추가 연구가 필요할 것으로 판단된다. 향후 학습 집단의 확대와 후처리 방법에 대한 연구를 통해 정확도를 높여나갈 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	벡터 그래픽이 그림을 추출하는 것이 어려운 이유는 무엇인가?	학술문서에서 벡터(vector) 형태의 그림을 추출하기 위해 기계학습을 적용하려는 연구[3]도 진행되고 있다. 벡터 그래픽은 PDF 파일과 동일한 형태로 저장되기 때문에 그림의 추출이 어렵다. 해당 연구는, 곡선 등 벡터 이미지를 구성하는 세부 객체 및 객체들의 위치를 기계학습으로 파악하고 군집화를 통해 특정 이미지의 영역을 탐지한다.
	PDFFigures은 어떤 방법으로 그림과 표를 추출하는가?	PDFFigures는 그림과 표를 추출하기 위해 경험적 방법론을 활용했다[1]. 전자문서의 메타데이터를 해석한 후, 예약어(예, Fig., Table 등), 폰트크기, 줄 간격, 정렬방식 등 사전에정의된 추출 규칙을 활용하여 그림과 표 객체를 추출한다. 추출 규칙은 사람이 그림과 표, 캡션(caption), 본문 등을 인지하는 방식과 유사하게 정의된다(예, 문헌의 앞부분에 위치하고 본문 폰트보다 크게 작성된 텍스트는 제목으로 인식).
	전이 학습이란 무엇인가?	본 논문에서는 학습 모델의 생성을 위해 ResNet-101[22]구조의 Faster R-CNN을 이용하며 새로운 학습 모델은 전이학습(transfer learning)을 통해 생성된다. 전이 학습은 사전에 학습된 모델(pre-trained model)의 최종 가중치 값을 이용해 새로운 모델의 초기 가중치 값을 설정한 후, 추가적인 학습 집단을 대상으로 재학습을 수행함으로써 새로운 학습 모델을 생성하는 방법이다. 전이 학습을 이용하면 성능이 검증된 기존 모델의 설정값을 재활용함으로써 한정된 학습 집단으로부터 효율적으로 새로운 모델을 생성할 수 있다.

참고문헌 (29)

C. Clark and S. Divvala, "PDFFigures 2.0: Mining figures from research papers," in Proceedings of IEEE/ACM Joint Conference on Digital Libraries (JCDL), pp.143-152, 2016.
J. Wu et al., "Pdfmef: A multi-entity knowledge extraction framework for scholarly documents and semantic search," in Proceedings of the 8th International Conference on Knowledge Capture, Article No.13, 2015.
S. Ray Choudhury, P. Mitra, and C. L. Giles, "Automatic extraction of figures from scholarly documents," in Proceedings of the 2015 ACM Symposium on Document Engineering, pp.47-50, 2015.
S. J. Chalk, "ChemExtractor: Enhanced Rule-Based Capture and Identification of PDF Based Property Data," 253rd American Chemistry Society (ACS) National Meeting, 2017.
S. Klampfl and R. Kern, "Machine learning techniques for automatically extracting contextual information from scientific publications," Semantic Web Evaluation Challenge, Springer, pp.105-116, 2015.
P. Lopez, "GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications," in Proceedings of International Conference on Theory and Practice of Digital Libraries, pp.473-474, 2009.
M. Aristaran, Extract Tables from PDFs [Internet], http://tabula.technology.
Y. Shinyama, PDFMiner: Python PDF Parser and Analyser [Internet], http://www.unixuser.org/-euske/python/pdfminer/.
Apache PDFBox: A Java PDF Library [Internet], https://pdfbox.apache.org/.
Pdftohtml [Internet], http://pdftohtml.sourceforge.net.
Poppler: a PDF rendering library based on the xpdf-3.0 code base [Internet], https://poppler.freedesktop.org/.
A. E. Jinha, "Article 50 million: an estimate of the number of scholarly articles in existence," Learned Publishing, Vol.23, No.3, pp.258-263, 2010.

상세보기
254th American Chemical Society National Meeting and Expo [Internet], http://washingtondc2017.acs.org/t/ 197077- acs-national-meeting-washington-dc-2017.
E. E. Bolton, Y. Wang, P. A. Thiessen, and S. H. Bryant, "PubChem: integrated platform of small molecules and biological activities," in Annual reports in computational chemistry, Elsevier, Vol.4, pp.217-241, 2008.
R. Zakharov, V. Tkacheonko, A. Korotcov, I. Presniakov, and S. Kalmykov, "Open Science Data Repository: The platform for materials research," 253rd American Chemistry Society (ACS) National Meeting, 2017.
Open Chemistry [Internet], https://www.openchemistry.org/.
S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: towards real-time object detection with region proposal networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.39, No.6, pp.1137-1149, 2017.

상세보기
M. Lipinski, K. Yao, C. Breitinger, J. Beel, and B. Gipp, "Evaluation of header metadata extraction approaches and tools for scientific PDF documents," in Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries, pp.385-386, 2013.
P. Lopez and L. Romary, "HUMB: Automatic key term extraction from scientific articles in GROBID," in Proceedings of the 5th International Workshop on Semantic Evaluation, pp.248-251, 2010.
I. G. Councill, C. L. Giles, and M.-Y. Kan, "ParsCit: an Open-source CRF Reference String Parsing Package," in Proceedings of the Language Resources and Evaluation Conference (LREC 08), Vol.8, pp.661-667, 2008.
TensorFlow Object Detection API [Internet], https:// research.googleblog.com/2017/06/.
K. He, et al., "Deep residual learning for image recognition," in Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.770-778, 2016.
D. A. Lawson, et al., "Single-cell analysis reveals a stemcell program in human metastatic breast cancer cells," Nature, Vol.526, No.7571, pp.131-135, 2015.
J. Huang et al., "Speed/accuracy trade-offs for modern convolutional object detectors," in Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3296-3305, 2017.
J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders, "Selective search for object recognition," International Journal of Computer Vision, Vol.104, No. 2, pp.154-171, 2013.

상세보기
I. Sutskever, J. Martens, G. Dahl, and G. Hinton, "On the importance of initialization and momentum in deep learning," in Proceedings of International Conference on Machine Learning, pp.1139-1147, 2013.
K. Barre, et al., "Tillage and herbicide reduction mitigate the gap between conventional and organic farming effects on foraging activity of insectivorous bats," Ecology and Evolution, Vol.8, No.3, pp.1496-1506, 2018.

상세보기
A. Kuznetsova, P. B. Brockhoff, and R. H. Christensen, "lmerTest package: Tests in linear mixed effects models," Journal of Statistical Software, Vol.82, No.13, pp.1-26, 2017.
N. Wahlstro？m, et al., "A Strategy for the Sequential Recovery of Biomacromolecules from Red Macroalgae Porphyra umbilicalis Ku？tzing," Industrial & Engineering Chemistry Research, Vol.57, No.1, pp.42-52, 2017.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증