최근 기술이 발전함에 따라 업무 환경이 모두 디지털화되어 업무 대부분에서 디지털 문서를 활용한다. 사건과 관련된 문서를 빠르게 선별해야 하는 디지털 포렌식 수사관들에게 수많은 디지털 문서들은 수사에 많은 어려움을 준다. 특히 전자증거개시제도(eDiscovery)에서는 한정된 시간 내에 많은 문서 및 파일 간의 연관성을 분석하여 의미 있는 디지털 증거를 찾는 것이 중요하다. 디지털 ...
최근 기술이 발전함에 따라 업무 환경이 모두 디지털화되어 업무 대부분에서 디지털 문서를 활용한다. 사건과 관련된 문서를 빠르게 선별해야 하는 디지털 포렌식 수사관들에게 수많은 디지털 문서들은 수사에 많은 어려움을 준다. 특히 전자증거개시제도(eDiscovery)에서는 한정된 시간 내에 많은 문서 및 파일 간의 연관성을 분석하여 의미 있는 디지털 증거를 찾는 것이 중요하다. 디지털 포렌식 수사 시 디지털 문서들의 양식을 식별하여 수많은 문서 중 비슷한 형태를 지닌 문서들을 선별한다면, 특정 조직에서 작성한 문서들만을 그룹화할 수 있다. 본 논문에서는 유사 문서 검색을 위해 문서의 페이지 수만큼 저장된 이미지 중에서 문서를 대표할 수 있는 이미지를 생성하는 방법과 대표 이미지 간의 유사도 분석을 위해 이미지 해시를 사용하여 유사한 문서를 검색하는 방법을 제시한다. Govdocs1 데이터 세트에 존재하는 약 5만 개의 Microsoft PowerPoint 파일과 NapierOne 데이터 세트에 존재하는 약 6천 개의 Microsoft PowerPoint 파일을 통해 본 논문에서 제시하는 방법에 대한 실용성을 보였다.
최근 기술이 발전함에 따라 업무 환경이 모두 디지털화되어 업무 대부분에서 디지털 문서를 활용한다. 사건과 관련된 문서를 빠르게 선별해야 하는 디지털 포렌식 수사관들에게 수많은 디지털 문서들은 수사에 많은 어려움을 준다. 특히 전자증거개시제도(eDiscovery)에서는 한정된 시간 내에 많은 문서 및 파일 간의 연관성을 분석하여 의미 있는 디지털 증거를 찾는 것이 중요하다. 디지털 포렌식 수사 시 디지털 문서들의 양식을 식별하여 수많은 문서 중 비슷한 형태를 지닌 문서들을 선별한다면, 특정 조직에서 작성한 문서들만을 그룹화할 수 있다. 본 논문에서는 유사 문서 검색을 위해 문서의 페이지 수만큼 저장된 이미지 중에서 문서를 대표할 수 있는 이미지를 생성하는 방법과 대표 이미지 간의 유사도 분석을 위해 이미지 해시를 사용하여 유사한 문서를 검색하는 방법을 제시한다. Govdocs1 데이터 세트에 존재하는 약 5만 개의 Microsoft PowerPoint 파일과 NapierOne 데이터 세트에 존재하는 약 6천 개의 Microsoft PowerPoint 파일을 통해 본 논문에서 제시하는 방법에 대한 실용성을 보였다.
With the recent development of technology, the work environment is all digitized, and digital documents are utilized in most of the work. For digital forensic investigators who need to quickly select documents related to a case, numerous digital documents cause a lot of difficulties in investigation...
With the recent development of technology, the work environment is all digitized, and digital documents are utilized in most of the work. For digital forensic investigators who need to quickly select documents related to a case, numerous digital documents cause a lot of difficulties in investigations. In particular, in eDiscovery, it is important to find meaningful digital evidence by analyzing associations between many documents and files within a limited time. In the case of digital forensic investigation, if documents with similar types are selected among numerous documents by identifying the types of digital documents, only documents created by a specific organization can be grouped. In this paper, we present a method of generating an image that can represent a document among images stored as many as the number of pages of a document for searching similar documents, and a method of searching similar documents using an image hash for similarity analysis between representative images. About 50,000 Microsoft PowerPoint files in the Govdocs1 data set and about 6,000 Microsoft PowerPoint files in the NapierOne data set demonstrate the practicality of the method presented in this paper.
With the recent development of technology, the work environment is all digitized, and digital documents are utilized in most of the work. For digital forensic investigators who need to quickly select documents related to a case, numerous digital documents cause a lot of difficulties in investigations. In particular, in eDiscovery, it is important to find meaningful digital evidence by analyzing associations between many documents and files within a limited time. In the case of digital forensic investigation, if documents with similar types are selected among numerous documents by identifying the types of digital documents, only documents created by a specific organization can be grouped. In this paper, we present a method of generating an image that can represent a document among images stored as many as the number of pages of a document for searching similar documents, and a method of searching similar documents using an image hash for similarity analysis between representative images. About 50,000 Microsoft PowerPoint files in the Govdocs1 data set and about 6,000 Microsoft PowerPoint files in the NapierOne data set demonstrate the practicality of the method presented in this paper.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.