[논문]작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크

신건윤; 김동욱; 홍성삼; 한명묵

doi:10.7472/jksii.2018.19.5.33

작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크
The Identification Framework for source code author using Authorship Analysis and CNN 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.19 no.5, 2018년, pp.33 - 41

신건윤 (Department of Computer Engineering, Gachon University) , 김동욱 (Department of Computer Engineering, Gachon University) , 홍성삼 (Department of Computer Engineering, Gachon University) , 한명묵 (Department of Computer Engineering, Gachon University)

초록
AI-Helper

최근 인터넷 기술이 발전함에 따라 다양한 프로그램들이 만들어지고 있고 이에 따라 다양한 코드들이 많은 사람들을 통해 만들어진다. 이러한 측면을 이용하여 특정 작성자가 작성한 코드들 그대로 가져가 자신이 작성한 것처럼 보여주거나, 참고한 코드들에 대한 정확한 표기 없이 그대로 사용하여 이에 대한 보호가 점차 어려워지고 있다. 따라서 본 논문에서는 작성자 분석 이론과 합성곱 신경망 기반 자연어 처리 방법을 적용한 작성자 식별 프레임워크룰 제안한다. 작성자 분석 이론을 적용하여 소스 코드에서 작성자 식별에 적합한 특징들을 추출하고 이를 텍스트 마이닝에서 사용하고 있는 특징들과 결합하여 기계학습 기반의 작성자 식별을 수행한다. 그리고 합성곱 신경망 기반 자연어 처리 방법을 소스 코드에 적용하여 코드 작성자 분류를 수행한다. 본 논문에서는 작성자 분석이론과 합성곱 신경망을 적용한 작성자 식별 프레임워크를 통해 작성자를 식별하기 위해서는 작성자 식별만을 위한 특징들이 필요하다는 것과 합성곱 신경망 기반 자연어 처리 방법이 소스 코드등과 같은 특수한 체계를 갖추고 있는 언어에서도 적용이 가능하다. 실험 결과 작성자 분석 이론 기반 작성자 식별 정확도는 95.1%였으며 CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 정확도를 보여줬다.

Abstract ▼ AI-Helper

Recently, Internet technology has developed, various programs are being created and therefore various codes are being made through many authors. On this aspect, some author deceive a program or code written by other particular author as they make it themselves and use other writers' code indiscriminately, or not indicating the exact code which has been used. Due to this makes it more and more difficult to protect the code. In this paper, we propose author identification framework using Authorship Analysis theory and Natural Language Processing(NLP) based on Convolutional Neural Network(CNN). We apply Authorship Analysis theory to extract features for author identification in the source code, and combine them with the features being used text mining to perform author identification using machine learning. In addition, applying CNN based natural language processing method to source code for code author classification. Therefore, we propose a framework for the identification of authors using the Authorship Analysis theory and the CNN. In order to identify the author, we need special features for identifying the authors only, and the NLP method based on the CNN is able to apply language with a special system such as source code and identify the author. identification accuracy based on Authorship Analysis theory is 95.1% and identification accuracy applied to CNN is 98%.

주제어

표/그림 (10)

그림 (그림 1) 작성자 분석기반 작성자 식별 프레임워크 (Figure 1) Author identification framework based on Authorship Analysis
표 (표 1) 작성자 분석기반 소스 코드 특징들 (Table 1) Source code features based on Authorship Analysis
표 (표 2) 프로그램 언어별 작성 방식 (Table 2) Writing method by program language
표 (표 3) 본 논문에서 사용하는 특징들 (Table 3) features in proposed framework
그림 (그림 2) 합성곱 신경망을 적용한 작성자 식별 프레임워크 (Figure 2) Author identification framework based on Convolutional Neural Network
표 (표 4) 실험 데이터 셋 (Table 4) Experiment data set
표 (표 5) N-gram과 텍스트 기반 특징을 적용한 실험 결과 (Table 5) Results of an experiment with N-gram and text-based feature
표 (표 6) N-gram 및 텍스트 기반 특징과 작성자 분석 이론 기반 특징을 적용한 작성자 식별 (Table 6) Results of an experiment with N-gram, text-based feature and Authorship Analysis based feature
표 (표 7) 합성곱 신경망을 적용한 실험 결과 (Table 7) Convolutional Neural Network applied experiment result
표 (표 8) 특징 분석 결과 (Table 8) Feature analysis result

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

작성자 분석 이론은 텍스트 마이닝 방식과 유사하지만 분석의 주체가 텍스트 마이닝과는 다르게 해당 문서 또는 코드의 작성자이고 분석을 통해 작성자의 스타일을 찾는 것을 목표로 두고 있다. 따라서 본 논문에서는 작성자 분석 이론을 적용한 작성자 식별을 수행하며, 이를 통해 해당 프로그램의 작성자 식별 특징을 찾고 식별하는 연구를 수행한다.

제안 방법

본 논문에서는 작성자 분석 이론을 통해 코드 안에 존재하는 작성자 식별 요소를 추출하고 이를 텍스트 마이닝을 통해 나온 특징들과 결합하여 작성자 식별을 수행하고 이를 통해 작성자 식별에 사용되는 주요한 특징들을 찾는다. 또한 합성곱 신경망 기반의 자연어 처리 방법을 적용하여 작성자 식별을 수행한다. 이를 통해 작성자식별을 위한 주요한 특징 연구가 필요하다는 것과 작성자 분석 이론이 이러한 문제점을 해결할 수 있다는 것을 확인하였으며, 합성곱 신경망을 통해서 소스 코드와 같은 특수한 체계를 가지고 있는 문서들도 분석이 가능하다는 것과 이를 통해 코드 작성자 식별이 가능하다는 것을 확인하였다.
본 논문에서는 앞서 서술한 다양한 특징들 중에서 텍스트 기반 특징들과 작성자 분석 이론 기반 특징들을 추출하며 텍스트 기반 특징에는 어휘적, 단어 기반, 구조적 특징으로 구성되어 있고 코드 작성자 스타일은 주석, 변수값, 작성 스타일로 구성되어있다. 두 종류의 특징들을 추출함으로써 작성자를 식별할 수 있는 주요한 특징을 확인하고 이를 통해 작성자 식별 정확도를 높일 수 있다.
본 논문에서는 작성자 분석 이론을 통해 코드 안에 존재하는 작성자 식별 요소를 추출하고 이를 텍스트 마이닝을 통해 나온 특징들과 결합하여 작성자 식별을 수행하고 이를 통해 작성자 식별에 사용되는 주요한 특징들을 찾는다. 또한 합성곱 신경망 기반의 자연어 처리 방법을 적용하여 작성자 식별을 수행한다.
작성자 분석 이론 기반 특징들은 텍스트 기반 특징들과는 다르게 다양한 프로그램 언어에서 정의되어있는 명령어 및 변수 선언 방식, 주석 사용 방법, 코드 작성 방법 등이 차이가 존재한다는 것을 인지하고 각각의 프로그램언어에 맞게 특징을 추출해야 한다. 본 논문에서는 총 5개의 프로그램 언어로 작성된 소스 코드를 사용하였으며, 해당 언어들에서 사용되는 명령어, 주석, 변수 선언 방법에 대해서 연구하였고, S. Alrabaee et al[4]와 H. Spafford and A. Weeber[5]에 나와있는 소스 코드 특징을 참고하여 작성하였다. (표 2)는 본 논문에서 사용하는 프로그램 언어들과 그에 상응하는 작성 방식을 나타내는 표이며 보이는 바와 같이 각 프로그램 별로 조금씩 작성하는 방법이 다르다는 것을 확인 할 수 있다.
본 연구에서는 작성자 분석을 적용한 특징들과 기존에 사용하였던 특징들을 결합하여 작성자 식별을 수행한다. 작성자 식별 정확도를 측정하기 위해서 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)을 통해 precision과 recall값을 구하고 이를 가지고 조화 평균을 구한다.
Yoon[8]이 제안한 방법을 참고하여 연구를 진행하였으며, (그림 2)과 같은 순서로 수행한다. 수집된 소스 코드를 단어 임베딩을 통해서 벡터화된 데이터로 변환하고 이를 합성곱 신경망에 적용하여 분류를 수행한다.
본 연구에서는 작성자 분석을 적용한 특징들과 기존에 사용하였던 특징들을 결합하여 작성자 식별을 수행한다. 작성자 식별 정확도를 측정하기 위해서 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)을 통해 precision과 recall값을 구하고 이를 가지고 조화 평균을 구한다. SVM, DT, RF, KNN을 적용하여 작성자 식별하고 k-fold 교차 검증을 통해 분류 알고리즘을 평가하였으며 평가 시 k의 값은 10으로 설정하였다.
주석 스타일에서 총 주석 수는 코드 작성자가 주석을 자주 사용하는 지를 파악하는데 사용되며, 주석 작성 길이는 코드 작성자가 주석을 작성 할 때 주석의 내용이 단어 위주인지 문장 위주인지를 분석한다.
추가적으로 작성자 분석 이론 기반 작성자 식별 실험과 합성곱 신경망 기반 작성자 식별 실험에 사용된 특징들을 분석하여 작성자 마다 얼마나 다른 특징 값을 가지고 있는 지를 분석하는 실험을 수행하였다.
합성곱 신경망 기반 자연어 처리는 합성곱 신경망이 가지고 있는 순차적 데이터 처리 방식을 자연어 처리에 적용한 방식으로 수집된 데이터(문서, 코드 등)를 단어 임베딩을 통해 벡터화를 시키고 이를 합성곱 신경망에 적용하여 분류를 수행한다. 합성곱 계층에서 단어 또는 글자의 수를 필터에서 정의한 값에 따라 처리하고 합성곱 연산을 하고 완전 연결 계층을 통해 분류를 수행한다.
합성곱 신경망 기반 자연어 처리는 합성곱 신경망이 가지고 있는 순차적 데이터 처리 방식을 자연어 처리에 적용한 방식으로 수집된 데이터(문서, 코드 등)를 단어 임베딩을 통해 벡터화를 시키고 이를 합성곱 신경망에 적용하여 분류를 수행한다. 합성곱 계층에서 단어 또는 글자의 수를 필터에서 정의한 값에 따라 처리하고 합성곱 연산을 하고 완전 연결 계층을 통해 분류를 수행한다.
합성곱 신경망을 적용하여 작성자 식별을 수행하였으며 수집한 데이터 셋을 특정 작성자와 그 외 작성자 그룹으로 분류하여 실험을 수행하였고 합성곱 계층과 폴링 계층이 10번씩 반복될 때마다 식별 정확도를 측정하였다.

대상 데이터

본 논문에서는 Google Code Jam[12]과 Github[13]에 있는 소스 코드를 사용하여 작성자 분석을 수행하며 실험에 사용하는 데이터에 대한 설명은 표 4에 나와있다. 총 5명의 작성자가 작성한 271개의 소스 코드이며 사용한 프로그램 언어는 5개로 구성되어있다.
본 논문에서는 Google Code Jam[12]과 Github[13]에 있는 소스 코드를 사용하여 작성자 분석을 수행하며 실험에 사용하는 데이터에 대한 설명은 표 4에 나와있다. 총 5명의 작성자가 작성한 271개의 소스 코드이며 사용한 프로그램 언어는 5개로 구성되어있다.

데이터처리

작성자 식별 정확도를 측정하기 위해서 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)을 통해 precision과 recall값을 구하고 이를 가지고 조화 평균을 구한다. SVM, DT, RF, KNN을 적용하여 작성자 식별하고 k-fold 교차 검증을 통해 분류 알고리즘을 평가하였으며 평가 시 k의 값은 10으로 설정하였다.
분석 방법은 해당 특징들의 평균값을 구하여 이를 비교 분석하는 방식으로 진행하였으며, 평균값을 구할 수 없는 사용 프로그램 언어와 같은 특징들은 주로 사용되는 언어 또는 선언방식으로 작성하였다. 또한 for_while과 if_switch 특징은 해당 값이 1에 가까울수록 for과 if의 비율이 높다는 것을 의미한다.

이론/모형

5이다. 분류 알고리즘을 적용하기 위한 패키지는 scikit-learn[11]을 사용하였으며 버전은 0.19.1이다.
합성곱 신경망기반의 작성자 식별은 K.Yoon[8]이 제안한 방법을 참고하여 연구를 진행하였으며, (그림 2)과 같은 순서로 수행한다. 수집된 소스 코드를 단어 임베딩을 통해서 벡터화된 데이터로 변환하고 이를 합성곱 신경망에 적용하여 분류를 수행한다.

성능/효과

Weeber[5]에 나와있는 소스 코드 특징을 참고하여 작성하였다. (표 2)는 본 논문에서 사용하는 프로그램 언어들과 그에 상응하는 작성 방식을 나타내는 표이며 보이는 바와 같이 각 프로그램 별로 조금씩 작성하는 방법이 다르다는 것을 확인 할 수 있다.
결과값은 (표 8)과 같으며 텍스트 마이닝 기반 특징에서는 5명의 작성자가 가지고 있는 특징들이 유사한 값을 가지고 있는 것으로 확인이 되었으나, 작성자 분석 기반특징들에서는 작성자마다 각각의 특성을 가지고 있다는 것이 확인되었다. 특정 작성자들은 한 가지 프로그램 언어만 쓰기 거나 혹은 두 가지 이상의 언어를 섞어서 사용하기도 하였으며, 주석을 달지 않는 작성자가 있는 반면 모든 코드에 주석을 작성하여 해당 코드들에 대한 설명을 명시해 놓은 작성자도 있었다.
두 가지 실험을 통해 코드 작성자 스타일을 결합한 데이터 셋의 경우 전보다 더 높은 식별 정확도를 보인 것을 확인하였으며 텍스트 마이닝기반 특징과 코드 작성자 스타일 실험 비교결과 코드 작성자 스타일을 결합하였을 때 1.8% 더 높은 식별 정확도를 보인 것을 확인하였다. 이를 통해 제안하는 프레임워크가 작성자 식별에 적용 가능하다는 점과 기존 방식보다 작성자 식별에 효과적인 것을 확인하였다.
본 논문에서는 앞서 서술한 다양한 특징들 중에서 텍스트 기반 특징들과 작성자 분석 이론 기반 특징들을 추출하며 텍스트 기반 특징에는 어휘적, 단어 기반, 구조적 특징으로 구성되어 있고 코드 작성자 스타일은 주석, 변수값, 작성 스타일로 구성되어있다. 두 종류의 특징들을 추출함으로써 작성자를 식별할 수 있는 주요한 특징을 확인하고 이를 통해 작성자 식별 정확도를 높일 수 있다.
특정 작성자들은 한 가지 프로그램 언어만 쓰기 거나 혹은 두 가지 이상의 언어를 섞어서 사용하기도 하였으며, 주석을 달지 않는 작성자가 있는 반면 모든 코드에 주석을 작성하여 해당 코드들에 대한 설명을 명시해 놓은 작성자도 있었다. 또한 변수 선언 방식에서도 특정 작성자는 변수명 선언시, 해당 문자 전부를 사용하거나 요약형을 사용하는 등의 차이를 보였으며, 작성자 소문자, 대문자 혹은 밑줄 문자를 선호하는 것에 대해서도 많은 차이를 보였다.
또한 실험 결과 작성자 분석 이론 기반 식별 정확도는 텍스트 기반 특징들만을 적용하였을 때보다 1.8% 높은 95.1%의 식별 정확도를 보였으며, CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 작성자 식별 정확도를 보여줬으며, 실험을 통해 작성자 분석 이론과 합성곱 신경망이 작성자를 식별을 수행 할 수 있고 작성자 분석 이론 특징들이 작성자를 판별하는 주요한 특징이 된다는 것을 확인하였다. 이는 작성자 분석 이론과 합성곱 신경망을 적용한 작성자 식별 연구를 통해 기존과 또 다른 방향을 제안함으로써 기존에 작성자 식별 연구가 가지고 있던 관점을 넓혀주고 작성자 식별을 위한 각각의 작성자 프로필(Author Profile) 작성 시, 해당 특징들이 작성자를 정의하는데 보다 정확한 정보를 제공할 수 있다는 것과 합성곱 신경망을 통해 작성자 식별을 수행함으로써 최근 많은 연구가 진행되고 있는 인공 신경망을 작성자 식별 연구에 적용할 수 있다는 것을 확인하였다.
이를 통해 작성자식별을 위한 주요한 특징 연구가 필요하다는 것과 작성자 분석 이론이 이러한 문제점을 해결할 수 있다는 것을 확인하였으며, 합성곱 신경망을 통해서 소스 코드와 같은 특수한 체계를 가지고 있는 문서들도 분석이 가능하다는 것과 이를 통해 코드 작성자 식별이 가능하다는 것을 확인하였다. 또한 실험 결과 작성자 분석 이론 기반 작성자식별 정확도는 기존의 텍스트 기반 특징들만을 적용하였을 때보다 1.8% 높은 95.1%의 식별 정확도를 보였으며, CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 작성자 식별 정확도를 보여줬다.
작성자 분석 이론을 적용한 작성자 식별 연구와 특징분석 연구를 통해서 작성자 분석 이론을 적용한 특징이 기존에 주로 사용하였던 텍스트 기반 특징보다 작성자를 식별하는데 더 좋은 성능을 보인다는 것을 확인하였으며, 특징 분석을 통해 작성자 분석 이론기반 특징들이 작성자를 식별 성능향상에 도움이 되는 주요한 특징들이라는 것을 확인할 수 있었다. 또한 합성곱 신경망을 적용한 작성자 식별 연구를 통해서도 현재 합성곱 신경망의 특징인 순차적 처리를 적용한 자연어 처리 방법이 소스 코드와 같은 특수한 체계를 가지고 있는 언어에서도 사용될 수 있다는 것과 이를 통해서 작성자 식별이 가능하다는 것을 확인하였다.
본 논문에서는 합성곱 신경망이 가지고 있는 순차적 처리 방식을 적용하여 소스 코드 작성자 식별을 수행하며 이를 통해 합성곱 신경망을 적용한 자연어 처리 기술에 소스 코드와 같은 특수한 문장 체계도 적용이 가능하다는 것과 궁극적으로 코드 작성자 식별이 가능하다는 것을 확인한다.
실험결과는 (표 7)과 같이 나타났으며, 반복횟수가 90 이상일 때부터 식별 정확도가 최대치가 되었으며 이를 통해 자연어 처리를 위한 합성곱 신경망을 코드 작성자식별에 적용이 가능하다는 것을 확인 하였다.
앞선 실험에서 사용된 특징들과 작성자 분석 이론을 적용한 특징들을 결합한 작성자 식별 실험의 실험 결과는 (표 6)과 같으며 SVM이 95.1% DT가 94.5%의 작성자식별 정확도를 보였다.
1%의 식별 정확도를 보였으며, CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 작성자 식별 정확도를 보여줬으며, 실험을 통해 작성자 분석 이론과 합성곱 신경망이 작성자를 식별을 수행 할 수 있고 작성자 분석 이론 특징들이 작성자를 판별하는 주요한 특징이 된다는 것을 확인하였다. 이는 작성자 분석 이론과 합성곱 신경망을 적용한 작성자 식별 연구를 통해 기존과 또 다른 방향을 제안함으로써 기존에 작성자 식별 연구가 가지고 있던 관점을 넓혀주고 작성자 식별을 위한 각각의 작성자 프로필(Author Profile) 작성 시, 해당 특징들이 작성자를 정의하는데 보다 정확한 정보를 제공할 수 있다는 것과 합성곱 신경망을 통해 작성자 식별을 수행함으로써 최근 많은 연구가 진행되고 있는 인공 신경망을 작성자 식별 연구에 적용할 수 있다는 것을 확인하였다.
이를 통해 작성자 분석 이론을 적용한 특징이 작성자를 분류하고 분석하는데 기존의 방식인 텍스트 기반 특징보다 효과적이라는 것을 확인할 수 있었고 또한 분석하는 작성자의 수와 관계없이 해당 작성자가 가지고 있는 고유한 특성(주석 작성 성향, 사용 언어, 변수명 선언방식 등)을 찾을 수 있다는 것을 확인할 수 있었다. 이를 통해 각각의 작성자 마다 주로 선호하는 작성 방식을 쉽게 파악할 수 있었다.
또한 합성곱 신경망 기반의 자연어 처리 방법을 적용하여 작성자 식별을 수행한다. 이를 통해 작성자식별을 위한 주요한 특징 연구가 필요하다는 것과 작성자 분석 이론이 이러한 문제점을 해결할 수 있다는 것을 확인하였으며, 합성곱 신경망을 통해서 소스 코드와 같은 특수한 체계를 가지고 있는 문서들도 분석이 가능하다는 것과 이를 통해 코드 작성자 식별이 가능하다는 것을 확인하였다. 또한 실험 결과 작성자 분석 이론 기반 작성자식별 정확도는 기존의 텍스트 기반 특징들만을 적용하였을 때보다 1.
8% 더 높은 식별 정확도를 보인 것을 확인하였다. 이를 통해 제안하는 프레임워크가 작성자 식별에 적용 가능하다는 점과 기존 방식보다 작성자 식별에 효과적인 것을 확인하였다.
작성자 분석 이론을 적용한 작성자 식별 연구와 특징분석 연구를 통해서 작성자 분석 이론을 적용한 특징이 기존에 주로 사용하였던 텍스트 기반 특징보다 작성자를 식별하는데 더 좋은 성능을 보인다는 것을 확인하였으며, 특징 분석을 통해 작성자 분석 이론기반 특징들이 작성자를 식별 성능향상에 도움이 되는 주요한 특징들이라는 것을 확인할 수 있었다. 또한 합성곱 신경망을 적용한 작성자 식별 연구를 통해서도 현재 합성곱 신경망의 특징인 순차적 처리를 적용한 자연어 처리 방법이 소스 코드와 같은 특수한 체계를 가지고 있는 언어에서도 사용될 수 있다는 것과 이를 통해서 작성자 식별이 가능하다는 것을 확인하였다.
첫 번째 실험인 N-gram과 텍스트 마이닝을 적용한 특징 기반 작성자 식별 실험에서는 (표 5)와 같은 실험 결과가 나왔으며 SVM을 적용하였을 때 92.7%의 작성자 식별 정확도를 보였다.

후속연구

본 논문에서는 소스 코드만을 사용하여 작성자 식별을 수행하였지만 바이너리 코드 어셈블리 코드 등과 같은 다양한 코드를 통한 작성자 식별연구를 진행하여 다양한 측면에서 작성자 식별 연구를 진행할 것이다. 또한 합성곱 신경망에 작성자 분석기반 특징을 적용하여 작성자를 식별하는 연구를 진행하고 이를 통해 궁극적으로 악성코드의 소스 코드 및 바이너리 코드 등을 분석하여 공격자 및 공격그룹을 식별하는 연구를 진행할 것이다.
향후 이를 극복하기 위하여 더 많은 작성자와 소스 코드를 수집하여 작성자 식별연구를 진행함으로써 이러한 한계점을 극복하고 작성자 분석 이론을 기반으로 한 다양한 특징들을 연구하여 제안한 작성자 식별 프레임워크에 적용할 것이다. 본 논문에서는 소스 코드만을 사용하여 작성자 식별을 수행하였지만 바이너리 코드 어셈블리 코드 등과 같은 다양한 코드를 통한 작성자 식별연구를 진행하여 다양한 측면에서 작성자 식별 연구를 진행할 것이다. 또한 합성곱 신경망에 작성자 분석기반 특징을 적용하여 작성자를 식별하는 연구를 진행하고 이를 통해 궁극적으로 악성코드의 소스 코드 및 바이너리 코드 등을 분석하여 공격자 및 공격그룹을 식별하는 연구를 진행할 것이다.
하지만 실험에 사용된 작성자의 수가 적어 해당 작성자들을 구분하는 특징들 사이의 격차가 크게 나타나고, 특징들의 수가 적어 작성자 식별을 수행하는데 한계점이 존재한다. 향후 이를 극복하기 위하여 더 많은 작성자와 소스 코드를 수집하여 작성자 식별연구를 진행함으로써 이러한 한계점을 극복하고 작성자 분석 이론을 기반으로 한 다양한 특징들을 연구하여 제안한 작성자 식별 프레임워크에 적용할 것이다. 본 논문에서는 소스 코드만을 사용하여 작성자 식별을 수행하였지만 바이너리 코드 어셈블리 코드 등과 같은 다양한 코드를 통한 작성자 식별연구를 진행하여 다양한 측면에서 작성자 식별 연구를 진행할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	작성자 식별이란 무엇인가?	작성자 식별은 특정 작성자가 작성한 다양한 코드를 분석하여 해당 작성자의 특징을 추출하는 방식을 말하며, 해당 작성자만을 식별 할 수 있는 주요 특징을 추출한다. 작성자 특성은 작성자의 특성을 분석하고 이를 통해 작성자의 프로필을 작성하는 것을 말하며, 유사 탐지는 다양한 코드를 비교 분석하여 한 사람의 작성자가 작성하였는지를 식별하는 방식을 말한다.
	접근 방식은 어떻게 나뉘는가?	접근 방식은 프로필 기반 방식과 인스턴스 기반 방식으로 나뉘며, 프로필 기반 방식은 작성자마다 식별된 프로그램들을 가지고 작성자의 스타일을 추출하여 각 작성자마다 작성자 프로필을 생성하는 방식으로 작성자기 식별되지 않은 코드를 프로필과 비교하여 해당 작성자를 찾는다. 인스턴스 기반 방식은 작성자가 식별된 다양한 프로그램들의 특징을 추출하여 이를 작성자 식별 모델에 적용하는 방식을 의미하며 식별되지 않은 코드에서 나온 특징들과 가장 유사한 방식을 사용한 작성자를 찾는다.
	합성곱 신경망은 어떤 역할을 수행하는가?	합성곱 신경망은 사람의 신경망을 가지고 구축한 모델로 주로 이미지를 분류하는데 자주사용이 된다. 합성곱신경망은 합성곱 계층, 폴링 계층과 완전 연결 계층으로 구성되어 있으며 합성곱 계층과 폴링 계층을 반복 수행하여 특징을 추출하고 완전 연결 계층을 통해 분류를 수행한다[6].

참고문헌 (24)

E. Stamatatos, "A Survey of Modern Authorship Attribution Methods", American Society for Information Science and Technology, Vol 60, Issue 3, pp 538-556, 2009. https://doi.org/10.1002/asi.21001

상세보기
I. Krsul, H. Spafford, "Authorship Analysis: identifying the author of a program", Computer & Security, pp 233-257, 1997. https://doi.org/10.1016/0167-4048(96)81683-x

상세보기
G. Andrew, S. Philip, M. Stephen, "Software Forensics Extending Authorship Analysis Techniques to Computer Programs", Information Science, 1997. http://hdl.handle.net/10523/872
S. Alraba, P. Shirani, M. Debbabi, L. Wang, "On the Feasibility of Malware Authorship Attribution", Foundations and Practice of Security, pp 256-272, 2016. https://doi.org/10.1007/978-3-319-51966-1_17
H. Spafford, A. Weeber, "Software Forensics Can We Track Code to its Authors?", Computers & Security, Vol 12, issue 6, pp 585-595, 1993. https://doi.org/10.1016/0167-4048(93)90055-a

상세보기
D. Britz, "Understanding Convolutional Neural Networks for NLP", WILDML, 2015. http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/
M. Moreno, J. Kalita, "Deep Learning applied to NLP", arXiv, 2017. https://arxiv.org/abs/1703.03091
Y. Kim. "Convolutional Neural Networks for Sentence Classification", Empirical Methods on Natural Language Processing, 2014. https://doi.org/10.3115/v1/d14-1181
W. Yin, K. Kann, M. Yu and H. Schutze, "Comparative Study of CNN and RNN for Natural Language Processing", arXiv, 2017. https://arxiv.org/abs/1702.01923
Python, "https://www.python.org/"
scikit-learn, "http://scikit-learn.org/stable/"
Google Code Jam, "https://code.google.com/codejam/"
Github, "https://github.com/"
S. Burrows, M. Tahaghoghi, "Source Code Authorship Attribution using n-grams", In Proc. of the Australasian Document Computing Symposium, 2007. http://citeseerx.ist.psu.edu/viewdoc/summary?doi10.1.1.68.5920
J. Houbardas and E. Stamatatos, "N-gram Features Selection for Authorship Identification", AIMSA, pp 77-86, 2006. https://doi.org/10.1007/11861461_10

상세보기
J. Kothari, M. Shevertalov, E. Stehle, S. Mancoridis, "A Probabilistic Approach to Source Code Authorship Identification", Information Technology, 2007. https://doi.org/10.1109/itng.2007.17
A. Caliskan, F. Yamaguchi, E. Dauber, R. Harangm K. Rieck, R. Greenstadt and A. Narayanan, "When Coding Style Survives Compilation: De-anonymizing Programmers from Executable Binaries", arXiv, 2016. https://doi.org/10.14722/ndss.2018.23304
G. Frantzeskou, G. MacDonell and E. Stamatatos, "Source code authorship analysis for supporting the cybercrime investigation process", INSTICC, pp 85-92, 2004. https://doi.org/10.5220/0001390300850092
N. Rosenblum, P. Miller and X. Zhu, "Recovering the Toolchain Provenance of Binary Code", International Symposium on Software Testing and Analysis, pp 100-110, 2011. https://doi.org/10.1145/2001420.2001433
N. Rosenblum, X. Zhu and B. Miller, "Learning to Analyze Binary Computer Code", AAAI Conference on Artificial Intelligence, 2008. Computer Security -ESORICS, pp 172-189, 2011. http://citeseerx.ist.psu.edu/viewdoc/summary?doi10.1.1.146.1395
N. Rosenblum, X. Zhu and B. Miller, "Who wrote this code? identifying the authors of program binaries", Computer Security - ESORICS, 99 172-189, 2011. https://doi.org/10.1007/978-3-642-23822-2_10

상세보기
M. Barreno, B. Nelson, D. Joseph and D. Tygar, "The security of machine learning", Machine Learning, Vol 81, Issue 2, pp 121-148, 2010. https://link.springer.com/article/10.1007/s10994-010-5188-5

상세보기
D. Joseph, L. Pavel, R. Fabio, J. Doug, N. Blaine, "Machine Learning Methods for Computer Security", Dagstuhl Perspectives Workshop, 2013.
A. Abbasi and H. Chen, "Applying authorship analysis to extremist-group web forum messages", IEEE Intelligent Systems, Vol 20, Issue 5, pp 67-75, 2005. https://doi.org/10.1109/mis.2005.81

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증