[논문]Convolution Filtering을 이용한 캡차 분석

김근영; 신동오; 이경희; 양대헌

doi:10.13089/jkiisc.2014.24.6.1129

Convolution Filtering을 이용한 캡차 분석
CAPTCHA Analysis using Convolution Filtering 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.24 no.6, 2014년, pp.1129 - 1138

김근영 (인하대학교 컴퓨터정보공학과) , 신동오 (인하대학교 컴퓨터정보공학과) , 이경희 (수원대학교 전기공학과) , 양대헌 (인하대학교 컴퓨터정보공학과)

초록
AI-Helper

캡차는 사람은 쉽게 판단할 수 있으나 기계는 판단할 수 없는 문제를 이용하여 사람과 기계를 구별하는 기술이다. 널리 사용되고 있는 문자열 기반 캡차는 구현이 간단하나 이미지 기반이나 소리 기반 캡차에 비해 상대적으로 보안성이 약하다. 텍스트 기반 캡차의 보안성을 높이기 위해 다양한 기법이 개발되었으며, 그 중 하나는 복잡한 배경이나 노이즈를 사용하여 기계가 문자를 인식하기 어렵게 만드는 것이다. 이 논문에서는 이미지 프로세싱 기법 중 하나인 콘볼루션 필터링(Convolution Filter)을 이용하여 효과적으로 캡차를 공격하는 방법을 제시하고, 이를 네이버 카페의 캡차에 적용하여 분석해보았다.

Abstract ▼ AI-Helper

CAPTCHA is a technique which distinguishes human and machine using what human can judge easily but machine can't. Though Text-based-CAPTCHA has been widely used and can be implemented easily, it is less security than other CAPTCHAs such as image-based, or audio-based CAPTCHAs. To enhance the security of text-based CAPTCHA, many techniques have been developed. One of them is making CAPTCHA recognized hard using complex background or noise. In this paper, we introduce how to apply convolution filtering effectively to attack CAPTCHA and actually analyze Naver's CAPTCHA which has been used for joining a cafe with this method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

Fig.4.의 캡차 뿐만 아니라 문자 외의 노이즈나 배경을 가진 캡차들에 대해서 각 캡차의 특성에 맞게 필터링에 쓰이는 커널의 값이나 필터링 횟수를 바꾸어 같은 배경제거 알고리즘을 적용해 보았다. AOL(Fig.
이 때 리스트의 길이가 추정 길이와 다른 리스트들은 얼룩이 포함되었거나, 글자가 너무 많이 지워져 얼룩으로 판단되어 리스트에 포함되지 못한 경우이므로 실험에 사용하지 않는다. SVM 을 이용하여 각 숫자들을 인식한 후, 각 자리에 대하여 인식 결과 가장 많이 나온 숫자를 해당 숫자로 선택한다.
이 리스트들의 길이를 비교하여 캡차의 길이를 추정한 후, 리스트의 길이가 추정 길이와 같은 리스트들만 이후의 SVM 판독 과정에 이용하였다. SVM 판독 결과로 생성된 파일을 분석하여, 각 자리별로 가장 많이 나온 숫자를 해당 숫자의 결과로 선택하였다.
배경에 수평·수직선이 존재하는 두 번째 세 번째 형태의 경우는, 이웃하는 픽셀이 없는 픽셀들을 인식하여 제거한다. 각각의 캡차에서 배경을 지운 후에는 connected component를 인식하여 기계에서 문자를 인식하도록 하였다. Fig.
일정 시간 내에 캡차를 재요청하면 숫자는 같지만 배경과 왜곡이 변형된 캡차가 주어진다는 특성을 이용하여 한번의 공격에 30개의 캡차를 불러오도록 하였다. 각각의 캡차의 배경을 제거한 후 숫자 별로 나누어 캡차마다 리스트를 생성하여 저장하였다. 이 리스트들의 길이를 비교하여 캡차의 길이를 추정한 후, 리스트의 길이가 추정 길이와 같은 리스트들만 이후의 SVM 판독 과정에 이용하였다.
배경제거는 Ⅳ장에서 설명한 콘볼루션 필터링을 이용하였다. Fig.
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)는 HIP(Human Interaction Proof) 기술 의 일종으로[1], 어떠한 사용자가 실제 사람인지 컴퓨터 프로그램인지 구별하기 위해 사용되는 방법이다. 사람은 인식할 수 있으나 컴퓨터는 인식하기 어렵게 의도적으로 왜곡한 후 그 내용을 물어보는 방식의 테스트로, 이용 통과 여부를 가려 테스트 대상이 사람인지 컴퓨터인지를 판별한다. 캡차는 현재 광고성 게시물 방지, 아이디 자동생성 방지, 이메일 주소 보호, 온라인 선거, 계정 해킹 방지 등에 사용되고 있다[2].
네이버 캡차는 복잡한 이미지가 배경에 위치하고, 그 위로 반투명의 문자를 보여주어 사람은 인식하기 쉬우나 일반적인 기계는 인식하기 어렵도록 설계되어 있다. 이 논문에서는 네이버 카페의 캡차에 콘볼루션 필터링과 색상 반전을 이용하여 배경을 제거하였다. 그리고 개별적으로 글자를 분리한 뒤 SVM을 이용하면 높은 확률로 캡차의 내용을 인식할 수 있음을 실험을 통해 보였다.
따라서 캡차에서 문자를 나타내는 픽셀은 주변 픽셀과 RGB값이 비슷하여 필터링의 영향을 크게 받지 않는 반면에 노이즈나 배경은 크게 영향을 받으므로 원래의 형태를 잃게 된다. 이 논문에서는 콘볼루션 필터링에 사용되는 커널의 값을 다르게 하여 블러링 효과와 샤프닝 효과를 번갈아 두 번을 반복하여 실시하였다.
각각의 캡차의 배경을 제거한 후 숫자 별로 나누어 캡차마다 리스트를 생성하여 저장하였다. 이 리스트들의 길이를 비교하여 캡차의 길이를 추정한 후, 리스트의 길이가 추정 길이와 같은 리스트들만 이후의 SVM 판독 과정에 이용하였다. SVM 판독 결과로 생성된 파일을 분석하여, 각 자리별로 가장 많이 나온 숫자를 해당 숫자의 결과로 선택하였다.
따라서 숫자의 가로 길이가 25를 넘으면 두 숫자가 붙어서 분리 되었다고 판단하여 강제로 분리를 시행한다. 이때 중간의 다섯 픽셀 중에서 수직선 상에 존재하는 검정 픽셀의 수가 가장 작은 점이 경계일 가능성이 높으므로, 그 픽셀을 기준으로 두 숫자를 강제로 분리함으로써 리스트를 수정 한다.
과 같다. 일정 시간 내에 캡차를 재요청하면 숫자는 같지만 배경과 왜곡이 변형된 캡차가 주어진다는 특성을 이용하여 한번의 공격에 30개의 캡차를 불러오도록 하였다. 각각의 캡차의 배경을 제거한 후 숫자 별로 나누어 캡차마다 리스트를 생성하여 저장하였다.
SVM(Support Vector Machine)은 분류(classification), 회귀(regression) 등 여러 분야 에서 사용되는 기계학습 알고리즘의 하나이다[5]. 캡차를 각각의 문자로 분리한 후에 SVM을 이용하여 각 문자를 학습시키고 각 이미지가 어떤 문자인지 질의하면 SVM이 학습된 내용을 바탕으로 응답한다는 것을 이용하여 각 글자가 무엇인지를 알아내기 위하여 이용 하였다. 캡차 분석에서 SVM은 자주 이용되는 도구이며 좋은 결과를 보인다[6][7].

대상 데이터

예측 전, SVM 학습에 쓰인 모델 파일은 실험 전에 미리 만들어놓았으며, 모델 파일 생성에 이용한 이미지들은 실험에 사용하지 않았다. 사용한 이미지의 총 개수는 1부터 9까지 150개씩, 총 1350개의 이미지를 사용하였다. 실험을 진행한 환경은 Table 3과 같다.
실험에 사용된 캡차는 총 1,000세트이며, 각 세트는 동일한 숫자이지만 서로 다른 배경을 가진 30개의 캡차 이미지로 구성되어있다. 하나의 캡차를 공격하는데 이용된 이미지는 30개이므로 총 30,000개의 이미지를 사용하였다.
실험에 사용된 캡차는 총 1,000세트이며, 각 세트는 동일한 숫자이지만 서로 다른 배경을 가진 30개의 캡차 이미지로 구성되어있다. 하나의 캡차를 공격하는데 이용된 이미지는 30개이므로 총 30,000개의 이미지를 사용하였다. 실험에 사용된 이미지들은 순수하게 분석에 소요되는 시간을 측정하기 위하여 실험 전에 미리 컴퓨터에 저장해 놓았다.

이론/모형

캡차 분석에서 SVM은 자주 이용되는 도구이며 좋은 결과를 보인다[6][7]. 실험에는 오픈소스 중 하나인 LIBSVM을 이용하였다[11].
net의 캡차이다. 캡차의 공격에는 주위의 픽셀 값과 threshold값을 이용한 Gibbs 알고리즘이 사용되었다[1].

성능/효과

이 논문에서는 네이버 카페의 캡차에 콘볼루션 필터링과 색상 반전을 이용하여 배경을 제거하였다. 그리고 개별적으로 글자를 분리한 뒤 SVM을 이용하면 높은 확률로 캡차의 내용을 인식할 수 있음을 실험을 통해 보였다. 또한, 동일한 방법을 AOL과 DailyMotion에서 사용하는 캡차에 적용했을 때에도 효과적으로 배경 및 노이즈가 제거되고 글자만 남은 이미지를 얻을 수 있음을 보였다.
그리고 개별적으로 글자를 분리한 뒤 SVM을 이용하면 높은 확률로 캡차의 내용을 인식할 수 있음을 실험을 통해 보였다. 또한, 동일한 방법을 AOL과 DailyMotion에서 사용하는 캡차에 적용했을 때에도 효과적으로 배경 및 노이즈가 제거되고 글자만 남은 이미지를 얻을 수 있음을 보였다. 따라서 복잡한 배경을 가진 캡차는 기계가 인식하기 어렵도록 설계 되었으나, 사실상 그 효과가 미미하다고 할 수 있다.
분리를 실패한 경우는 얼룩이 문자로 판별되어 원래의 길이보다 길게 나온 경우는 없었고 글자가 하나 사라진 경우만 나타났다. 8가지 실패 경우 중에서 7경우가 1이 없어진 경우이고, 하나만 9가 없어진 경우인데, 1과 9 모두 문자의 가로 폭이 좁은 숫자로, 프로그램에서 숫자를 얼룩으로 인식하여 발생한 문자로 추정된다.

후속연구

이 논문에서 분석한 캡차들 뿐만 아니라 배경을 가지는 대부분의 캡차들에도 이와 같은 방법을 이용 하여 공격을 시도할 경우에 높은 성공률을 보일 수 있을 것으로 기대한다. 또한 이미지 프로세상 기법에 쉽게 영향을 받지 않으면서도 사용성이 높은 캡차를 설계하는 것은 향후 연구 주제로 남겨둔다.
이 논문에서 분석한 캡차들 뿐만 아니라 배경을 가지는 대부분의 캡차들에도 이와 같은 방법을 이용 하여 공격을 시도할 경우에 높은 성공률을 보일 수 있을 것으로 기대한다. 또한 이미지 프로세상 기법에 쉽게 영향을 받지 않으면서도 사용성이 높은 캡차를 설계하는 것은 향후 연구 주제로 남겨둔다.

질의응답

핵심어	질문	논문에서 추출한 답변
	네이버가 현재 사용하고 있는 캡차의 특징에는 무엇이 있는가?	· 4~8개의 숫자(1~9)로 이루어져 있다. · 일정 시간 내에 캡차를 다시 요청하면 배경 이미지와 숫자의 왜곡 정도만 달라지고 입력해야 할 숫자 자체는 바뀌지 않는다. · 가입을 다시 시도할 경우에 숫자가 바뀐다. · 전체 캡차 이미지의 크기는 200x90으로 고정 되어 있으나, 숫자 하나하나의 길이는 고정되어 있지 않다. · 숫자는 가로 방향으로 떨어져 분포한다. · 숫자는 크기가 바뀌기도 하지만 약간의 왜곡도 주어진다. · 숫자는 흰색이지만, 투명하게 처리하여 배경의 영향을 받는다. · 배경으로 쓰이는 이미지는 자연의 꽃, 풀, 나 무, 나뭇잎, 돌 등으로 구성되어 있다. · 같은 배경이미지가 재사용된다.
	캡차는 어떤 기술인가?	캡차는 사람은 쉽게 판단할 수 있으나 기계는 판단할 수 없는 문제를 이용하여 사람과 기계를 구별하는 기술이다. 널리 사용되고 있는 문자열 기반 캡차는 구현이 간단하나 이미지 기반이나 소리 기반 캡차에 비해 상대적으로 보안성이 약하다.
	문자열 기반 캡차의 장단점은 무엇인가?	캡차는 사람은 쉽게 판단할 수 있으나 기계는 판단할 수 없는 문제를 이용하여 사람과 기계를 구별하는 기술이다. 널리 사용되고 있는 문자열 기반 캡차는 구현이 간단하나 이미지 기반이나 소리 기반 캡차에 비해 상대적으로 보안성이 약하다. 텍스트 기반 캡차의 보안성을 높이기 위해 다양한 기법이 개발되었으며, 그 중 하나는 복잡한 배경이나 노이즈를 사용하여 기계가 문자를 인식하기 어렵게 만드는 것이다.

참고문헌 (11)

E. Bursztein and M. Martin and Jon C.Mitchell, "Text-based CAPTCHA Strengths and Weaknesses," 18th ACM conference of Computer and Communication security 2011 (CSS'2011), pp. 125-138, 2011
Carnegie Mellon University. "The Official CAPTCHA site," http://www.captcha.net/
V. Podlozhnynk, "Image convolution with CUDA," NVIDIA Corporation white paper, vol. 1.0, June 2007
C. Sutherland, "Usability and Security of Text-based CAPTCHAs," UMM CSci Senior Seminar Conference, Morris, MIN. 2012.
Joachims, T. "Making large-scale SVM learning practical," In Advances in Kernel-Methods - Support Vector Learning, Support Vector Learning, Bl Schollkopf, C.J.C. Burges, and A. J. Smola, Eds., MIT Press, Cambridge, MA, pp. 169-184, 1998
SungHo Kim, DaeHun Nyang, KyungHee Lee, "Breaking character-based CAPTCHA using color information", Journal of The Korea Institute of information Security & Cryptology, 19(6), pp. 105-112, Dec. 2009
DaeHun Nyang, YongHeon Choi, SeokJun Hong, KyungHee Lee, "Analysis of Naver CAPTCHA with Effective Segmentation", Journal of The Korea Institute of information Security & Cryptology, 23(5), pp. 909-917, Oct. 2013

원문보기 상세보기
http://www.nielsen.com/kr/ko/top10s.html?rankingwebsites
www.internettrend.co.kr/trendForward.tsp
K. Chellapilla, P. Y. Simard, "Using Machine Learning to Break Visual Human Interaction Proofs (HIPs)," Advances in neural information processing systems 17, pp. 265-272, 2005.
C. C. Chag, C. J. Lin, "LIBSVM: a library for support vector machines," ACM Transactions on intelligent Systems and Technology(TIST) 2(3), article pp. 1-27, 2011

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증