[논문]딥러닝과 분산컴퓨팅을 이용한 전자상거래에서의 대용량 상품 데이터 카테고리 분류

하정우; 표현아; 김정희

문제 정의

텍스트 분류 문제에 속한다. 본 연구에서는 대규모상품 카테고리를 정확하게 분류하기 위해 분산 컴퓨팅 및 딥러닝을 이용한 방법을 제안하였다. 제안하는 DeepCN 모델은 복수개의 RNN을 이용하여 상품의 세부 메타정보를 학습하고 이를 카테고리 분류에 사용하여 기존의 Bag-of-words 기반 방법에 비하여 매우 개선된 성능을 보였다.
본 연구에서는 두 가지 관점에서 성능을 비교하는 데 첫 번째는 Bag-of-word 기반 방법에 비한 시퀀스 모델링의 효과이며 두 번째는 복수개의 RNN을 사용에 대한효과를 측정하는 것이다. 이에 따라 첫 번째 비교를 위하여 unigram기반의 Bag-of-words 특징 (feature)을 사용하는 Bayesian network (BN_BoW) 모델을 사용하였으며, 두 번째 비교를 위하여 모든 세부메타정보를 하나의 긴 단어 시퀀스로 만들어 이를 하나의 RNN을 사용하는 DCN-1R을 사용하였다.
본 연구에서는 딥러닝을 이용하여 카테고리 계층정보와 같은 사전 지식을 필요로 하지 않고 대규모 상품들의 메타정보로부터 카테고리를 분류하는 모델인 DeepCN을 제안한다. 제안하는 DeepCNe 종단간 (end-to-end) 형태의 딥러닝 모델로서 상품 메타정보로부터 인자 생성을 위한 복수개의 RNN과[13-15] 카테고리 분류를 위한 복수개의 fully comected 계층으로[16] 구성되어 있다.
본 연구에서는 세부 카테고리의 수를 고려하여 효과적인 결과 분석을 위해 상위 카테고리 별로 정확도를 분석하였다. 또한 회사 정책에 따라 일반적으로 사용되는 ''절대 정확도(accuracy)” 대신 “상대 정확도” 诉 를 사용하여 성능을 평가하였다 상대 정확도는 특정 데이터 및 모델의 정확도(〃(。;。))를 6개의 세부 메타정보를 이용한 DeepCN모델 (DCN-6R)의 전체 세부 카테고리에 대한 평균 정확도(矿) 의 비율로 정의된다:

제안 방법

정보를 포함할 수 있다. 그러나 다수의 판매자들은 상품 메타정보 전체를 입력하지 않는 경우가 많기 때문에 본 논문에서는 카테고리 분류를 위한 상품 메타정보로서 상품명, 브랜드명, 제조사명, 판매자 자체 카테고리정보, 판매자 ID, 이미지 인자정보 총 6 가지의 세부정보(attribute)를 사용한다. 특정 상품 메타정보를 d라고 할 때 세부정보들의 벡터를 X, 세부 카테고리를 y라고 하면 다음과 같은 수식으로 정의된다.
제안하는 DeepCNe 종단간 (end-to-end) 형태의 딥러닝 모델로서 상품 메타정보로부터 인자 생성을 위한 복수개의 RNN과[13-15] 카테고리 분류를 위한 복수개의 fully comected 계층으로[16] 구성되어 있다. 아이템 메타정보는 상품명, 브랜드명 등의 세부정보로 구성되며 하나의 RNNe 각각의 세부정보를 모델링한다. 이러한 세부정보별 RNN의 사용은 모든 메타정보를 한꺼번에 사용할 때 발생할 수 있는 의미모호성과 단어 시퀀스가 길어짐에 따른 RNN 학습 성능 저하를 방지한다.
DeepCN의 목적함수는 상품카테고리별 확률값을 표현하는 출력계층의 에러로 정의되며 이 에러 정보는 back propagation 및 back propagation through time (BPTT) 방법을 이용하여 fully connected 계층과 RNN을 통하여 입력계층까지 역전파되어 각 계층 연결의 가중치를 갱신함으로써 학습이 진행된다. 이러한 end-to-end 형태의 학습방법으로 DeepCNe word2vec과 같은 사전 학습 없이 효율적으로 모델을 학습한다.
제안한다. 제안하는 DeepCNe 종단간 (end-to-end) 형태의 딥러닝 모델로서 상품 메타정보로부터 인자 생성을 위한 복수개의 RNN과[13-15] 카테고리 분류를 위한 복수개의 fully comected 계층으로[16] 구성되어 있다. 아이템 메타정보는 상품명, 브랜드명 등의 세부정보로 구성되며 하나의 RNNe 각각의 세부정보를 모델링한다.

대상 데이터

본 연구에서는 제안하는 DeepCN의 성능 검증을 위하여 네이버에 쇼핑에서 등록 및 거래되고 있는 9, 480 만개의 상품들을 이용하였으며 이 상품들은 각각 4, 116개의 세부 카테고리 중 하나에 속해 있다. 상품 데이터는 훈련 / 검증 / 테스트 용으로 각각 8/11, 2/11, 1/11 로 분할되었으며 테이블 2는 상위 카테고리 별 세부카테고리 및 상품의 개수를 보여주고 있다.
상품 데이터는 훈련 / 검증 / 테스트 용으로 각각 8/11, 2/11, 1/11 로 분할되었으며 테이블 2는 상위 카테고리 별 세부카테고리 및 상품의 개수를 보여주고 있다. 전처리를 통해 정의된 메타정보에 사용된 고유한 단어의 종류는 약 280만 개이다.

이론/모형

측정하는 것이다. 이에 따라 첫 번째 비교를 위하여 unigram기반의 Bag-of-words 특징 (feature)을 사용하는 Bayesian network (BN_BoW) 모델을 사용하였으며, 두 번째 비교를 위하여 모든 세부메타정보를 하나의 긴 단어 시퀀스로 만들어 이를 하나의 RNN을 사용하는 DCN-1R을 사용하였다. DCN-1R의 학습 방법은 DCN-6R과 동일하며 사용된 R心N의 개수만 차이가 있다.
구체적인 가중치 갱신 방법은 [1]에 자세히 설명되어 있다. 학습을 위한 최적화 기법으로는 Stochastic gradient descent가 사용되었다.

성능/효과

학습 시간적 측면에서도 RNN이 FC층에 비해 큰 영향을 주는 것을 확인할 수 있다. 결론적으로 RN₄의 개수 및 은닉 계층의 수가 모델의 정확도와 학습 시간 측면에서의 성능을 결정하는 중요한 요소임을 확인할 수 있다.
상위 카테고리 별 성능 분석을 하면 잡화의 성능이 다른 상위 카테고리들에 비해 상대적으로 낮은 성능을 보이고 있는데 이는 잡화 카테고리가 매우 다양한 상품들로 구성이 되어 있기 때문으로 해석 될 수 있다. 그리고 Bag-of-words 기법이 면세점상품에서 매우 낮은 성능을 보이고 있는데 이는 면세점상품이 상품의 수가 작을 뿐 아니라 면세점 카테고리는 상품에 의해서가 아닌 판매자에 의해 결정되기 때문인데 Bag-of-words기법이 판매자 정보를 정확히 학습하기 어려운 데 비해 제안하는 DeepCNe 이를 잘 구분하는 능력을 보유하고 있다고 해석할 수 있다.
이는 단어 시퀀스 모델링이 성능 향상에 큰 기여를 한다는 것을 의미한다. 또한 DCN-6R과 DCN-1R을 비교했을 때 성능이 소폭 증가한 것을 확인할 수 있는데 이는 세부 메타정보별로 RNN을 할당한 방법이 효과가 있음을 증명한다. 비록 상대 정확도 비율 차이가 3%에 불과하나 데이터의 규모를 고려하면 수십만 개의 상품을 더 정확하게 분류하는 것을 뜻하므로 의미 있는 차이라 할 수 있다.
제안하는 DeepCN 모델은 복수개의 RNN을 이용하여 상품의 세부 메타정보를 학습하고 이를 카테고리 분류에 사용하여 기존의 Bag-of-words 기반 방법에 비하여 매우 개선된 성능을 보였다. 또한 다양한 실험을 통해 RNN이 모델 성능에 중요한 영향을 주는 것을 확인하였다.
본 연구에서는 대규모상품 카테고리를 정확하게 분류하기 위해 분산 컴퓨팅 및 딥러닝을 이용한 방법을 제안하였다. 제안하는 DeepCN 모델은 복수개의 RNN을 이용하여 상품의 세부 메타정보를 학습하고 이를 카테고리 분류에 사용하여 기존의 Bag-of-words 기반 방법에 비하여 매우 개선된 성능을 보였다. 또한 다양한 실험을 통해 RNN이 모델 성능에 중요한 영향을 주는 것을 확인하였다.
제안한 DCN-6R이 기존 Bag-of-words 기반 방법에 비하여 매우 정확한 분류성능을 보여주는 것을 확인할 수 있다. 이는 단어 시퀀스 모델링이 성능 향상에 큰 기여를 한다는 것을 의미한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝과 분산컴퓨팅을 이용한 전자상거래에서의 대용량 상품 데이터 카테고리 분류 원문보기

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝과 분산컴퓨팅을 이용한 전자상거래에서의 대용량 상품 데이터 카테고리 분류 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

김정희 (1)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper