[보고서]Open Innovation을 위한 소비자 행동 이론 기반 데이터마이닝 융합 기술 개발

이수원

Open Innovation을 위한 소비자 행동 이론 기반 데이터마이닝 융합 기술 개발
Developing a Data Mining Convergence Technology based on Consumer Behavior Theory for Open Innovation 원문보기

보고서 정보
주관연구기관	숭실대학교 Soongsil University
연구책임자	이수원
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2016-05
과제시작연도	2015
주관부처	미래창조과학부 Ministry of Science, ICT and Future Planning
등록번호	TRKO201700011406
과제고유번호	1711024704
사업명	중견연구자지원
DB 구축일자	2017-10-12
키워드	개방형 혁신.데이터 마이닝.오피니언 마이닝.아이디어 마이닝.SNS 분석.소비자행동이론.소비자 성향.아이디어 온톨로지.Open Innovation.Data Mining.Opinion Mining.Idea Mining.SNS Analysis.Consumer Behavior Theory.VOC.Consumer Preference.Idea Ontology.
DOI	https://doi.org/10.23000/TRKO201700011406

초록 ▼

본 연구의 최종 목표를 달성을 위한 연차별 연구내용은 다음과 같다
1차년도
▪ 소비자행동 이론에 기초하여 온라인 이용 행동에 대한 소비자 성향을 분석한 결과, 연령이 낮고 페이스북 사용기간이 높을수록, 외향성이 높거나 독특성 욕구가 높은 사람일수록 피드 수가 높은 것으로 나타났다.
▪ 상품 특징 추출을 위한 개체명 인식 기술에서는 ‘다음검색 트렌드’를 이용하여 57,929개의 개체명 추출하였으며, 이를 9개 대분류, 17개 중분류, 60개 소분류로 구분하여 개체명 사전을 구축하였다.
▪ SNS 텍스트 분석을 위하여 이모티콘이나 연속된 자음 등 형태소 분석이 되지 않는 데이터를 Regular Expression을 이용하여 전처리를 수행하였으며, unigram과 bigram을 결합한 N-gram 방법을 이용하여 특징 단어를 추출하였다.
▪ MSI(MyStarbucksIdea)를 기반으로 핵심적인 기업 혁신 아이디어를 추천하기 위한 분류 모델을 구축하였으며, 실험결과, Naïve Bayes와 SVM의 성능이 가장 높게 나타났다.
▪ 인구통계정보 기반 사용자 관심사 모델을 설계, 구현하였으며, 기존 인기뉴스 추천 방법과의 비교평가를 통해 Cold Start Problem 개선에 대한 가능성을 제시하였다.
2차년도
▪ 소비자 성향요인에 따른 페이스북 팬페이지 가입 행동을 회귀분석을 통하여 검증한 결과, 상태 및 사진 업데이트수 및 친구 수가 많을수록 가입한 팬페이지가 많은 것으로 나타났다. 성향적 요인에서는 공적자기의식과 독특성 욕구가 높을수록, 반면 자존감은 오히려 낮을수록 팬페이지에 더 많이 가입하는 것으로 나타났다.
▪ 감성 어휘 특징을 추출하여 단어의 감성 지수를 자동으로 예측하는 기술을 개발하여 기존 감성사전의 단점인 부족한 감성단어의 수를 보완하였다. (한국어 감성단어 수 935개로 확장)
▪ SNS로부터 감성 분석에 필요한 텍스트만 획득하기 위하여 한국어 문화에 적합한 SNS 텍스트의 유형을 정의하고 자동 분류하였다. 또한 분류한 텍스트에 대한 감성 강도를 계산하는 기술을 개발하였다.
▪ MSI(MyStarbucksIdea.com) 사이트로부터 아이디어에 대한 데이터를 수집하여 CCIO(Co-Creation Idea Ontology)를 구축하고, 아이디어를 추천하기 위한 서비스인 OnCES를 개발하였다.
▪ 페이스북 사용자들의 행동 정보를 분석하여 어떤 특징이 라이프스타일에 영향을 미치는지 검증하고 예측모형을 도출하였다. 실험 결과, 성별의 예측이 가장 용이한 것으로 나타났으며, 그 다음으로 나이, 외향성 순인 것으로 나타났다.
3차년도
▪ 제품유형별 회귀분석을 진행한 결과, 공적자기의식이 높을수록 경험재, 쾌락재, 실용재 팬페이지에 더 가입하였으며, 독특성욕구가 높을수록 탐색재, 경험재, 실용재 팬페이지에 더 가입하는 것으로 나타났다. 반면, 자존감이 높을 경우 쾌락재 팬페이지는 덜 가입하는 것으로 나타났다.
▪ EM 알고리즘을 이용하여 스크린 수와 영화 Box-office와의 상관관계를 도출하였으며, 메타 데이터 기반으로 영화 Box-office 예측 모델을 개발하였다.
▪ 평판 분석을 위해 NNLM(Neural Network Language Model)을 사용하여 대체 어휘 자동 군집화 기술을 개발하였다. 기존 감성단어의 단점인 특징 단어에 대한 대체단어를 자동 군집화하여 감성단어 지수 추정의 정확성을 향상시켰다.
▪ 아이디어 온톨로지와 개방형 혁신 커뮤니티의 구조를 참조하여 OIIO(Open Innovation Idea Ontology)를 구축하였다. 또한 시맨틱 웹 마이닝 기법을 활용하여 고객 아이디어로부터 정보를 추출하고 시맨틱 데이터의 활용 가능성을 검증하기 위한 4가지 서비스를 구현하였다.
▪ 온라인에서 소비자가 작성한 제품에 대한 리뷰 분석을 통해 제품유형을 실용재와 쾌락재로 자동 분류하는 시스템을 개발하였다. 성능 평가를 통하여 기계학습 기법 및 파라미터 최적화를 수행하였다.
(출처: 연구결과 요약문 5p)

Abstract ▼

The following shows yearly progress of the research
First Year Progress
▪ Base on the consumer behavior theory, consumer preference showed: Young age group who uses Facebook longer with extrovert and unique characteristics have a higher feed.
▪ Using ‘Daum Search Trend’ 57,929 Named Entity were extracted; Among those numbers, 9 were labeled category, 17 were division, and 60 were section to create Named Entity Dictionary.
▪ Certain texts including emoji, continuing consonant and etc. which were not able to analyze data for SNS text analyze were done with Regular Expression to use pre-treatment method; furthermore, using N-gram that are combined with unigram and bigram certain vocabulary were extracted.
▪ Based on MSI (MyStratbucksIdea), division were created to recommend innovative idea, experiment result showed Naïve Bayes and SVM showed the highest performance.
▪ Using demographic information, user’s preference models were designed and embodied. Possibility of Cold Start Problem improvement were presented through comparison of the existing popular news recommendation and demographic information.
Second Year Progress
▪ Regression analysis that was done in consumer preference and joining fan-page showed, user who has frequent update and large numbers of friend showed higher joined fan-page. In chararteristic side, user who has higher public self-consciouness and unique desire with lower self-esteem joined more fan-page.
▪ Extracting emotional vocabulary, were developed to make up for deficient number of emotional vocabulary which was a weak point in current emotion-dictionary. (Korean emotional vocabulary were expended to 935).
▪ In order to achieve text that were necessary to analyze ‘sentiment’ from SNS, SNS text pattern that fit with Korean cultures were defined and categorized. Also, developed a technique to calculate sentimental strength with categorized text.
▪ CCIO(Co-Creation Idea Ontology) were build from idea data in MSI(MyStarbucksIdea.com); OnCES were developed to recommend the idea.
▪ Behavior from Facebook user were analyzed and graphed to see which feature impacts their lifestyle. According to the experiment, sex feature were ease to predict following their ages, and extraversion.
Third Year Progress
▪ Through regression analysis according to type of products, who have higher public self-conscioussess joined fanpage of experiential, hedonic, practical products more and who have more needs of uniqueness joined fanpage of search, experiential and practical goods more. On the other hands, the one with more self-esteem joined fanpage of hedonic products less.
▪ We derived relation between the count of screen and the box-office of movies by using EM Algorithm, and developed a model to predict box-office of movies based on meta-data.
▪ We developed Auto Clustering Technique of Substituting Word by using NNLM(Neural Network Language Model) for reputation analysis. Also Improved the accuracy of estimating degree of sentimental word by auto clustering of substituting words about peculiar word which is a flaw of existing sentimental words.
▪ We established OIIO(Open Innovation Idea Ontology) refer to Idea Ontology and open-type innovation community. Also extracted information from idea of customer by making use of technology of semantic web mining and implemented four sevices to verify possibility of applying semantic data.
▪ We developed the system which classify type of products as practical or hedonic automatically by analyzing the reviews written by customers online. And we carried out optimazing of the parameters and technique of machine learning by estimating performance.
(출처: Summary 6p)

목차 Contents

표지 ... 1목차 ... 3연구계획 요약문 ... 4연구결과 요약문 ... 5 요약문 ... 5 SUMMARY ... 6연구내용 및 결과 ... 7 1. 연구개발과제의 개요 ... 7 2. 국내외 기술개발 현황 ... 10 3. 연구수행 내용 및 결과 ... 15 4. 목표달성도 및 관련분야에의 기여도 ... 111 5. 연구결과의 활용계획 ... 113 6. 연구과정에서 수집한 해외 과학기술정보 ... 116 7. 주관연구책임자 대표적 연구실적 ... 119 8. 참고문헌 ... 120 9. 연구성과 ... 122 10. 국가과학기술지식정보서비스에 등록한 연구시설‧장비 현황 ... 128 11. 연구개발과제 수행에 따른 연구실 등의 안전조치 이행실적 ... 128 12. 기타사항 ... 128별첨 ... 129끝페이지 ... 152

표/그림 (168)

표 Open Innovation을 위한 데이터마이닝 융합 기술 세부 모듈 관계도
표 Open Innovation을 위한 데이터마이닝 융합 기술 개념도
표 다양한 분야의 주요 기업에서 사용하는 크라우드소싱 플랫폼 (PBworks, 2011)
표 SNS에서 제품의 정보를 공유한 횟수별 소비자 분포 (8thBridge, 2012)
표 We Feel Fine에서 발렌타인 데이에 사람들의 감정 변화에 대한 분석을 수행한 예 (Kamvar & Harris, 2011)
표 Open Innovation을 위한 데이터마이닝 융합 기술 개발을 위한 연차별 연구 목표 및 내용
표 Open Innovation을 위한 융합 마이닝 시스템 구조도
표 성향요인 측정문항 및 신뢰성
표 응답자 특성
표 기술통계량 및 상관관계
표 피드(feed) 수에 대한 회귀분석 결과
표 친구 수에 대한 회귀분석 결과
표 상태 업데이트 수에 대한 회귀분석 결과
표 사진 업데이트 수에 대한 회귀분석 결과
표 피드 수에 대한 수정모형 회귀분석 결과
표 실험 데이터 수집 환경
표 웹 환경에서의 실행 화면
표 모바일 환경에서의 실행 화면
표 추출된 특징 변수들의 수치 분포
표 외향성 및 공적자기의식 예측 모델
표 독특성 욕구 및 자존감 예측 모델
표 페이스북 사용자 행동 분석을 통한 개인 성향 자동 예측 시스템 구조도
표 친구관계분석을 통한 친한 친구 목록 추출
표 ‘아는 사람’과 ‘친한 친구’의 분포
표 ‘아는 사람’과 ‘친한 친구’ 구분 근거
표 오픈 그래프 구조의 예 (출처: Facebook)
표 사용자 행동 행렬 (User Behavior Matrix)
표 ‘21세기 세종계획’에서 제공하는 고유명사 분류체계
표 개체명 데이터 분포도 (대분류 기준)
표 다음 검색트렌드 화면
표 개체명 수집에 사용된 데이터 설명
표 개체명 사전 샘플
표 개체명 정의서 설문지 샘플
표 개체명 인식 모듈 구조도
표 테스트 데이터 설명
표 Regular Expression을 사용한 전처리 방법
표 Regular Expression을 이용하여 전처리된 예시
표 여 N-gram Policy에 의해 추출된 Feature
표 Performance comparison with different n-gram policies
표 연구 흐름도
표 연구 흐름도
표 MSI 고객의견 분류
표 웹 크롤러
표 품사정보 추출예제
표 부정 감정 어휘군 구축 프로세트
표 부정적 감정 씨앗단어 확장
표 SentiWordNet 예시(가정)
표 기술 통계
표 부정적 감정별 유무에 따른 영향력 분석
표 부정적 감정별 빈도에 따른 영향력 분석
표 부정적 감정별 강도에 따른 영향력 분석
표 부정적 감정 유무에 따른 영향력 분석
표 부정적 감정 빈도에 따른 영향력 분석
표 부정적 감정 강도에 따른 영향력 분석
표 결과 요약
표 Pingle-category와 Multi-category dataset 성능 비교
표 데이터 셋에 따른 분류 성능 비교
표 수집된 뉴스 데이터에 대한 기초 통계
표 성별/연령 별 인기 뉴스 개수
표 개인 관심사 추출 모듈
표 인구통계집단 별 관심사 추출 모듈
표 Training Set 학습 후, Validation Set에 대한 순위 별 평균 추천 성공 개수 평가
표 Training+Validation Set 학습 후, Test Data에 대한 순위 별 평균 추천 성공 개수 평가
표 인기 뉴스 추천(비교평가)에 대한 MAP 측정 결과
표 성향요인 측정문항 및 신뢰성
표 응답자 특성
표 기술통계량 및 상관관계
표 회귀분석 결과
표 회귀분석 결과
표 Hierarchical regression analysis
표 Regression analysis
표 Interpreting interaction effects
표 신규 감성단어의 사전 정보 추출 예시
표 유사도 상위 7개의 감성 단어 예시
표 감성 단어 지수 예측 모듈 구조도
표 기존 감성 단어에 대한 감성 지수 추정치 예시
표 감성 극성 강도 자동 추정 방법의 구조도
표 ‘속상하다’의 유의어 및 뜻풀이에서 매칭된 기존 감성 단어 추출 예시
표 추정 대상 단어와 그 단어의 유의어에서 매칭된 감성 단어와의 동시출현빈도 리스트
표 추정 대상 단어와 그 단어의 뜻풀이에서 매칭된 감성 단어와의 동시출현빈도 리스트
표 추정 대상 단어 ‘울적하다’의 감성 극성 강도 추정 예시
표 a의 변화에 따른 성능 평가 결과
표 a의 변화에 따른 성능 평가 결과
표 정서원형모형(Russell & Barrett, 1999)
표 감성 어휘 클러스터링을 통한 텍스트 감성 분석 예
표 쾌-불쾌 수치 및 활성화 수치 누적을 통한 텍스트 감성 분석 예
표 SNS 유형 분류 시스템 구조도
표 SNS 유형 분류 정확도
표 정서원형모형(Russell & Barrett, 1999)
표 Sentiment graph for the topic “earthquake” in the fourth quarter in 2004. (stacked chart)
표 co-creation 강화 시스템 연구 흐름도
표 Co-Creation Idea Ontology(CCIO)
표 RDF 포맷 변환 예
표 아이디어 내비게이션 서비스
표 시맨틱 정보 검색 서비스 및 결과
표 아이디어 추천 서비스
표 아이디어 클러스터링 서비스
표 예측모델 구축 프로세스
표 학습 알고리즘 별 Hit Ratio
표 학습 알고리즘별 Precision과 Recall
표 실험 데이터 수집 환경
표 제안 방법의 단계 별 적용에 따른 상관성(R) 향상 정도 (10-fold Cross Validation)
표 제안 방법의 단계 별 적용에 따른 결정계수(R2) 향상 정도 (전체 데이터 셋 이용)
표 프로파일/개인 성향 예측 모델들의 상관 계수 비교 결과
표 시간대 별 페이스북 앱 사용자 수
표 요일 별 페이스북 앱 사용자 수
표 친구 관계 및 경로 분석을 통하여 상향식으로 추출한 신규 가설
표 성향요인 측정문항 및 신뢰성
표 응답자 특성
표 기술통계량 및 상관관계
표 피드(feed) 수에 대한 회귀분석 결과
표 친구 수에 대한 회귀분석 결과
표 상태 업데이트 수에 대한 회귀분석 결과
표 사진 업데이트 수에 대한 회귀분석 결과
표 피드 수에 대한 수정모형 회귀분석 결과
표 기술통계량 및 상관관계
표 회귀분석 결과
표 회귀분석 결과
표 제품유형별 팬페이지 가입 수 회귀분석 결과(페이스북 제공 카테고리)
표 제품유형별 팬페이지 가입 수 회귀분석 결과(소셜베이커스 카테고리)
표 Hierarchical regression analysis
표 Regression analysis
표 Interpreting interaction effects
표 이형태 후보 자동 추출 모듈 구조도
표 전처리기 구조도
표 복합명사 출현빈도 예시 (명사:대통령)
표 명사-서술어 동시출현빈도
표 단어-서술어 매핑 모듈 구조도
표 명사-서술어 PMI 결과
표 명사-결합단어 PMI 결과
표 이형태 자동 추출 모듈 구조도
표 연관 단어 유사도 결과 예시1
표 연관 단어 유사도 결과 예시2
표 유사도 기반 이형태 자동 군집 최종 결과
표 영화 Box-office 예측 기술 구조도
표 영화 Box-office 예측 모듈
표 데이터 파티션 여부의 차이
표 기존연구와 본 연구의 파티션 방법 대비
표 SentiWordNet 기반 감성사전 예시
표 감성분석 결과 예시
표 데이터 구성 및 용도
표 시스템 구조도
표 분류와 회귀분석과 결합한 예측 흐름
표 영화 간 영향 정도 예측 방법
표 실험 데이터 구성
표 영화 데이터 예시
표 development set에서 파티션 개수 N에 따른 성능평가 결과
표 Training set를 통한 훈련된 세 가지의 모델
표 기존연구와의 비교평가 결과
표 영화 간 경쟁분석 이용한 특징 예시
표 경쟁관계 분석 전후의 성능 비교
표 아이디어 개념도
표 연구 흐름도
표 온톨로지 기반의 아이디어 관리 시스템
표 개방형혁신의 도전과 대응방안 요약
표 제품유형별 VOC 분석 기술 개발 시스템 구조도
표 실용재와 쾌락재의 정의와 예시
표 단어의 실용/쾌락 지수 예
표 Open Innovation을 위한 소비자 행동 이론 기반 데이터마이닝 융합기술
표 Google Flu Trends 예측 결과와 정부 공식 발표 데이터 간 일치 정도
표 사회문제에 관한 이벤트 추출 및 예측 기술 예상 개념도
표 소셜 빅데이터 분석을 통한 VOC 마이닝 기술 개발
표 기술 이전 절차 요약
표 Personality Prediction Based on Twitter Stream (Competition)
표 myPersonality Project
표 관련 워크숍 (WCPR 2013)
표 시계열 감성 분석 사례 [그림 86] We Feel Fine 감성 검색 Interface
표 We Feel Fine 감성 검색 Interface

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Open Innovation을 위한 소비자 행동 이론 기반 데이터마이닝 융합 기술 개발
Developing a Data Mining Convergence Technology based on Consumer Behavior Theory for Open Innovation 원문보기