복잡계 과학의 발달에 따라 많은 사회 네트워크들이 분석되어 지고 있다. 우리는 사회 네트워크의 하나로 한국영화 100선을 중심으로 한국 영화배우 네트워크를 구축하고 분석하였다. 현재까지 연결선수, 중간성(betweenness), 결집계수 등 링크수를 중심으로 네트워크의 구조를 분석하는 방향으로 진행되어지고 있다. 하지만 이제는 네트워크의 구조적 분석에서 멈추는 것이 아니라, 나아가 k-core 분석법 등을 이용하여 복잡한 네트워크 속에서 핵심 되는 중심 모듈을 찾아 분석하는 정보 분석 방향으로 진행되어야 할 것이다. 본 논문은 한국 영화 데이터베이스에서 제공하는 한국영화 100선에 출연하는 영화배우 네트워크를 만들어 가중치 유무에 따른 핵심 모듈 분석과 네트워크가 시기별로 확장되어 가는 양상을 분석하였다. 이는 네트워크의 확장 또는 진화를 이해하는 모델을 위한 기초 자료로 활용될 것으로 기대한다.
복잡계 과학의 발달에 따라 많은 사회 네트워크들이 분석되어 지고 있다. 우리는 사회 네트워크의 하나로 한국영화 100선을 중심으로 한국 영화배우 네트워크를 구축하고 분석하였다. 현재까지 연결선수, 중간성(betweenness), 결집계수 등 링크수를 중심으로 네트워크의 구조를 분석하는 방향으로 진행되어지고 있다. 하지만 이제는 네트워크의 구조적 분석에서 멈추는 것이 아니라, 나아가 k-core 분석법 등을 이용하여 복잡한 네트워크 속에서 핵심 되는 중심 모듈을 찾아 분석하는 정보 분석 방향으로 진행되어야 할 것이다. 본 논문은 한국 영화 데이터베이스에서 제공하는 한국영화 100선에 출연하는 영화배우 네트워크를 만들어 가중치 유무에 따른 핵심 모듈 분석과 네트워크가 시기별로 확장되어 가는 양상을 분석하였다. 이는 네트워크의 확장 또는 진화를 이해하는 모델을 위한 기초 자료로 활용될 것으로 기대한다.
The advancement of the Science for complex systems enables the analysis of many social networks. We constructed and analyzed a Korean movie star network as one of social networks, based on the 100 Korean movie selection for a main data source. Until now, the research trend has been the structural an...
The advancement of the Science for complex systems enables the analysis of many social networks. We constructed and analyzed a Korean movie star network as one of social networks, based on the 100 Korean movie selection for a main data source. Until now, the research trend has been the structural analysis of network, focused on link numbers, such as degree, betweenness and clustering coefficient. But it is time that the research is not limited by the structural analysis of networks only. Rather, the research goal should be aimed to an information analysis, performed by identifying and analyzing central modules that are regarded as the core of complex networks, using k-core analysis method. In this research, we constructed a network of movie stars who have appeared in 100 Korean movie selection, provided by Korean movie database, also we analyzed its core modules with and without weights, and the trend of seasonal expansion of the network. We expect our findings can be used as the basic data applicable to a model for understanding of the expansion and evolution of networks.
The advancement of the Science for complex systems enables the analysis of many social networks. We constructed and analyzed a Korean movie star network as one of social networks, based on the 100 Korean movie selection for a main data source. Until now, the research trend has been the structural analysis of network, focused on link numbers, such as degree, betweenness and clustering coefficient. But it is time that the research is not limited by the structural analysis of networks only. Rather, the research goal should be aimed to an information analysis, performed by identifying and analyzing central modules that are regarded as the core of complex networks, using k-core analysis method. In this research, we constructed a network of movie stars who have appeared in 100 Korean movie selection, provided by Korean movie database, also we analyzed its core modules with and without weights, and the trend of seasonal expansion of the network. We expect our findings can be used as the basic data applicable to a model for understanding of the expansion and evolution of networks.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 한국 영화 데이터베이스에서 제공하는 한국영화 100선을 통해 같은 영화에 출현한 배우들은 서로 연결되어 있다는 관계를 바탕으로 구축한 네트워크의 구조와 정보적 분석 나아가서 확장 패턴을 분석함으로써 네트워크의 발생 및 성장에 대한 과정을 이해하는데 실마리를 제공하고자 하였다.
이제 구조적 특성을 바탕으로 네트워크에서 어떤 정보를 도출할 것인가에 대한 연구가 진행되어야 하는데, 구조적 분석에 사용된 알고리즘이나 방법론 등이 현 시점에서는 충분히 개발되어 있지 않아 어려움이 있는 것도 사실이다. 본 연구에서는 앞으로 네트워크의 진화에 대한 이해를 위한 접근 방법과 구조 네트워크에서 새로운 정보나 숨겨진 정보를 얻을 수 있는 가능성을 제시하고자 한다.
제안 방법
이러한 연구의 일환으로 본 연구에서 k-core 알고리즘을 도입하였는데, 이 방법은 가중치가 낮은 링크와 노드를 점진적으로 제거하여 복잡한 네트워크를 단순 또는 핵심 네트워크로 전환시키는 유용한 도구가 된다[14]. K-core 알고리즘을 사용하여 복잡한 네트워크를 단순화 또는 핵심화 시킬 수 있는 파이엑 프로그램을 사용하고 싸이토스케이프 프로그램으로 시각화 하였다[그림 3].
한국영화 100선은 1936년 양주남 감독이 제작한 ‘미몽’에서부터 1996년 임권택 감독이 제작한 ‘축제’까지 사료적 가치가 높고 국내외 활용에 대한 수요가 많은 작품으로 한국영상자료원에서 선정한 100편이다. 각 선정 작품에서 제작일, 출연 배우 목록을 수작업으로 추출하여 네트워크를 구축하는 자료로 활용하였다. 비록 한 영화에 많은 배우들이 출연했지만 한국 영화 데이터베이스에서 제공하는 영화배우 정보만을 사용하였다.
네트워크는 영화에 출연한 영화배우를 노드로 하고 같은 영화에 출현하면 각 배우를 연결(링크)하여 구축하였다. 이때 배우들 사이의 연결은 두 가지 방법을 적용하여 네트워크를 구축하였다.
동일한 가중치를 준 네트워크는 각각 20, 50, 100개의 작품으로 구성된 네트워크 구조를 구축하여 비교하고 성장 과정을 분석하였다[그림 5]. 연결수 누적 분포함수를 측정하였을 때 정규분포를 나타냈으며 노드수의 증가에 따라 선형회귀곡선의 R2 값이 0.
따라서 복잡한 영화배우 네트워크에 파이엑 프로그램을 사용하여 k-core 값을 증가시켜가면서 네트워크의 크기를 줄여나갔다. 복잡한 네트워크가 핵심 배우들만 남는 핵심 네트워크로 전환되는데, 시각화를 위해 싸이토스케이프(Cytoscape) 프로그램을 사용하였다.
한국영화 100선에 등장하는 영화배우는 총 420명이다. 영화배우를 노드로 하고 같은 영화에 출현하는 관계를 연결선(링크)으로 하여 네트워크를 구축하였다[그림 1, 2]. 동일한 가중치를 준 네트워크의 경우, 영화배우는 420명이며 연결선은 2,664개이다 [그림 1A].
그래프 이론에서 복잡한 그래프를 단순화 시키는 방법인 k-core 알고리즘[14]을 제공하는 파이엑(Pajek)프로그램을 사용하여 복잡한 네트워크를 분석하였다. 이 알고리즘은 복잡한 네트워크를 가중치가 낮은 것부터 제거하여 핵심 네트워크를 분석한다. 따라서 복잡한 영화배우 네트워크에 파이엑 프로그램을 사용하여 k-core 값을 증가시켜가면서 네트워크의 크기를 줄여나갔다.
제작 연도를 바탕으로 영화배우 네트워크의 확산 패턴을 알아보았다([그림 5][그림 6]). 동일한 가중치를 준 경우에는 연결수에 따른 누적분포가 미완성의 정규 분포에서 점진적으로 완성되어 가는 과정을 보여주었는데 반해, 상이한 가중치를 준 경우에는 이미 초기 영화 20편부터 멱함수를 완성한 상태로 팽창하는 패턴을 보여주었다.
이와 같이 영화배우 네트워크를 제작된 영화의 제작연도에 따라 지속적으로 연결시킴으로서 전체 네트워크로 확장하였다. 확장 패튼을 분석하기 위해서 단계별로 네트워크 구조 및 연결수에 따른 영화배우 누적 분포를 바탕으로 네트워크를 구성하고 있는 구조 인자들을 측정하였다.
대상 데이터
각 선정 작품에서 제작일, 출연 배우 목록을 수작업으로 추출하여 네트워크를 구축하는 자료로 활용하였다. 비록 한 영화에 많은 배우들이 출연했지만 한국 영화 데이터베이스에서 제공하는 영화배우 정보만을 사용하였다.
따라서 핵심 네트워크는 54명의 배우를 노드로 하고 497번의 공연관계를 링크로 구성된 네트워크를 형성하고 있다([그림 3A]).상이한 가중치를 부여한 네트워크([그림 1B])에 k-core 값에 5를 적용하여 연결선과 노드를 제거하였을 때, 노드가 26명의 배우와 링크가 120로 구성된 핵심 네트워크를 확보하였다([그림 3B]). 이들 26명의 배우는 그림 3A에서 확보한 노드 54명중에서 24명은 포함되었으며, 추가적으로 윤정희와 장동휘가 포함되었다.
예를 들어, 1961년 1월 28일 신상옥 감독이 제작한 영화 ‘성춘향’에 있는 출연 배우 목록에는 최은희, 김진규, 도금봉, 허장강, 이예춘, 한은진 등 6명이 나열되어 있는데, 단순히 순서에 따라 2명씩 3단계로 분류하여 가중치를 부여하였다. 영화배우 네트워크의 시각화는 싸이토스케이프(cytoscape) 프로그램 (http://www.cytoscape.org/)을 사용하였다.
상이한 가중치를 부여한 네트워크([그림 1B])에 k-core 값에 5를 적용하여 연결선과 노드를 제거하였을 때, 노드가 26명의 배우와 링크가 120로 구성된 핵심 네트워크를 확보하였다([그림 3B]). 이들 26명의 배우는 그림 3A에서 확보한 노드 54명중에서 24명은 포함되었으며, 추가적으로 윤정희와 장동휘가 포함되었다. 윤정희는 영화 100선 중에서 3편을 출연하였고 장동휘는 2편을 출연하였는데, 이들은 모든 영화에서 주연으로 활약하였기 때문에 상이한 가중치를 준 네트워크에서는 포함된 것이다.
만약 k-core 값을 11로 줄이면, 9개 영화[자유만세(1946년 작), 피아골(1955년 작), 로맨스 빠빠(1960년 작), 박서방(1960년 작), 사랑방 손님과 어머니(1961년 작), 또순이(1963년 작), 고려장(1963년 작), 돌아오지 않는 해병(1963년 작), 귀로(1967년 작)]에 등장하는 인물들이 상호 연결되는 핵심 네트워크를 보여주고 있다([그림 3A]). 이들 9개 영화에 출연한 배우들은 총 53명이며 그 중 핵심 네트워크에서 빠진 인물은 구봉서와 장동휘이다. 이들은 9개 영화중에서 단 1편(돌아오지 않는 해병)에 출연하였기 때문에 제외된 것으로 추정된다.
한국영화 100선에 등장하는 영화배우는 총 420명이다. 영화배우를 노드로 하고 같은 영화에 출현하는 관계를 연결선(링크)으로 하여 네트워크를 구축하였다[그림 1, 2].
한국영화 및 영화배우에 관한 정보는 한국영화데이터베이스[17]의 한국영화 100선에서 추출하였다. 한국영화 100선은 1936년 양주남 감독이 제작한 ‘미몽’에서부터 1996년 임권택 감독이 제작한 ‘축제’까지 사료적 가치가 높고 국내외 활용에 대한 수요가 많은 작품으로 한국영상자료원에서 선정한 100편이다.
데이터처리
그래프 이론에서 복잡한 그래프를 단순화 시키는 방법인 k-core 알고리즘[14]을 제공하는 파이엑(Pajek)프로그램을 사용하여 복잡한 네트워크를 분석하였다. 이 알고리즘은 복잡한 네트워크를 가중치가 낮은 것부터 제거하여 핵심 네트워크를 분석한다.
이론/모형
복잡한 네트워크에서 가중치가 낮은 링크와 노드를 단계적으로 제거하여 중요한 핵심 네트워크를 만들어 복잡한 네트워크에서는 발견되지 않는 유용한 정보를 얻을 수 있다. 우리는 이를 위해 본 연구에서 k-core 알고리즘을 도입하였다[14]. 전체 네트워크에서는 [표 1]에서 제시한 영화배우들이 연결선수나 배우와 배우를 이어주는 중심성에서 상위권을 형성하는데 반해, 핵심네트워크에서는 일부 배우들이 중첩이 되지만 1960년대에 활약한 몇몇 배우가 그 자리를 대신하고 있다([표 2]).
영화 100선에서 핵심적인 역할을 하는 영화배우 혹은 그룹의 모듈을 찾기 위해서는 복잡한 네트워크 구조 자체를 분석하기 보다는 네트워크에서 가중치가 낮은 연결선이나 노드를 제거하면 핵심 노드나 모듈이 모습을 드러낼 가능성이 있다. 이러한 연구의 일환으로 본 연구에서 k-core 알고리즘을 도입하였는데, 이 방법은 가중치가 낮은 링크와 노드를 점진적으로 제거하여 복잡한 네트워크를 단순 또는 핵심 네트워크로 전환시키는 유용한 도구가 된다[14]. K-core 알고리즘을 사용하여 복잡한 네트워크를 단순화 또는 핵심화 시킬 수 있는 파이엑 프로그램을 사용하고 싸이토스케이프 프로그램으로 시각화 하였다[그림 3].
성능/효과
제작 연도를 바탕으로 영화배우 네트워크의 확산 패턴을 알아보았다([그림 5][그림 6]). 동일한 가중치를 준 경우에는 연결수에 따른 누적분포가 미완성의 정규 분포에서 점진적으로 완성되어 가는 과정을 보여주었는데 반해, 상이한 가중치를 준 경우에는 이미 초기 영화 20편부터 멱함수를 완성한 상태로 팽창하는 패턴을 보여주었다. 현재, 100편의 영화에 출연한 배우를 중심으로 확장 패턴을 조사한 것이기 때문에 네트워크의 확장과정을 충분히 이해하기는 어려움이 있다.
58로 점진적으로 커지는 것으로 보아 정규분포가 완성되어가고 있음을 보여주고 있다. 따라서 동일한 가중치를 준 영화배우 네트워크는 무작위 네트워크의 특성을 보여주고 있는 것으로 확인되었다.
이 알고리즘은 복잡한 네트워크를 가중치가 낮은 것부터 제거하여 핵심 네트워크를 분석한다. 따라서 복잡한 영화배우 네트워크에 파이엑 프로그램을 사용하여 k-core 값을 증가시켜가면서 네트워크의 크기를 줄여나갔다. 복잡한 네트워크가 핵심 배우들만 남는 핵심 네트워크로 전환되는데, 시각화를 위해 싸이토스케이프(Cytoscape) 프로그램을 사용하였다.
영화계는 새로운 인물이 등장하고 새로운 영화가 지속적으로 만들어지기 때문에 끊임없이 팽창하는 네트워크를 가질 수 있는 측면에서 척도 없는 네트워크의 속성을 가지고 있다[22]. 본 연구에서는 영화배우 네트워크를 어떻게 구성하느냐에 따라 다른 네트워크 특성을 보여주고 있음을 제시하였는데, 한 영화에 출연하는 등장인물을 동일한 가중치를 주었을 때는 무작위 네트워크의 특성을([그림 1]), 상이한 가중치를 주었을 때는 척도 없는 네트워크의 특성을 보여주고 있음을 발견하였다([그림 2]).
상이한 가중치를 준 네트워크에서도 동일하게 20, 50, 100개의 작품 연결수 누적 분포함수가 멱함수 분포 보여주었고 척도 없는 네트워크의 성질을 가지고 있음을 보여주었다. 선형회귀직선의 R2 값이 0.
동일한 가중치를 준 네트워크는 각각 20, 50, 100개의 작품으로 구성된 네트워크 구조를 구축하여 비교하고 성장 과정을 분석하였다[그림 5]. 연결수 누적 분포함수를 측정하였을 때 정규분포를 나타냈으며 노드수의 증가에 따라 선형회귀곡선의 R2 값이 0.3, 0.39, 0.58로 점진적으로 커지는 것으로 보아 정규분포가 완성되어가고 있음을 보여주고 있다. 따라서 동일한 가중치를 준 영화배우 네트워크는 무작위 네트워크의 특성을 보여주고 있는 것으로 확인되었다.
[표 3]에 이들 네트워크의 구조를 보여주는 주요인자들을 제시하였다. 예상한바와 같이 네트워크의 크기를 보여주는 지름은 상이한 가중치 네트워크가 크지만 그 외 연결선수, 결집계수, 및 각 노드 당 평균 연결선수는 동일한 가중치를 준 네트워크가 더 높았다. 특히, 결집계수는 두 네트워크 모두 크기가 작은 20개 영화로 구성되었을 때 가장 큰 값을 가지는데, 이는 앞에서 언급한 바와 같이 1960 연대에 비교적 소수의 배우가 많은 영화에 출연하여 결집력이 높아진 결과로 보여 진다.
예상한바와 같이 네트워크의 크기를 보여주는 지름은 상이한 가중치 네트워크가 크지만 그 외 연결선수, 결집계수, 및 각 노드 당 평균 연결선수는 동일한 가중치를 준 네트워크가 더 높았다. 특히, 결집계수는 두 네트워크 모두 크기가 작은 20개 영화로 구성되었을 때 가장 큰 값을 가지는데, 이는 앞에서 언급한 바와 같이 1960 연대에 비교적 소수의 배우가 많은 영화에 출연하여 결집력이 높아진 결과로 보여 진다.
후속연구
이러한 네트워크의 구성 인자들의 분석은 구조적 특성만을 도출할 수 있기 때문에 네트워크의 확장 또는 진화 과정에 대한 연구나 복잡한 네트워크로부터 얻을 수 있는 네트워크 자체가 가지는 숨겨진 유용한 정보를 얻기 위한 다양한 시도가 이루어지고 있다[13]. 그 연구의 일환으로 복잡한 네트워크에서 가중치가 낮은 노드나 링크를 제거하는 방법인 k-core 알고리즘을 이용하여 복잡한 네트워크에 숨겨져 있는 핵심 모듈을 찾아내어 분석함으로써, 구조적 분석방법으로는 알 수 없는 해당 네트워크를 이해하는데 큰 도움이 될 것이다[14-16].
현재, 100편의 영화에 출연한 배우를 중심으로 확장 패턴을 조사한 것이기 때문에 네트워크의 확장과정을 충분히 이해하기는 어려움이 있다. 하지만 좀 더 많은 데이터를 바탕으로 본 연구에서 제시한 방법을 사용한다면 확장 패턴을 분석할 수 있는 모델을 제시할 수 있을 것으로 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
중심성 분석이란?
네트워크의 연결선수(degree) 분석은 한 노드가 직접적으로 연결된 다른 노드들과의 연결 정도를 측정하여 각각의 노드들이 네트워크에서 얼마나 중심에 위치하는지를 알아보는 기법이다. 중심성(betweenness) 분석은 한 노드의 연결선의 정도를 측정하는 연결선수와 달리 네트워크를 구성하는 한 노드와 다른 노드를 연결시키는 특정 노드의 매개 정도를 측정하는 기법으로 상위 5위까지의 영화배우를 살펴보았다[표 1]. 영화 100편중에서 실제 가장 많은 영화 편수에 참여한 배우는 김진규(15), 안성기(14), 신성일(13), 황정순(13), 김승호(12) 순이지만, 안성기와 신성일이 두 네트워크에서 연결선 수 및 중심성에서 1위, 2위를 차지하는 배우로 분석되었다.
일반적으로 네트워크는 어떻게 분류할 수 있는가?
일반적으로 네트워크는 무작위 네트워크(random network), 척도 없는 네트워크(scale-free network), 계층적 네트워크(hierarchical network)로 분류할 수 있으며, 각 네트워크의 특징을 나타내는 인자인 연결선수(degree), 중심성(betweenness), 결집계수(clustering coefficient) 와 같은 링크 수 중심의 분석은 네트워크를구조적으로 분석할 수 있다[12]. 이러한 네트워크의 구성 인자들의 분석은 구조적 특성만을 도출할 수 있기 때문에 네트워크의 확장 또는 진화 과정에 대한 연구나 복잡한 네트워크로부터 얻을 수 있는 네트워크 자체가 가지는 숨겨진 유용한 정보를 얻기 위한 다양한 시도가 이루어지고 있다[13].
k-core 알고리즘을 사용하여 복잡한 네트워크 분석을 한 이유는?
그래프 이론에서 복잡한 그래프를 단순화 시키는 방법인 k-core 알고리즘[14]을 제공하는 파이엑(Pajek)프로그램을 사용하여 복잡한 네트워크를 분석하였다. 이 알고리즘은 복잡한 네트워크를 가중치가 낮은 것부터 제거하여 핵심 네트워크를 분석한다. 따라서 복잡한 영화배우 네트워크에 파이엑 프로그램을 사용하여 k-core 값을 증가시켜가면서 네트워크의 크기를 줄여나갔다.
참고문헌 (22)
S. Milgram, "The small world problem," Psychology Today, Vol.1, No.1, pp.60-67, 1967.
R. Solomonoff and A. Rapoport, "Connectivity of random nets," Bull. Math. Biophys., Vol.13, No.1 pp.107-117, 1951.
H. Jeong, B. Tombor, R. Albert, Z. N. Oltvai, and A.-L. Barabasi, "The large-scale organization of metabolic networks," Nature, Vol.407, No.6804, pp.651-654, 2000.
S. Kim, "Complex network analysis in literature: Togi,“ Sae Mulli, Vol.50, No.4,
Y. K. Lee, H. I. Shin, J. E. Ku, and H. Y. Kim, "Analysis of network dynamics from the Romance of the three kingdoms," J. Kor. Conten. Assoc., Vol.9, No.4, pp.364-371, 2009.
B. Kang, K.-I. Goh, D.-S. Lee, and D. Kim, "Complex networks: structure and dynamics," Sae Mulli, Vol.48, No.2, pp.115-141, 2004.
A. Clauset, C. Moore, and M. Newman, "Hierarchical structure and the prediction of missing links in networks," Nature, Vol.453, No.7191, pp.98-191, 2008.
J. Ignacio, A. Hamelin, L. Dall'Asta, A. Barrat, and A. Vespignani, "K-core decomposition of internet graphs: Hierarchies, self-similarity and measurement biases," Networks Hetero. Media, Vol.3, No.2, pp.371-393, 2008.
S. Srivastava and R. K. Ghosh, "Distributed algorithms for finding and maintaining a k-tree core in a dynamic network," Information processing Letters, Vol.88, No.4, pp.187-194, 2003.
J. P. Onnela, J. Saramaki, J. Hyvonen, G. Szabo, M. A. de. Menezes, K. Kaski, A.-L. Barabasi, and J. Kertesz, “Analysis of a large-scale weighted network of one-to-one human communication,” New J. Phys., Vol.9 No.6, p.179, 2007.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.