본 논문에서는 그래디언트 부스팅 모형을 활용하여 정부의 중소기업 연구개발 지원 결정에 영향을 미치는 요인들을 파악하였다. 기존 연구가 사후적으로 정부의 연구개발 지원이 수혜 기업에 미친 영향을 분석하는 것에 중점을 두었다면, 본 논문은 정부의 연구개발 지원 결정 방식을 파악하고, 그 방식이 기업에게 제공하는 유인을 분석하고자 하였다. 이를 위하여 본 논문은 지원금 결정에 영향을 미치는 다양한 잠재적 요인들을 선택하고, 기계학습 접근법을 활용하여 추정오차 축소효과가 큰 요인들을 선별하였다. 구체적으로 본 논문은 한국과학기술평가원이 구축한 국가연구개발조사분석 자료와 한국신용평가자료를 연결한 자료에 그래디언트 부스팅(Gradient Boosting) 모형을 적용하여 지원금 추정모형을 구축하였다. 본 논문에서 구축한 그래디언트 부스팅 모형은 선형회귀분석 응용모형에 비해 평균제곱근오차를 7.20% 축소할 수 있었다. 각 변수의 순열 중요도(permutation importance)를 분석한 결과 연구성과지표 및 연구개발비가 추정오차 축소에 기여가 큰 것으로 파악되었다. 그리고 각 변수의 부분의존도(Partial Dependence Plot: PDP) 및 SHAP 값(SHAP value: SHapley Additive exPlanation value)을 분석한 결과 연구성과지표가 좋고 연구개발비 지출이 큰 기업이 많은 연구개발 지원금을 받는 반면, 영업이익이 크고 자기자본회전율이 높은 기업은 적은 지원금을 받는 경향이 발견되었다. 본 연구의 결과는 현재 중소기업 연구개발 지원금 배분 방식이 연구성과지표 제고 및 연구개발투자 증가 유인은 제공하나, 기업 경영성과 제고 유인은 취약함을 시사한다.
본 논문에서는 그래디언트 부스팅 모형을 활용하여 정부의 중소기업 연구개발 지원 결정에 영향을 미치는 요인들을 파악하였다. 기존 연구가 사후적으로 정부의 연구개발 지원이 수혜 기업에 미친 영향을 분석하는 것에 중점을 두었다면, 본 논문은 정부의 연구개발 지원 결정 방식을 파악하고, 그 방식이 기업에게 제공하는 유인을 분석하고자 하였다. 이를 위하여 본 논문은 지원금 결정에 영향을 미치는 다양한 잠재적 요인들을 선택하고, 기계학습 접근법을 활용하여 추정오차 축소효과가 큰 요인들을 선별하였다. 구체적으로 본 논문은 한국과학기술평가원이 구축한 국가연구개발조사분석 자료와 한국신용평가자료를 연결한 자료에 그래디언트 부스팅(Gradient Boosting) 모형을 적용하여 지원금 추정모형을 구축하였다. 본 논문에서 구축한 그래디언트 부스팅 모형은 선형회귀분석 응용모형에 비해 평균제곱근오차를 7.20% 축소할 수 있었다. 각 변수의 순열 중요도(permutation importance)를 분석한 결과 연구성과지표 및 연구개발비가 추정오차 축소에 기여가 큰 것으로 파악되었다. 그리고 각 변수의 부분의존도(Partial Dependence Plot: PDP) 및 SHAP 값(SHAP value: SHapley Additive exPlanation value)을 분석한 결과 연구성과지표가 좋고 연구개발비 지출이 큰 기업이 많은 연구개발 지원금을 받는 반면, 영업이익이 크고 자기자본회전율이 높은 기업은 적은 지원금을 받는 경향이 발견되었다. 본 연구의 결과는 현재 중소기업 연구개발 지원금 배분 방식이 연구성과지표 제고 및 연구개발투자 증가 유인은 제공하나, 기업 경영성과 제고 유인은 취약함을 시사한다.
In this paper, we build a gradient Boosting model to predict government SME R&D subsidy, select features of high importance, and measure the impact of each features to the predicted subsidy using PDP and SHAP value. Unlike previous empirical researches, we focus on the effect of the R&D subsidy dist...
In this paper, we build a gradient Boosting model to predict government SME R&D subsidy, select features of high importance, and measure the impact of each features to the predicted subsidy using PDP and SHAP value. Unlike previous empirical researches, we focus on the effect of the R&D subsidy distribution pattern to the incentive of the firms participating subsidy competition. We used the firm data constructed by KISTEP linking government R&D subsidy record with financial statements provided by NICE, and applied a Gradient Boosting model to predict R&D subsidy. We found that firms with higher R&D performance and larger R&D investment tend to have higher R&D subsidies, but firms with higher operation profit or total asset turnover rate tend to have lower R&D subsidies. Our results suggest that current government R&D subsidy distribution pattern provides incentive to improve R&D project performance, but not business performance.
In this paper, we build a gradient Boosting model to predict government SME R&D subsidy, select features of high importance, and measure the impact of each features to the predicted subsidy using PDP and SHAP value. Unlike previous empirical researches, we focus on the effect of the R&D subsidy distribution pattern to the incentive of the firms participating subsidy competition. We used the firm data constructed by KISTEP linking government R&D subsidy record with financial statements provided by NICE, and applied a Gradient Boosting model to predict R&D subsidy. We found that firms with higher R&D performance and larger R&D investment tend to have higher R&D subsidies, but firms with higher operation profit or total asset turnover rate tend to have lower R&D subsidies. Our results suggest that current government R&D subsidy distribution pattern provides incentive to improve R&D project performance, but not business performance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 기계학습 방법론인 그래디언트 부스팅(Gradient Boosting) 모형을 이용하여 어떤 요인이 정부의 중소기업 연구개발 지원 배분에 영향을 미치는지 파악하는 논문이다. 기존 관련 연구들을 보면 대부분 정부가 지원한 재원이 어떤 성과를 유발했는지, 즉 성과 중심으로 분석하고 있다.
기존 관련 연구들을 보면 대부분 정부가 지원한 재원이 어떤 성과를 유발했는지, 즉 성과 중심으로 분석하고 있다. 그러나 본 논문에서는 정부의 연구개발 지원이 근본적으로 어떤 요인들에 의해 결정되는지를 파악하고자 한다. 기업들은 정부의 연구개발 지원을 더 효과적으로 받고자 적합한 자격요건을 갖추는 데 노력한다.
최근 대두되고 있는 기계학습(Machine Learning) 방법론은 사전적으로 포괄적 요인을 분석에 포함할 수 있어서, 기존 실증분석 방식의 약점을 극복할 수 있다. 본 논문은 이러한 기계학습의 장점을 이용하여, 중소기업 연구개발 지원금 배분 요인을 파악하고자 한다.
본 논문은 이러한 문제를 기계학습(MachineLearning) 방법론 중 지도학습(supervised learning)을 사용하여 해소할 수 있음에 주목한다. 지도학습에서는 추정함수를 선험적으로 설계하지 않고, 주어진 자료를 이용하여 학습하는 방식을 채택할 수 있다.
그러나 최근 개별 변수가 종속변수에 미치는 영향을 평가하는 도구를 개발하여 기계학습 모형의 설명 가능성을 제고하려는 연구가 활발하게 진행되고 있다[23, 24]. 본 논문은 이러한 도구 중 개별 변수의 독립적인 영향을 평가하는 부분의존도와 여타 변수와의 상호작용을 통해서 미치는 영향을 포괄하여 개별 변수의 영향을 평가하는 SHAP 값을 사용하여 변수의 영향을 평가하고, 그 결과로부터 정책적 시사점을 도출하고자 한다.
요약하자면, 본 논문은 다양한 요인을 포괄할 수 있는 기계학습의 장점을 이용하여 정부의 중소기업 연구개발 지원금 규모를 결정하는 요인을 실증적으로 파악하고자 한다. 구체적으로 본 논문은 다양한 지도학습 방법론을 적용하여 정부의 중소기업 연구개발 지원금을 추정하는 추정모형을 구축하고, 그 중 평균제곱근오차 (RMSE)로 평가한 추정오차를 가장 축소할 수 있는 모형을 선정하여 정부의 연구개발 지원금을 추정한다.
마지막으로 이렇게 선정한 중요 변수들이 지원금의 증감에 미친 영향의 크기와 방향성을 부분의존도 및 SHAP 값을 이용하여 분석한다. 특히 독립변수에 포함된 기업경영 성과 지표가 지원금 증감에 미친 영향을 파악하여, 정부 중소기업 연구개발 지원금 지원 방식이 기업 경영성과 제고 유인을 제공하고 있는지 여부를 진단한다.
이는 기업의 성과가 좋은 소수의 기업과 성과가 좋지 않은 다수의 기업이 공존하는 중소기업의 현황을 반영하는 현상으로 간주하였고, 따라서 왜도의 완화는 시도하지 않았다. 또한 본 논문에서는 주성분을 선험적으로 추출하지 않고, 모형 선택 과정에 주성분 추출을 포괄하는 모형을 포함하여 추정 오차 축소에 도움이 되는 경우에 주성분 분석을 사용하고자 하였다. 마지막으로, 본 논문에서는 선형 종속인 독립변수는 선험적으로 추출하지 않고 릿지 회귀분석 및 라소 회귀분석을 이용하여 예측오차를 최소화하는 독립변수를 선택하게 하였다.
결측치 보간(imputation)은 결측치가 발생한 기업 표본의 연간 추세를 우선 반영하고자 하였고, 기업 표본에서 연간 추세를 사용할 수 없는 경우에는 해당 변수의 연간 표본 중위값의 연간 추세를 반영하고자 하였다. 구체적으로 결측치가 있는 변수의 기업별 표본이 2개 이상의 관측치가 있는 경우에는 각 기업 표본의 가용한 관측 치를 종속변수로 하고 상수와 연도변수를 독립 변수로 하는 선형회귀분석을 수행하고, 그 회귀 분석의 예측치로 결측치를 보간하였다.
[Table 4] 및 [Table 5]의 순열 중요도 분석결과는 개별 변수가 연구개발 지원금 추정의 정확도에 미치는 영향의 크기에 대한 정보는 제공하지만, 개별 변수가 지원금 규모의 증감에 주는 영향에 대한 정보는 제공하지 못한다. 이를 보완하기 위해서 본 논문에서는 개별 변수의 부분의존도와 SHAP 값을 분석하였다. 부분의존도는 여타 독립변수의 영향 이외에 개별 독립변수가 종속변수 추정치에 미치는 추가적인 영향(Marginal Effect)을 나타내는 지표이고, SHAP 값은 여타 독립변수와의 상호작용을 모두 고려하여 개별 독립변수가 종속변수의 추정치에 미치는 영향을 나타내는 지표이다.
본 논문은 정부 중소기업 연구개발 지원금 배분을 결정하는 요인을 기계학습을 적용하여 파악하고자 하였다. 이를 위하여 본 논문은 한국과학기술평가원에서 구축한 중소기업 연구 개발 지원금 자료에 그래디언트 부스팅 모형을 적용하여 중소기업 연구개발 지원금 추정모형을 개발하였고, 순열중요도 분석을 시행하여 추정오차 축소 효과가 큰 변수를 선정하였으며, 선정된 변수의 부분의존도 및 SHAP 값을 분석 하여 지원금 추정치를 증가시키는 독립변수를 파악하였다.
본 논문은 정책연구의 관점에서 방법론의 제약으로 연구가 상대적으로 부족하였던 중소기업 연구개발 지원금 배분 방식 연구에 기계학습 방법론을 적용하여 방법론의 제약을 완화하였다. 또한, 본 연구는 기계학습 연구의 관점에서도 최근의 연구성과인 부분의존도와 SHAP 값을 사용하여 기계학습 연구 결과의 정책적인 활용도를 제고하였다. 본 연구에서 개발한 중소기업 연구개발 지원금 추정모형은 중소 기업 지원을 담당하는 정책부서에서는 중소기업 지원금 배분 현황을 파악하는 도구로 활용할 수 있으며, 중소기업의 연구개발 지원금 지원 시에 지원금을 예측하고 연구개발 지원금 수령액수를 높이기 위해 필요한 요인을 파악하는 도구로 활용할 수 있을 것으로 기대한다.
가설 설정
이와 같이 다양한 조건부평균 함수로부터 적합한 모형을 추출한 이유는 종속변수와 독립 변수 간의 관계의 비선형성에 따라서 적합한 모형이 다르기 때문이다. 선형회귀분석 응용모형은 종속변수가 독립변수의 선형결합으로 근사될 수 있음을 가정한다. 주성분분석 응용모형에서는 독립변수를 조합하여 추출한 새로운 독립변수(주성분)의 선형결합을 사용하면 종속변수에 근사한 추정치를 도출할 수 있음을 가정한다.
선형회귀분석 응용모형은 종속변수가 독립변수의 선형결합으로 근사될 수 있음을 가정한다. 주성분분석 응용모형에서는 독립변수를 조합하여 추출한 새로운 독립변수(주성분)의 선형결합을 사용하면 종속변수에 근사한 추정치를 도출할 수 있음을 가정한다. 반면 의사결정나무 응용모형 및 신경망 모형은 독립변수와 종속변수간의 관계에 대한 선험적인 가정을 사용하지 않고, 비선형성이 존재할 경우에 이를 반영하여 종속변수를 추정할 수 있도록 복잡한 구조를 도입한다.
제안 방법
이러한 기계학습은 개별 변인의 영향 파악이 어려운 약점이 있어서 정책적 시사점이 필요한 실증분석에는 광범위하게 사용되지 않았지만, 최근 기계학습 모형에서의 변수 영향 분석 기법이 빠르게 발달 하면서 이를 해소할 수 있는 도구를 제공하고 있다. 본 연구에서는 부분의존도(PDP: Partial Dependence Plot)[7] 및 SHAP 값(SHAP value: SHapley Additive exPlanation value)[22, 25]을 이용하여 개별 변수 영향 분석이 어려웠던 기존 기계학습의 약점을 보완한다.
본 논문은 다양한 기계학습 방법론을 주어진 자료에 적용하여 지원금 규모를 추정하는 후보 모형군(群)을 선별하고, 이들 모형 중 추정오차가 가장 작은 추정모형을 선정한다. 그리고 선정된 모형에서 개별 변수의 추정오차 축소에 대한 공헌을 나타내는 순열중요도(permutation importance)[29]라는 기준으로 지원금 규모를 결정하는 중요 요인을 선정한다.
그리고 선정된 모형에서 개별 변수의 추정오차 축소에 대한 공헌을 나타내는 순열중요도(permutation importance)[29]라는 기준으로 지원금 규모를 결정하는 중요 요인을 선정한다. 마지막으로 부분의존도 및 SHAP 값을 이용하여 개별 변수의 지원금 규모에 대한 영향을 정량적으로 분석한다. 기업의 경영성과와 관계되는 지표가 연구개발 지원금 결정에 큰 영향을 미치고, 경영성과가 좋은 기업에게 우선적으로 재원이 배분 된다면 중소기업 연구개발 지원금 배분 방식은 기업경영 성과 제고 유인을 제공하고 있다고 할 수 있을 것이다.
요약하자면, 본 논문은 다양한 요인을 포괄할 수 있는 기계학습의 장점을 이용하여 정부의 중소기업 연구개발 지원금 규모를 결정하는 요인을 실증적으로 파악하고자 한다. 구체적으로 본 논문은 다양한 지도학습 방법론을 적용하여 정부의 중소기업 연구개발 지원금을 추정하는 추정모형을 구축하고, 그 중 평균제곱근오차 (RMSE)로 평가한 추정오차를 가장 축소할 수 있는 모형을 선정하여 정부의 연구개발 지원금을 추정한다. 이렇게 선정한 연구개발 지원금 추정모형에서 개별 독립변수의 연구개발 지원금 추정오차 축소 효과를 평가하여 추정 오차 축소 효과가 큰 중요 변수를 선정한다.
이렇게 선정한 연구개발 지원금 추정모형에서 개별 독립변수의 연구개발 지원금 추정오차 축소 효과를 평가하여 추정 오차 축소 효과가 큰 중요 변수를 선정한다. 마지막으로 이렇게 선정한 중요 변수들이 지원금의 증감에 미친 영향의 크기와 방향성을 부분의존도 및 SHAP 값을 이용하여 분석한다. 특히 독립변수에 포함된 기업경영 성과 지표가 지원금 증감에 미친 영향을 파악하여, 정부 중소기업 연구개발 지원금 지원 방식이 기업 경영성과 제고 유인을 제공하고 있는지 여부를 진단한다.
본 논문에서는 1) 결측치가 많은 변수 및 관측치의 제거 2) 관측치가 소수의 값에 집중된 변수의 제거 3) 이상치의 제거 4) 결측치 보간 5) 표준화 5가지의 과정을 사용하였다. 통상적으로 기계학습에서 사용하는 변수는 왜도(Skewness)를 완화하고 차원을 낮추고 선형종속인 독립변수들을 제거하여 학습을 촉진하는 경향이 있으나[20] 본 논문에서는 이 세가지 전처리는 수행하지 않았다. 본 논문에서 사용한 자료는 기업 자료로서 대부분의 변수가 왜도가 높은 성향이 있다.
또한 본 논문에서는 주성분을 선험적으로 추출하지 않고, 모형 선택 과정에 주성분 추출을 포괄하는 모형을 포함하여 추정 오차 축소에 도움이 되는 경우에 주성분 분석을 사용하고자 하였다. 마지막으로, 본 논문에서는 선형 종속인 독립변수는 선험적으로 추출하지 않고 릿지 회귀분석 및 라소 회귀분석을 이용하여 예측오차를 최소화하는 독립변수를 선택하게 하였다.
구체적으로 결측치가 있는 변수의 기업별 표본이 2개 이상의 관측치가 있는 경우에는 각 기업 표본의 가용한 관측 치를 종속변수로 하고 상수와 연도변수를 독립 변수로 하는 선형회귀분석을 수행하고, 그 회귀 분석의 예측치로 결측치를 보간하였다. 이 경우보간한 값이 이상치가 되어 분석에 영향을 미치는 위험을 억제하기 위해서 추정치가 개별 기업 표본 관측치의 최저값보다 작으면 개별 기업 표본의 최저값을 사용하였고, 추정치가 개별 기업 표본 관측이의 최대값보다 크면 개별 기업 표본의 최대값을 사용하였다. 그리고 기업별 표본의 관측치가 1개 이하일 경우에는 해당 변수의 연간 표본 중위값을 종속변수로 하고 상수와 연도변수를 독립변수로 하는 선형회귀분석을 수행하고, 그 회귀분석의 예측치를 사용하였다.
결측치 보간 후, 연속변수인 독립 변수는 평균을 제외하고 표준편차로 나누어 표준화하였다. 대안적인 방식으로는 표본 최대값에서 표본의 값을 뺀 값을 표본 최대값에서 표본 최소값을 뺀 값으로 나누어 변수의 값을 0과 1 사이의 값으로 치환하는 방식도 존재한다.
다만 의사결정나무 응용모형에서는 변수의 표준화가 추정의 성과에 영향을 주지 않는 경향이 있기 때문에[30], 본 논문에서 사용한 랜덤 포레스트 모형 및 그래디언트 부스팅 모형은 표준화를 하지 않은 입력자료를 사용한 모형의 추정오차와 표준화를 한 입력자료를 사용한 모형의 추정오차를 비교하여 추정오차가 작은 모형을 사용하였다. 본 논문에서는 두 모형 모두 표준화를 사용하지 않은 모형의 표준오차가 더 작았으므로, 표준화를 하지 않은 입력자료를 사용한 모형을 사용하였다. 따라서 본 논문에서는 그래디언트 부스팅 모형에서는 표준화를 하지 않은 입력자료를 사용하였고, 본 논문의 결과는 표준화 방식에 영향을 받지 않았다.
이렇게 구한 추정오차의 평균값이 가장 작은 하이퍼파라미터 후보값을 모형의 하이퍼파라미터 값으로 확정한다. 본 논문에서는 회귀분석 모형 및 주성분 분석 모형에서는 학습 표본을 10개로 나누어 교차검증을 시행하였다. 그리고 계산부담이 큰 의사결정나무 기반 모형 (랜덤포레스터 모형, 그래디언트 부스팅 모형) 및 신경망 모형에서는 학습표본을 3개로 나누어 교차검증을 시행하였다.
본 논문에서는 회귀분석 모형 및 주성분 분석 모형에서는 학습 표본을 10개로 나누어 교차검증을 시행하였다. 그리고 계산부담이 큰 의사결정나무 기반 모형 (랜덤포레스터 모형, 그래디언트 부스팅 모형) 및 신경망 모형에서는 학습표본을 3개로 나누어 교차검증을 시행하였다.
본 논문에서는 선형회귀분석 응용모형 및 주성분분석 응용모형 하이퍼파라미터 선정에는 탐색방식을, 하이퍼파라미터가 많은 의사결정나무(DecisionTree) 기반 모형 하이퍼파라미터 선정에는 베이지안 방식 중 하나인 TPE(Tree Parzen Estimator)를 사용하였다[1]. 신경망 모형 하이퍼파라미터 중 완전 연결 은닉층(fully connected hidden layer)의 개수는 1개~5개 중에서 탐색 방식을 이용하여 선정하였고, 은닉층의 개수가주어진 신경망 모형의 하이퍼파라미터는 TPE 를 사용하여 선정하였다.
지도학습 모형의 후보군(群)으로는 선형회귀분석을 응용한 2개 모형, 주성분분석(PCA: Principal Component Analysis)을 응용한 2개 모형, 의사결정나무(Decision-Tree)를 응용한 2개 모형, 그리고 신경망 모형 중 평가표본의 추정오차가 가장 작은 모형을 선택하였다. 본 논문에서 사용한 선형회귀분석 응용모형은 릿지 회귀분석(Ridge Regression)과 라소 회귀분석(Lasso Regression), 주성분분석을 응용한 2개 모형은 주성분 회귀분석(PCA: Principal Component Regression)와 부분최소자승법(PLS: Partial Least Squares regression), 의사결정나무를 응용한 2개 모형은 랜덤포레스트(RF: Random Forest) 모형과 그래디언트 부스팅(Gradient boosting) 모형, 신경망(Nueral Network) 모형은 모든 은닉층이 완전 연결 은닉층으로 구성된 모형이다.
지도학습 모형의 후보군(群)으로는 선형회귀분석을 응용한 2개 모형, 주성분분석(PCA: Principal Component Analysis)을 응용한 2개 모형, 의사결정나무(Decision-Tree)를 응용한 2개 모형, 그리고 신경망 모형 중 평가표본의 추정오차가 가장 작은 모형을 선택하였다. 본 논문에서 사용한 선형회귀분석 응용모형은 릿지 회귀분석(Ridge Regression)과 라소 회귀분석(Lasso Regression), 주성분분석을 응용한 2개 모형은 주성분 회귀분석(PCA: Principal Component Regression)와 부분최소자승법(PLS: Partial Least Squares regression), 의사결정나무를 응용한 2개 모형은 랜덤포레스트(RF: Random Forest) 모형과 그래디언트 부스팅(Gradient boosting) 모형, 신경망(Nueral Network) 모형은 모든 은닉층이 완전 연결 은닉층으로 구성된 모형이다. 개별 모형의 하이퍼파라미터를 교차 검정을 통해 선택하고, 하이퍼타라미터가 확정된 모형의 평가표본에서의 평균제곱근오차를 비교하여 그 값이 가장 작은 모형을 추정모형으로 선택하였다.
반면 종속변수가 독립변수의 선형결합으로 근사될 수 있는 경우에는, 의사결정나무 기반 모형 및 신경망 모형을 사용하면 존재하지 않는 비선형성이 학습에 반영되어 추정에 사용하지 않은 평가표본에서 추정오차가 확대되는 과적합(over-fitting)의 문제가 발생한다. 본 모형에서는 비선형성을 선험적으로 평가하기 보다는, 다양한 수준의 비선형성을 반영할 수 있는 다수의 모형을 선정하고, 각 모형의 평가표본의 평균제곱근오차를 도출하여, 평균 제곱근오차가 가장 작은 모형을 추정 모형으로 선택하는 방식을 사용한다. 아래에서는 추정모형의 후보군으로 활용된 개별 모형에 대해 간단하게 소개한다[16, 20].
본 논문에서는 주성분의 개수를 10개 부분집합을 사용하는 교차검정을 실시하여 추정오차를 최소화하는 값을 탐색(Grid- Search)하였다. 즉 주성분이 1~50개인 주성분 회귀분석 모형 및 부분 회귀분석 모형을 교차검정하여 추정오차를 최소화하는 주성분의 개수를 도출하였다. 주성분 회귀분석에 사용된 주성분은 49개이며, 49개 주성분은 독립변수의 변동을 100% 설명하였다.
이 중 은닉층의 개수는 1개~5개를 임의로 선정하였고, 주어진 은닉층의 값에서 여타 하이퍼파라미터를 TPE(Tree Parzen Estimator) 방식을 이용하여 선택하였다. 이렇게 최적화된 5개의 신경망 모형의 평가표본에서의 평균제곱근오차를 비교하여, 그 값이 가장 작은 신경망 모형을 선정하였다. 선정 결과 은닉층이 1개인 신경망 모형의 평가표본에서의 표준제급곤오 차가 가장 작았다.
순열 중요도는 특정 독립변수의 배열을 임의로 뒤섞어서 그 독립변수의 정보를 제거하고 모형을 추정하여 얻은 추정오차와 모든 독립변수의 실제 값을 이용하여 얻은 추정오차의 격차를 의미한다. 전통적으로 그래디언트 부스팅 모형과 같은 의사결정 나무 응용모형을 사용한 분석에서는, 의사결정 나무 공간 분할을 기준으로 개별 독립변수의 중요도를 평가하였다. 구체적으로 의사결정나무 기반 변수 중요도는 의사결정나무에서 공간 분할 기준으로 활용된 독립변수가 추정오차를 개선하는데 기여한 정도를 그 독립변수로 분할되기 이전 공간 내에서 종속변수의 분산과 분할된 이후 공간 내 종속변수의 분산의 차이로 평가하였다.
전통적으로 그래디언트 부스팅 모형과 같은 의사결정 나무 응용모형을 사용한 분석에서는, 의사결정 나무 공간 분할을 기준으로 개별 독립변수의 중요도를 평가하였다. 구체적으로 의사결정나무 기반 변수 중요도는 의사결정나무에서 공간 분할 기준으로 활용된 독립변수가 추정오차를 개선하는데 기여한 정도를 그 독립변수로 분할되기 이전 공간 내에서 종속변수의 분산과 분할된 이후 공간 내 종속변수의 분산의 차이로 평가하였다. 그런데 표본 내 변수의 값이 많은 연속변수는 공간 분할에 보다 빈번히 사용되는 경향이 있기 때문에, 이러한 방식은 연속변수의 중요도를 과대평가하는 경향이 있다[29].
본 논문에서 사용한 그래디언트 부스팅 모형의 독립변수는 50개이다. 이들 중 연도를 제외한 49개 변수의 순열 중요도를 도출하여 4개의 군집으로 구분하였다. 클러스터의 수를 바꾸어 클러스터를 나누어도 가장 중요도가 높은 3개 집단의 평균은 안정적으로 유지되었다.
클러스터의 수를 바꾸어 클러스터를 나누어도 가장 중요도가 높은 3개 집단의 평균은 안정적으로 유지되었다. 군집의 기준은 평균거리를 사용하였다. 각 군집의 특징은[Table 4]와 같다.
본 논문에서는 평가표본을 사용하여 부분의존도를 계산하였다. 연속변수인 독립변수는 평가표본 내에서의 100분위 값에 대해서 부분의존도를 구하였고, 이항변수인 독립변수는 개별 독립변수의 값에 대해서 부분의존도를 구하였다. 학습표본을 사용하여 부분의존도를 계산하여도 결과는 유사하였다.
이와 같은 분석을 수행하면 특정한 관측치에서도 [Figure 5] 과 [Figure 6]에서 확인된 관계가 나타나는지 파악할 수 있다. 본 논문에서는 종속변수의 값이 0([0]), 평가표본에서 0 이상인 지원금의 1사 분위값(25%)([25q]), 중위값(50%)([50q]), 3사 분위값(75%)([75q]), 상위 90%([90q]), 최대값 ([max])을 갖는 관측치 중 각각 추정오차가 가장 작은 값 6개 값을 선정하였고, 개별 관측치에서 SHAP 값과 해당 관측치의 추정치 간의 관계를 파악하였다. [Figure 7]은 그 결과를 보여준다.
0%에 해당하였다. 이러한 현상이 소수 이상치(outlier)에서만 나타나는지를 점검하기 위하여 평가표본을 연구개발 지원금의 50 분위로 분할하고 각 분위 내에서 기업경영지표 SHAP 값의 절대값의 합이 전체 SHAP값의 절대값의 합에서 차지하는 비중 및 연구개발성과지표의 SHAP 값의 절대값의 합이 전체 SHAP값의 절대값의 합에서 차지하는 비중의 상자그림을 구하여 [Figure 8]에 수록하였다. [Figure 8]의 왼쪽 그래프는 기업경영지표의 SHAP 값 절대값의 합의 비중의 연구개발 지원금 분위별 분포 추이를, 오른쪽 그래프는 연구개발성과지표의 SHAP 값 절대값의 비중의 연구개발 지원금 분위별 분포 추이를 의미한다.
본 논문은 정부 중소기업 연구개발 지원금 배분을 결정하는 요인을 기계학습을 적용하여 파악하고자 하였다. 이를 위하여 본 논문은 한국과학기술평가원에서 구축한 중소기업 연구 개발 지원금 자료에 그래디언트 부스팅 모형을 적용하여 중소기업 연구개발 지원금 추정모형을 개발하였고, 순열중요도 분석을 시행하여 추정오차 축소 효과가 큰 변수를 선정하였으며, 선정된 변수의 부분의존도 및 SHAP 값을 분석 하여 지원금 추정치를 증가시키는 독립변수를 파악하였다. 추정 결과 선형회귀분석 응용모형에 비해서 평균제곱근오차를 7.
본 논문의 성과는 네 가지로 정리할 수 있다. 첫째 본 논문은 정부 연구개발 지원금 배분 방식이 지원금 경쟁에 참여하는 기업들에게 제공 하는 유인의 파악에 집중했다는 점에서 지원 받은 기업의 성과에 분석에 집중한 기존 연구와 차별성이 있다. 둘째, 본 논문은 공시적 가정이 성립되어 있지 않은 정부의 의사결정 과정에 대한 실증분석에 기계학습을 사용하여 시사점을 도출하는 선례를 제공하였다.
첫째 본 논문은 정부 연구개발 지원금 배분 방식이 지원금 경쟁에 참여하는 기업들에게 제공 하는 유인의 파악에 집중했다는 점에서 지원 받은 기업의 성과에 분석에 집중한 기존 연구와 차별성이 있다. 둘째, 본 논문은 공시적 가정이 성립되어 있지 않은 정부의 의사결정 과정에 대한 실증분석에 기계학습을 사용하여 시사점을 도출하는 선례를 제공하였다. 셋째, 본 논문은 그래디언트 부스팅 모형을 사용하여 선형 회귀분석 모형보다 추정의 평균제곱근오차를 7.
둘째, 본 논문은 공시적 가정이 성립되어 있지 않은 정부의 의사결정 과정에 대한 실증분석에 기계학습을 사용하여 시사점을 도출하는 선례를 제공하였다. 셋째, 본 논문은 그래디언트 부스팅 모형을 사용하여 선형 회귀분석 모형보다 추정의 평균제곱근오차를 7.20% 축소하는 중소기업 대상 연구개발 지원금 추정모형을 개발하였다. 넷째, 본 논문은 부분의존도 및 SHAP 값을 적극적으로 이용하여 개별 변수의 영향력의 크기 및 방향성을 파악 하였다.
20% 축소하는 중소기업 대상 연구개발 지원금 추정모형을 개발하였다. 넷째, 본 논문은 부분의존도 및 SHAP 값을 적극적으로 이용하여 개별 변수의 영향력의 크기 및 방향성을 파악 하였다.
학술적으로 본 논문은 기계학습 연구와 정책 연구의 결합이라는 점에서 선행연구와 차별성을 갖는다. 본 논문은 정책연구의 관점에서 방법론의 제약으로 연구가 상대적으로 부족하였던 중소기업 연구개발 지원금 배분 방식 연구에 기계학습 방법론을 적용하여 방법론의 제약을 완화하였다. 또한, 본 연구는 기계학습 연구의 관점에서도 최근의 연구성과인 부분의존도와 SHAP 값을 사용하여 기계학습 연구 결과의 정책적인 활용도를 제고하였다.
대상 데이터
본 논문에서 사용한 자료는 2015년 한국과학기술평가원에서 중소기업 연구개발 투자효과를 분석하기 위하여 구축한 자료이다[14]. 이 자료는 한국과학기술평가원에서 관리하는 국가연구 개발조사분석 자료와 한국신용정보(NICE) 자료와 연계하여 구축하였다.
이 자료는 정부의 연구개발지원 실적과 기업의 경영성과 지표를 연계하여서, 연구개발 지원금과 기업의 특성을 함께 분석할 수 있게 설계한 장점을 지닌다. 이 자료는 7,538개 기업에 31,782건의 연구과제를 통해서 지원된 5.8조 원의 연구개발 지원금을 포괄한다. 이 자료는 내부자료로서 보다 최신 상황을 묘사한 유사한 자료는 입수가 어려웠고, 본 논문에는 사용하지 못하였다.
통상적으로 기계학습에서 사용하는 변수는 왜도(Skewness)를 완화하고 차원을 낮추고 선형종속인 독립변수들을 제거하여 학습을 촉진하는 경향이 있으나[20] 본 논문에서는 이 세가지 전처리는 수행하지 않았다. 본 논문에서 사용한 자료는 기업 자료로서 대부분의 변수가 왜도가 높은 성향이 있다. 이는 기업의 성과가 좋은 소수의 기업과 성과가 좋지 않은 다수의 기업이 공존하는 중소기업의 현황을 반영하는 현상으로 간주하였고, 따라서 왜도의 완화는 시도하지 않았다.
단, 이상치를 제외하지 않았을 경우 모형에 과소적합(under-fitting)현상이 발생하였을 가능성이 커서 이상치를 제외하였다. 이상의 전처리 과정을 거친 표본은 51개 변수의 연도기업 관측치 40,688개로 구성된 표본이다. 이 표본이 기계학습에 사용되었다.
이 표본이 기계학습에 사용되었다. 분석에 사용된 변수는 정부 연구개발 지원금, 연도, 기업경영지표 41개 변수, 연구성과 지표 8개 변수이다. 이 중정부 연구개발 지원금은 종속변수로, 나머지 50개 변수는 독립변수로 사용되었다.
본 모형에서는 평균제곱근오차를 사용하였다. 전체 표본 중 80%는 학습표본(train set)으로 설정하여 학습에 사용하였고, 나머지 20%는 평가표본(test set)으로 설정하여 학습된 모형의 추정오차를 계산하여 모형의 성능을 평가하는 자료로 사용하였다.
즉 주성분이 1~50개인 주성분 회귀분석 모형 및 부분 회귀분석 모형을 교차검정하여 추정오차를 최소화하는 주성분의 개수를 도출하였다. 주성분 회귀분석에 사용된 주성분은 49개이며, 49개 주성분은 독립변수의 변동을 100% 설명하였다. 부분회귀분석에 사용된 주성분은 46개이고, 46개의 주성분은 독립변수의 변동을 99.
선정 결과 은닉층이 1개인 신경망 모형의 평가표본에서의 표준제급곤오 차가 가장 작았다. 이 모형은 학습을 600회 하였고, 각 학습에서 1회 가중치 개선에는 350의 표본을 사용하고 표본의 8.9%를 학습시키지 않는 방식으로 학습하였다. 1개 은닉층은 노드 55개로 구성되었다.
9%를 학습시키지 않는 방식으로 학습하였다. 1개 은닉층은 노드 55개로 구성되었다.
데이터처리
이 경우보간한 값이 이상치가 되어 분석에 영향을 미치는 위험을 억제하기 위해서 추정치가 개별 기업 표본 관측치의 최저값보다 작으면 개별 기업 표본의 최저값을 사용하였고, 추정치가 개별 기업 표본 관측이의 최대값보다 크면 개별 기업 표본의 최대값을 사용하였다. 그리고 기업별 표본의 관측치가 1개 이하일 경우에는 해당 변수의 연간 표본 중위값을 종속변수로 하고 상수와 연도변수를 독립변수로 하는 선형회귀분석을 수행하고, 그 회귀분석의 예측치를 사용하였다. 이 경우에도 보간한 값이 이상치가 되어 분석에 영향을 미치는 위험을 억제하기 위해서 보간한 값이 해당 연도 표본에서 해당 변수의 최대값을 초과하는 경우에는 해당 연도 표본에서 해당 변수의 최대값을 사용하였고, 보간한 값이 해당 연도 표본에서 해당 변수의 최소값보다 작은 경우에는 해당 연도 표본에서 해당 변수의 최소값을 사용하였다.
예측오차를 정의하는 손실함수는 여러 가지 형태가 쓰이지만, 본 논문과 같이 연속변수인 종속변수를 추정하는 경우에는 평균제곱오차(Mean Squared Error) 및 평균제곱근오차(Root Mean Squared Error)를 가장 보편적으로 사용한다. 본 모형에서는 평균제곱근오차를 사용하였다. 전체 표본 중 80%는 학습표본(train set)으로 설정하여 학습에 사용하였고, 나머지 20%는 평가표본(test set)으로 설정하여 학습된 모형의 추정오차를 계산하여 모형의 성능을 평가하는 자료로 사용하였다.
지도학습 모형에서 사용하는 함수의 형태를 결정하는 하이퍼파라미터(Hyper-parameter)값 (d)은 모수 추정 이전에 선택해야 한다. 본 논문에서는 하이퍼파라미터 선택을 위해서 교차검증(Cross Validation)을 사용하였다. 교차검증은 하이퍼파라미터 후보군 중 다음과 같이 계산한 추정오차의 기댓값이 가장 작은 하이퍼파리 미터값을 선택한다.
그리고 이 모수를 활용하여 나머지 1개 부분집합(검증표본: validation set)의 추정오차를 구한다. 이러한 작업을 모든 가능한 조합에 대해 반복하여 각각의 조합에서 계산한 추정오차의 평균값을 구한다. 이렇게 구한 추정오차의 평균값이 가장 작은 하이퍼파라미터 후보값을 모형의 하이퍼파라미터 값으로 확정한다.
본 논문에서 사용한 선형회귀분석 응용모형은 릿지 회귀분석(Ridge Regression)과 라소 회귀분석(Lasso Regression), 주성분분석을 응용한 2개 모형은 주성분 회귀분석(PCA: Principal Component Regression)와 부분최소자승법(PLS: Partial Least Squares regression), 의사결정나무를 응용한 2개 모형은 랜덤포레스트(RF: Random Forest) 모형과 그래디언트 부스팅(Gradient boosting) 모형, 신경망(Nueral Network) 모형은 모든 은닉층이 완전 연결 은닉층으로 구성된 모형이다. 개별 모형의 하이퍼파라미터를 교차 검정을 통해 선택하고, 하이퍼타라미터가 확정된 모형의 평가표본에서의 평균제곱근오차를 비교하여 그 값이 가장 작은 모형을 추정모형으로 선택하였다.
릿지 회귀분석 및 라소 회귀분석의 목적함수는 벌칙항목에 곱하여져서 추정계수의 값이 큰 변수에 대한 벌칙의 크기를 나타내는 모수를 하이퍼파라미터로 포함한다. 본 논문에서 이 모수를 10개 부분집합을 사용하는 교차검증을 실시하여 추정오차가 가장 작아지는 값을 탐색(Grid-search)하여 선택하였다. 릿지 회귀분석에 사용한 값은 0.
이두 분석에서 주성분의 개수가 하이퍼파라미터가 된다. 본 논문에서는 주성분의 개수를 10개 부분집합을 사용하는 교차검정을 실시하여 추정오차를 최소화하는 값을 탐색(Grid- Search)하였다. 즉 주성분이 1~50개인 주성분 회귀분석 모형 및 부분 회귀분석 모형을 교차검정하여 추정오차를 최소화하는 주성분의 개수를 도출하였다.
부분의존도는 식 (1)에서 추정한 조건부평균 함수에서 특정 변수의 값을 고정하고, 나머지 변수의 값에 대해서 평균을 취한 값으로 정의 된다[24]. 본 논문에서는 평가표본을 사용하여 부분의존도를 계산하였다. 연속변수인 독립변수는 평가표본 내에서의 100분위 값에 대해서 부분의존도를 구하였고, 이항변수인 독립변수는 개별 독립변수의 값에 대해서 부분의존도를 구하였다.
[Table 6]은 [Table 5]에 수록된 10개 독립 변수의 증감에 따른 부분의존도의 증감을 수록 하였다. 7개 연속변수에 대해서는 독립변수의 평가표본 1분위 증가에 따른 부분의존도의 증감을 독립변수의 100분위 값에 대해서 계산하여 평균을 취하였으며, 3개 이산변수에 대해서는 독립변수가 1의 값을 가질 경우의 부분의존도에서 0의 값을 가질 경우의 부분의존도를 차감 하였다. [Table 6]은 [Figure 3] 및 [Figure 4]에서 관찰한 독립변수의 값과 부분의존도간의 관계를 정량적으로 요약하여 보여준다.
이와 같은 결과가 모든 변수를 고려해도 유지되는지를 점검하기 위해서 평가표본의 모든 관측치에서 SHAP의 절대값의 합에서 41개 기업경영지표의 SHAP 값의 절대값의 합, 8개 연구성과지표의 SHAP 값의 절대값의 합이 차지하는 비중을 계산하였다. 그 결과 기업경영지표의 SHAP 값 절대값 합이 차지하는 비중의 평가표본에서의 평균은 41.
이론/모형
두 방식 모두 시도하였는데, 각각의 방식으로 표준화 한 변수들의 2변수 간 산포도와 표준화 이전 2변수 간산포도가 유사하였다. 따라서 두 가지 표준화 방식에 큰 차이가 없어서 본 논문에서는 평균표준편차를 이용한 표준화 방식을 사용하였다.
다만 의사결정나무 응용모형에서는 변수의 표준화가 추정의 성과에 영향을 주지 않는 경향이 있기 때문에[30], 본 논문에서 사용한 랜덤 포레스트 모형 및 그래디언트 부스팅 모형은 표준화를 하지 않은 입력자료를 사용한 모형의 추정오차와 표준화를 한 입력자료를 사용한 모형의 추정오차를 비교하여 추정오차가 작은 모형을 사용하였다. 본 논문에서는 두 모형 모두 표준화를 사용하지 않은 모형의 표준오차가 더 작았으므로, 표준화를 하지 않은 입력자료를 사용한 모형을 사용하였다.
지도학습(supervised learning)은 예측오차를 최소화하는 조건부평균 함수 E(y|X, Θ ,d)의 모수 값(Θ)을 찾는 ‘학습’을 목적으로 한다. 예측오차를 정의하는 손실함수는 여러 가지 형태가 쓰이지만, 본 논문과 같이 연속변수인 종속변수를 추정하는 경우에는 평균제곱오차(Mean Squared Error) 및 평균제곱근오차(Root Mean Squared Error)를 가장 보편적으로 사용한다. 본 모형에서는 평균제곱근오차를 사용하였다.
하이퍼파라미터 후보군을 선정하는 방식으로는 파라미터 공간 내의 가능한 모든 값을 사용 하는 탐색 방식(Grid Search), 파라미터 공간 내에서 후보 값을 임의의 확률분포를 사용하여 추출하는 통계적 방식(Random Search), 파라 미터 공간의 확률분포를 베이지안 방식으로 추정하고, 추정된 확률분포에 따라 후보값을 추출 하는 베이지안 방식 세 가지가 쓰인다. 본 논문에서는 선형회귀분석 응용모형 및 주성분분석 응용모형 하이퍼파라미터 선정에는 탐색방식을, 하이퍼파라미터가 많은 의사결정나무(DecisionTree) 기반 모형 하이퍼파라미터 선정에는 베이지안 방식 중 하나인 TPE(Tree Parzen Estimator)를 사용하였다[1]. 신경망 모형 하이퍼파라미터 중 완전 연결 은닉층(fully connected hidden layer)의 개수는 1개~5개 중에서 탐색 방식을 이용하여 선정하였고, 은닉층의 개수가주어진 신경망 모형의 하이퍼파라미터는 TPE 를 사용하여 선정하였다.
이러한 의사결정나무 모형은 학습표본에 과적합 되는 경향이 강하기 때문에, 여러 개의 소규모 의사결정나무를 만들어 각각의 의사결정나무의 추정치의 대푯값을 추정치로 사용하는 의사결정나무 응용모형이 주로 사용된다. 본 논문에서 사용한 모형은 랜덤포레스트 모형과 그래디언트 부스팅 모형이다.
랜덤포레스트 모형과 그래디언트 부스팅 모형에서는 개별 의사결정나무의 수와 개별 의사결정나무의 특성에 대한 제약이 하이퍼파라미터가 된다. 본 논문에서는 랜덤포레스트 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수의 개수의 상한 및 표본의 하한, 개별 분할 공간이 포함하는 표본의 하한, 의사결정 나무의 수를 TPE(Tree Parzen Estimator) 방식을 이용하여 선택하였다. 그리고 그래디언트 부스팅 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수의 수와 표본의 크기, 개별 의사결정나무의 층위의 상한, 의사결정나무의 수를 TPE 방식을 이용하여 선택하였다.
본 논문에서는 랜덤포레스트 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수의 개수의 상한 및 표본의 하한, 개별 분할 공간이 포함하는 표본의 하한, 의사결정 나무의 수를 TPE(Tree Parzen Estimator) 방식을 이용하여 선택하였다. 그리고 그래디언트 부스팅 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수의 수와 표본의 크기, 개별 의사결정나무의 층위의 상한, 의사결정나무의 수를 TPE 방식을 이용하여 선택하였다. 랜덤 포레스트 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수는 16개 이하, 개별 의사결정나무 구축에 사용할 수 있는 표본은 3개 이상, 개별 분할 공간에 포함되는 표본은 1개 이상으로 제한되었으며 개별 의사결정나무는 84개를 사용하였다.
은닉층의 각 노드는 이전 층의 노드의 출력값의 가중평균을 입력값으로 받아서 활성 함수에 투입하여 출력값을 산출하고, 이 출력 값과 같은 층의 노드들의 출력값의 가중평균이 다음 층의 노드의 입력값으로 사용된다. 본 논문에서 은닉층의 활성함수는 ReLu 함수를 사용하였다. 과적합의 문제를 해소하기 위해서 심층신경망 모형 분석에서 주로 사용하는 노드 중 일부를 임의 선택하여 학습에서 제외하는 드롭 아웃(drop-out) 방식을 사용하였다.
본 논문에서 은닉층의 활성함수는 ReLu 함수를 사용하였다. 과적합의 문제를 해소하기 위해서 심층신경망 모형 분석에서 주로 사용하는 노드 중 일부를 임의 선택하여 학습에서 제외하는 드롭 아웃(drop-out) 방식을 사용하였다. 그리고 계산 부담을 줄이기 위해서 가중치의 1회 개선에 다수의 입력 자료를 사용하는 배치(batch) 방식을 사용하였다.
과적합의 문제를 해소하기 위해서 심층신경망 모형 분석에서 주로 사용하는 노드 중 일부를 임의 선택하여 학습에서 제외하는 드롭 아웃(drop-out) 방식을 사용하였다. 그리고 계산 부담을 줄이기 위해서 가중치의 1회 개선에 다수의 입력 자료를 사용하는 배치(batch) 방식을 사용하였다.
본 논문에서 사용한 신경망 모형의 하이퍼파라미터는 학습의 회수, 배치에 포함되는 표본의수, 은닉층의 개수, 은닉층을 구성하는 노드의 개수, 드롭아웃에서 학습을 시키지 않는 노드의 비중이다. 이 중 은닉층의 개수는 1개~5개를 임의로 선정하였고, 주어진 은닉층의 값에서 여타 하이퍼파라미터를 TPE(Tree Parzen Estimator) 방식을 이용하여 선택하였다. 이렇게 최적화된 5개의 신경망 모형의 평가표본에서의 평균제곱근오차를 비교하여, 그 값이 가장 작은 신경망 모형을 선정하였다.
73% 개선하는 효과가 있었다. [Table 3]의 결과에 따라 본 논문에서는 정부 연구개발 지원금 추정 모형으로 그래디언트 부스팅 모형을 선정하였다.
본 논문에서는 그래디언트 부스팅 모형은 개별 독립변수가 추정오차를 축소하는데 기여한 여부를 순열 중요도(permutation importance) 를 이용하여 평가한다[6]. 순열 중요도는 특정 독립변수의 배열을 임의로 뒤섞어서 그 독립변수의 정보를 제거하고 모형을 추정하여 얻은 추정오차와 모든 독립변수의 실제 값을 이용하여 얻은 추정오차의 격차를 의미한다.
따라서 개별 변수가 여타 변수와의 상호작용을 통해서 추정치에 미치는 영향을 파악하기에는 적합하지 않다. 이를 보완하기 위해서 타 독립변수와의 상호작용을 포괄 하여 개별 독립변수가 추정치에 미치는 영향을 평가하는 SHAP 값을 사용하였다.
직관적으로 SHAP 값은 특정 관측치에서 독립 변수가 특정한 값을 가졌기 때문에 평균적인 조건부평균 함수의 값(추정치의 평균)과 대비 하여 발생하는 특정 관측치에서의 조건부평균 함수의 값(추정치)의 격차를 나타낸다[22, 24]. 본 논문에서는 의사결정나무를 응용한 모형에서 SHAP 값을 빠르게 계산하기 위해서 개발한 TreeSHAP[22]를 사용하였다.
성능/효과
이상치의 제거를 위해서 개별 독립 변수의 표본 내 1분위 값과 3분위 값 간의 구간의 일정 배수 이상이 되는 값을 포함하는 표본을 제외하였다. 표본을 보존하기 위해서 독립변수의 이상치 때문에 분석에서 제외하는 표본을 10% 이내로 제한하였고, 그 결과 개별 변수 중 하나 이상의 값이 표본 내 1분위 값과 3분위 값 간의 구간의 53배 구간 밖에 있는 값을 갖는 표본을 제외하였다.
본 논문에서는 두 모형 모두 표준화를 사용하지 않은 모형의 표준오차가 더 작았으므로, 표준화를 하지 않은 입력자료를 사용한 모형을 사용하였다. 따라서 본 논문에서는 그래디언트 부스팅 모형에서는 표준화를 하지 않은 입력자료를 사용하였고, 본 논문의 결과는 표준화 방식에 영향을 받지 않았다.
랜덤 포레스트 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수는 16개 이하, 개별 의사결정나무 구축에 사용할 수 있는 표본은 3개 이상, 개별 분할 공간에 포함되는 표본은 1개 이상으로 제한되었으며 개별 의사결정나무는 84개를 사용하였다. 그래디언트 부스팅 모형에서는 개별 의사결정나무에서 사용할 수 있는 독립변수의 수는 전체의 독립변수의 76.5%, 개별 의사결정나무에서 사용할 수 있는 표본은 전체 표본의 87.4%, 개별 의사결정나무의 계층은 9개로 제한되었고, 270개의 의사결정나무를 도출하여 사용하였다.
이렇게 최적화된 5개의 신경망 모형의 평가표본에서의 평균제곱근오차를 비교하여, 그 값이 가장 작은 신경망 모형을 선정하였다. 선정 결과 은닉층이 1개인 신경망 모형의 평가표본에서의 표준제급곤오 차가 가장 작았다. 이 모형은 학습을 600회 하였고, 각 학습에서 1회 가중치 개선에는 350의 표본을 사용하고 표본의 8.
[Table 2]에서 볼 수 있듯이 은닉층의 수가 3개 이상이 되면 은닉층이 많을수록 평가표본에서의 평균제곱근오차는 증가하는 경향이 있었다. 특히 은닉층의 수가 5개가 되면 평가표본에서의 평균제곱근오차가 급증하여 뚜렷한 과적합 현상을 보였다.
[Table 3]의 평가오차(Test Error)는 종속변수의 단위인 백만 원을 단위로 표기하였다. 의사결정모형을 응용한 2개 모형(랜덤포레스트 모형과 그래디언트 부스팅 모형)의 평가오차가 여타 모형의 평가오차보다 확연히 낮았다. [Table 3]의 세번째 열은 각 모형의 평가오차와 릿지 회귀분석의 평가오차의 차이를 릿지 회귀분석의 평가오 차로 나눈 값을 백분율로 표시한 값으로서, 각각의 모형이 릿지 회귀분석과 대비하여 평가오차를 개선한 정도를 나타낸다.
057이었다. 따라서 그래디언트 부스팅 추정치는 표준편차보다 오차를 24.73% 개선하는 효과가 있었다. [Table 3]의 결과에 따라 본 논문에서는 정부 연구개발 지원금 추정 모형으로 그래디언트 부스팅 모형을 선정하였다.
[Figure 2]의 왼쪽 그림은 [Figure 1]에서와 마찬가지로 두 모형 모두 종속변수가 커질수록 오차의 절댓값이 증가하는 추세가 존재함을 보여준다. 단, 릿지 회귀분석 추정오차에 비교해 보면 그래디언트 부스팅 모형 추정오차의 증가 추세가 약함을 확인할 수 있다. 그리고 [Figure 2]의 오른쪽 그림은 종속변수의 값이 큰 구간에서 그래디언트 부스팅 모형의 추정치가 릿지 회귀 분석 추정치에 비해 상대적으로 커서 종속변수의 실측값과 가까운 경향이 있음을 보여준다.
그런데 표본 내 변수의 값이 많은 연속변수는 공간 분할에 보다 빈번히 사용되는 경향이 있기 때문에, 이러한 방식은 연속변수의 중요도를 과대평가하는 경향이 있다[29]. 특히 본 논문에서 사용한 독립변수 중 5개의 변수가 0과 1의 값을 갖는 이항변수이므로, 변수 간 중요도 비교에는 순열 중요도가 보다 적합하다.
이들 중 연도를 제외한 49개 변수의 순열 중요도를 도출하여 4개의 군집으로 구분하였다. 클러스터의 수를 바꾸어 클러스터를 나누어도 가장 중요도가 높은 3개 집단의 평균은 안정적으로 유지되었다. 군집의 기준은 평균거리를 사용하였다.
[Table 6]에 수록된 10개 변수가 SHAP 절대값의 평가표본 평균이 가장 높은 10개 변수와 일치하였다. 그리고 평가표본에서 계산한 평균 SHAP 절대값으로 3개 군집으로 나누는 군집분석을 적용하면 평균 SHAP 절대값이 높은 상위 2개 집합에 속한 변수가 9개 선정되었는데, 이 변수들은 모두[Table 6]에 수록된 변수였다. 4개 이상의 군집으로 구분하는 경우에도 상위 2개 집합에 속한 변수는 8개로 안정적으로 유지되었는데, 이 변수들 역시 [Table 6]에 수록된 변수에 속하였다.
이는 이상 3개 지표는전 구간에서 연구개발 지원금 추정치를 증가시키는 경향이 있음을 보여준다. 연구개발비(rd)는 값이 낮은 구간에서 SHAP 값이 음의 값을 가졌지만, 값이 증가하면서 SHAP 값이 증가하여 전반적인 구간에서 양의 값이 유지되었다. 이는 연구개발비는 전반적으로 연구개발 지원금 추정치를 증가시키는 경향이 있음을 보여준다.
총자산회전율(tr)은 연구개발 투자와는 반대로 값이 작을 경우에는 SHAP 값이 양의 값을 가졌지만, 값이 증가할수록 SHAP 값이 급격하게 감소하여 전반적으로 SHAP 값이 음의 값을 가졌다. 그리고 영업이익(opl)은 음의 값을 갖는 구간에서는 SHAP 값이 양의 값을 가졌지만 양의 값을 갖는 구간에서는 SHAP 값이 0과 가까운 값을 가졌다.
그리고 영업이익(opl)은 음의 값을 갖는 구간에서는 SHAP 값이 양의 값을 가졌지만 양의 값을 갖는 구간에서는 SHAP 값이 0과 가까운 값을 가졌다. 이는 총자산회전율은 증가할수록 연구개발 지원금 추정치를 낮추는 경향이 있음을 보여주고, 영업이익은 음의 값을 가지면 연구개발 지원금 추정치를 높이지만, 양의 값을 가지면 연구개발 지원금 추정치에 영향을 주지 않는 경향이 있음을 보여준다. 따라서 [Figure 3]에서 발견한 자기자산 회전율이 높고 이윤이 높은 기업은 연구개발 지원금 추정치가 낮은 경향은 [Figure 5]에서도 확인된다.
그리고 종속변수가 0인 경우([0]) 및 양의 값을 갖는 종속변수의 1사분위 값인 경우([25q])에는 영업이익(opl)이 양의 값을 가져서 SHPA 값은 음의 값을 갖는 현상을 확인 할 수 있었다. 또한 양의 값을 갖는 종속변수의 3사분위 값([75q])에서는 판매비 및 관리비(sa)가 양의 값을 갖고 SHAP 값도 양의 값을 갖는 현상을 확인할 수 있었다. 6개 모든 관측지에서 연구개발성과지표의 SHAP 값은 기업경영지표의 SHAP 값보다 절대값이 큰 경향이 있었다.
또한 양의 값을 갖는 종속변수의 3사분위 값([75q])에서는 판매비 및 관리비(sa)가 양의 값을 갖고 SHAP 값도 양의 값을 갖는 현상을 확인할 수 있었다. 6개 모든 관측지에서 연구개발성과지표의 SHAP 값은 기업경영지표의 SHAP 값보다 절대값이 큰 경향이 있었다. 이러한 경향들은 모두 [Figure 5]와 [Figure 6]에서 확인된 경향과 일관된다.
부분의존도와 SHAP 값을 이용하여 개별 변수가 정부 연구개발지원금 추정치이 미친 영향을 분석한 결과 다음과 같이 정리할 수 있다. 첫째, 연구개발지원금 추정치에 미치는 영향이 큰 변수가 순열중요도도 높았다. 둘째, 중요도가 높은 10개 독립변수 중에서는 연구개발성과지표 및 연구개발비가 연구개발지원금 추정치에 미치는 영향이 기업경영지표가 연구개발지원금에 미치는 영향보다 크게 나타났다.
첫째, 연구개발지원금 추정치에 미치는 영향이 큰 변수가 순열중요도도 높았다. 둘째, 중요도가 높은 10개 독립변수 중에서는 연구개발성과지표 및 연구개발비가 연구개발지원금 추정치에 미치는 영향이 기업경영지표가 연구개발지원금에 미치는 영향보다 크게 나타났다. 셋째, 연구개발성과지표 및 연구개발비 지출이 큰 기업은 연구개발지원금 추정치가 커지는 경향이 존재한다.
셋째, 연구개발성과지표 및 연구개발비 지출이 큰 기업은 연구개발지원금 추정치가 커지는 경향이 존재한다. 넷째, 기업경영지표 중 영업이윤이 0이상의 값을 갖거나 총자산 회전율이 높은 값을 가지면 연구개발 지원금 추정치가 작아지는 경향이 존재한다.
기계학습을 이용한 정부 중소기업 연구개발 지원금 추정 결과가 주는 시사점은 다음과 같다. 첫째, 중소기업 연구개발 지원금은 비선형성이 강하여 값이 큰 구간에서는 추정오차가 커진다. 둘째, 연구성과지표 및 연구개발비 지출은 연구개발 지원금의 추정 오차를 축소하는 효과가 크다.
첫째, 중소기업 연구개발 지원금은 비선형성이 강하여 값이 큰 구간에서는 추정오차가 커진다. 둘째, 연구성과지표 및 연구개발비 지출은 연구개발 지원금의 추정 오차를 축소하는 효과가 크다. 셋째, 연구성과지표가 좋고 연구개발비 지출이 큰 기업의 연구개발 추정치가 큰 경향이 있다.
둘째, 연구성과지표 및 연구개발비 지출은 연구개발 지원금의 추정 오차를 축소하는 효과가 크다. 셋째, 연구성과지표가 좋고 연구개발비 지출이 큰 기업의 연구개발 추정치가 큰 경향이 있다. 넷째, 기업경영지표 중에서는 영업이익이 작고 자기자산 대체율이 낮아 기업경영성과가 부진한 기업의 연구개발 추정치가 큰 경향이 있다.
셋째, 연구성과지표가 좋고 연구개발비 지출이 큰 기업의 연구개발 추정치가 큰 경향이 있다. 넷째, 기업경영지표 중에서는 영업이익이 작고 자기자산 대체율이 낮아 기업경영성과가 부진한 기업의 연구개발 추정치가 큰 경향이 있다. 이상의 분석 결과는 현재 중소 기업 연구개발 지원금은 연구개발지표가 좋고 연구개발투자가 많은 기업에게 우선적으로 배분되는 반면, 기업경영성과가 좋은 기업에게는 우선 배분되지 않고 있음을 시사한다.
넷째, 기업경영지표 중에서는 영업이익이 작고 자기자산 대체율이 낮아 기업경영성과가 부진한 기업의 연구개발 추정치가 큰 경향이 있다. 이상의 분석 결과는 현재 중소 기업 연구개발 지원금은 연구개발지표가 좋고 연구개발투자가 많은 기업에게 우선적으로 배분되는 반면, 기업경영성과가 좋은 기업에게는 우선 배분되지 않고 있음을 시사한다. 따라서본 연구의 결과는 현재 중소기업 연구개발 지원금 배분 방식은 기업이 연구개발 지원금 획득을 목적으로 연구성과를 제고할 유인은 제공하고 있지만, 같은 목적으로 경영성과를 제고할 유인을 제공하는 기능은 부족함을 시사한다.
이상의 분석 결과는 현재 중소 기업 연구개발 지원금은 연구개발지표가 좋고 연구개발투자가 많은 기업에게 우선적으로 배분되는 반면, 기업경영성과가 좋은 기업에게는 우선 배분되지 않고 있음을 시사한다. 따라서본 연구의 결과는 현재 중소기업 연구개발 지원금 배분 방식은 기업이 연구개발 지원금 획득을 목적으로 연구성과를 제고할 유인은 제공하고 있지만, 같은 목적으로 경영성과를 제고할 유인을 제공하는 기능은 부족함을 시사한다.
둘째, 이러한 불확실성이 존재하는 상황에서도 연구성과지표 및 연구개발 투자액은 연구개발 지원금 추정의 불확실성을 줄이는 효과가 있었다. [Table 6]에서 확인되는 바와 같이 그래디언트 부스팅 모형에서 사용한 8개 연구성과지표 중 6개가 추정오차를 가장 많이 축소한 변수군(群)에 포함되었다.
그리고 [Table 7]에서 확인된 바와 같이 [Table 6]에 수록된 6개의 연구성과지표가 평균 SHAP 절대값으로 평가한 추정치에 대한 영향이 가장 큰 변수군(群)에도 포함되었다. 또한 연구개발비는 추정오차 축소 효과가 네 번째로 컸으며, 평균 SHAP 절대값으로 평가한 추정치에 대한 영향은 세 번째로 높았다. 반면, 분석에 포함된 41개 기업경영지표 중 연구개발비(rd), 자기자본대체율(tr), 판매비와 관리비(sa), 영업이익(opl) 4개만이 추정오차 축소 효과가 큰 변수군(群)에 포함되었다.
이와 같은 결과가 모든 변수를 고려해도 유지되는지를 점검하기 위해서 평가표본의 모든 관측치에서 SHAP의 절대값의 합에서 41개 기업경영지표의 SHAP 값의 절대값의 합, 8개 연구성과지표의 SHAP 값의 절대값의 합이 차지하는 비중을 계산하였다. 그 결과 기업경영지표의 SHAP 값 절대값 합이 차지하는 비중의 평가표본에서의 평균은 41.1%였던 반면, 연구 성과지표의 SHAP 값 절대값 합이 차지하는 비중의 평가표본에서의 평균은 48.0%에 해당하였다. 이러한 현상이 소수 이상치(outlier)에서만 나타나는지를 점검하기 위하여 평가표본을 연구개발 지원금의 50 분위로 분할하고 각 분위 내에서 기업경영지표 SHAP 값의 절대값의 합이 전체 SHAP값의 절대값의 합에서 차지하는 비중 및 연구개발성과지표의 SHAP 값의 절대값의 합이 전체 SHAP값의 절대값의 합에서 차지하는 비중의 상자그림을 구하여 [Figure 8]에 수록하였다.
[Figure 8]의 왼쪽 그래프는 기업경영지표의 SHAP 값 절대값의 합의 비중의 연구개발 지원금 분위별 분포 추이를, 오른쪽 그래프는 연구개발성과지표의 SHAP 값 절대값의 비중의 연구개발 지원금 분위별 분포 추이를 의미한다. 연구개발 지원금의 규모가 작은 분위에서는 기업경영지표의 SHAP 값의 절대값의 합의 비중과 연구성과지표 SHAP 값의 절대값의 합의 비중이 유사하였지만, 연구개발 지원금의 규모가 점차 증가함에 따라 연구성과지표 SHAP 값의 절대값의 합의 비중이 커지는 경향이 존재하였다. 그리고 31분위 이상에서는 연구성과지표 SHAP 값의 절대값의 합의 비중이 더 큰 경향을 확인할 수 있었다.
[Figure 8]은 전반적으로 연구성과지표가 연구개발 지원금 추정치에 미치는 영향은 기업경영지표가 연구개발 지원금 추정치에 미치는 영향보다 컸으며, 이러한 현상은 연구개발 지원금이 증가할수록 심화되었음을 보여준다. 이러한 결과는 본 논문의 분석에서 활용된 모든 기업경영지표와 연구성과지표를 고려한다고 해도, 연구개발 지원금 배분 방식에 연구성과지표와 연구개발비 지출이 기업 경영지표보다 더 큰 영향을 미치고 있음을 시사한다.
셋째, 연구개발성과지표가 좋고 연구개발비 지출이 큰 중소기업의 연구개발 지원금 추정치가 상대적으로 큰 경향이 있었다. 연구개발성과 지표 및 연구개발비는 관측치가 증가함에 따라 부분의존도가 증가하였고, 전 구간에서 SHAP 값이 양의 값을 가졌다.
셋째, 연구개발성과지표가 좋고 연구개발비 지출이 큰 중소기업의 연구개발 지원금 추정치가 상대적으로 큰 경향이 있었다. 연구개발성과 지표 및 연구개발비는 관측치가 증가함에 따라 부분의존도가 증가하였고, 전 구간에서 SHAP 값이 양의 값을 가졌다. 이러한 결과는 현재 정부의 중소기업 연구개발 지원금 배분 방식이 중소기업에게는 연구개발성과지표를 개선하고 연구개발비 투자를 확대하는 유인을 제공하고 있음을 시사한다.
넷째, 기업경영지표중 영업이익이 음의 값을 갖고 총자산회전율이 낮고 판매비 및 관리비 지출이 큰 기업의 연구개발 지원금 추정치가 상대적으로 큰 경향이 있었다. 총자산회전율의 SHAP 값은 전반적으로 음의 값을 가지고 있었으며, 총자산회전율이 증가하면 SHAP 값이 더 하락하였다.
넷째, 기업경영지표중 영업이익이 음의 값을 갖고 총자산회전율이 낮고 판매비 및 관리비 지출이 큰 기업의 연구개발 지원금 추정치가 상대적으로 큰 경향이 있었다. 총자산회전율의 SHAP 값은 전반적으로 음의 값을 가지고 있었으며, 총자산회전율이 증가하면 SHAP 값이 더 하락하였다. 그리고 총자산회전율이 증가하면 부분의존도 역시 하락하였다.
이는 총자산증가율이 증가할수록 연구개발 지원금 추정치가 감소함을 의미한다. 영업이익은 0 보다 작을 경우에는 부분의존도와 SHAP 값이 양의 값을 갖고 있었지만 0을 기점으로 부분의존도가 급격하게 하락하였고, 0보다 높은 값에서는 부분의존도가 일정하게 유지되었다. 영업이익의 SHAP 값 역시 영업이익이 0보다 작은 구간에서는 양의 값을 가졌지만, 0을 기점으로 급격하게 하락 하여 0에 접근하였다.
마지막으로 판매비 및 관리비가 작은 구간에서는 SHAP 값이 음의 값을 유지하였지만, 증가할수록 SHAP 값이 증가하여 큰 값에서는 SHAP 값이 양의 값을 가졌다. 이는 판매비 및 관리비가 증가할수록 연구개발 지원금 추정치가 증가함을 의미한다.
총자산회전율은 매출액을 자산총계로 나눈 값이다. 따라서 본 논문에서 수행한 3가지 기업 경영지표의 영향 분석 결과는 매출이 적어서 총자산회전율이 낮고, 영업이익은 적고, 판매비 및 관리비 지출은 큰 기업은 연구개발 지원금 추정치가 큰 경향이 있음을 의미한다. 이러한 결과는 현재 정부의 중소기업 연구개발 지원금 배분 방식이 기업의 매출 제고, 이윤 신장, 비용절감을 제고할 유인이 부족함을 시사한다.
이를 종합하면 현재 정부의 중소기업 연구개발 지원금 배분 방식은 중소기업이 연구개발 지원금 수령 액수 제고를 목적으로 연구성과지표 개선 및 연구개발비 지출 확대를 시도할 유인을 제공하고 있지만, 기업경영실적을 제고할 유인은 부족함을 시사한다.
이를 위하여 본 논문은 한국과학기술평가원에서 구축한 중소기업 연구 개발 지원금 자료에 그래디언트 부스팅 모형을 적용하여 중소기업 연구개발 지원금 추정모형을 개발하였고, 순열중요도 분석을 시행하여 추정오차 축소 효과가 큰 변수를 선정하였으며, 선정된 변수의 부분의존도 및 SHAP 값을 분석 하여 지원금 추정치를 증가시키는 독립변수를 파악하였다. 추정 결과 선형회귀분석 응용모형에 비해서 평균제곱근오차를 7.20% 개선하는 지원금 추정모형을 개발하였고, 연구개발성과 지표 및 연구개발비 지출이 추정오차를 줄이는 효과가 큰 독립변수임을 확인하였으며, 연구성과지표가 좋고 연구개발비 지출이 많은 기업의 지원금 추정치가 커지는 경향을 확인하였다. 그리고 총자본회전율이 낮고, 영업이익이 음의 값을 갖고, 판매비 및 관리비 지출이 큰 기업의 지원금 추정치가 커지는 경향을 확인하였다.
20% 개선하는 지원금 추정모형을 개발하였고, 연구개발성과 지표 및 연구개발비 지출이 추정오차를 줄이는 효과가 큰 독립변수임을 확인하였으며, 연구성과지표가 좋고 연구개발비 지출이 많은 기업의 지원금 추정치가 커지는 경향을 확인하였다. 그리고 총자본회전율이 낮고, 영업이익이 음의 값을 갖고, 판매비 및 관리비 지출이 큰 기업의 지원금 추정치가 커지는 경향을 확인하였다. 본 논문의 결과는 정부의 중소기업 연구개발 지원금 배분 방식이 연구성과 개선 및 연구비 투자 증대 유인은 제공할 수 있지만, 기업경영을 개선할 유인은 부족함을 시사한다.
그리고 총자본회전율이 낮고, 영업이익이 음의 값을 갖고, 판매비 및 관리비 지출이 큰 기업의 지원금 추정치가 커지는 경향을 확인하였다. 본 논문의 결과는 정부의 중소기업 연구개발 지원금 배분 방식이 연구성과 개선 및 연구비 투자 증대 유인은 제공할 수 있지만, 기업경영을 개선할 유인은 부족함을 시사한다.
이 경우에는 종속변수를 지원금이 0 인 경우, 지원금이 0 이상이지만 임계점을 넘지 않는 경우, 그리고 지원금이 임계점을 넘는 경우를 나타내는 이산변수로 전환하여 분석하면 보다 추정 성과가 좋은 모형을 개발할 가능성이 있다. 둘째, 본 논문의 결과는 중소기업 연구개발 지원금이 기업성과가 좋은 기업보다는 연구성과가 좋은 기업에게 우선 제공되고 있을 가능성을 시사한다. 정부 연구개발 지원의 궁극적인 목적이 기업의 경영성과 제고임을 감안하면, 연구개발 지원을 통해 경영성과 개선 유인을 제고할 수 있는 제도개선이 필요하다.
후속연구
8조 원의 연구개발 지원금을 포괄한다. 이 자료는 내부자료로서 보다 최신 상황을 묘사한 유사한 자료는 입수가 어려웠고, 본 논문에는 사용하지 못하였다. 본 논문에서 사용한 연구개발 지원금 자료의 연도별 추이는 다음 [Table 1]과 같다.
또한, 본 연구는 기계학습 연구의 관점에서도 최근의 연구성과인 부분의존도와 SHAP 값을 사용하여 기계학습 연구 결과의 정책적인 활용도를 제고하였다. 본 연구에서 개발한 중소기업 연구개발 지원금 추정모형은 중소 기업 지원을 담당하는 정책부서에서는 중소기업 지원금 배분 현황을 파악하는 도구로 활용할 수 있으며, 중소기업의 연구개발 지원금 지원 시에 지원금을 예측하고 연구개발 지원금 수령액수를 높이기 위해 필요한 요인을 파악하는 도구로 활용할 수 있을 것으로 기대한다.
반면, 본 논문에서 개발한 모형은 기업경영지표와 연구성과지표들을 폭넓게 활용했고 추정모형 후보군도 다양하게 활용했음에도 불구하고 지원금 추정모형 내에서 지원금이 큰 구간에서 추정오차가 커지는 한계가 있었다. 그리고 본 논문에서 사용한 자료는 2010년 이전의 자료이므로, 최근 10년간의 변화를 반영하지 못하였다는 한계는 존재한다.
반면, 본 논문에서 개발한 모형은 기업경영지표와 연구성과지표들을 폭넓게 활용했고 추정모형 후보군도 다양하게 활용했음에도 불구하고 지원금 추정모형 내에서 지원금이 큰 구간에서 추정오차가 커지는 한계가 있었다. 그리고 본 논문에서 사용한 자료는 2010년 이전의 자료이므로, 최근 10년간의 변화를 반영하지 못하였다는 한계는 존재한다. 단, 본 논문에서 사용한 자료는 국가 연구개발 사업 관련 자료이고, 국가 연구개발 사업의 효율성에 대한 문제제기는 2010년 이래 최근까지 지속되고 있다[18, 26].
본 논문의 결과는 다음과 같은 두 가지 추가적 연구과제를 제공한다. 첫째, 우선은 지원금이 큰 구간에서의 추정오차를 낮추기 위한 후속연구가 필요하다. [Figure 2]에서 확인되듯이 추정오차는 지원금 규모가 특정한 임계점을 넘어서면 급격하게 확대되는 경향이 있다.
정부 연구개발 지원의 궁극적인 목적이 기업의 경영성과 제고임을 감안하면, 연구개발 지원을 통해 경영성과 개선 유인을 제고할 수 있는 제도개선이 필요하다. 구체적인 제도개선 관련 연구는 추후의 과제로 돌린다.
참고문헌 (32)
Bergstra, J. S., Bardenet, R., Bengio, Y., and Kegl, B., Algorithms for hyper-parameter optimization, NIPS'11: Proceedings of the 24th International Conference on Neural Information Processing Systems, pp. 2546-2554, 2011.
Bloom, N., Reenen, J. V., and Williams, H., "A Toolkit of Policies to Promote Innovation," Journal of Economic Perspectives, Vol. 33, No 3, pp. 163-84, 2019.
Chang, W. H., "Is Korea's Public Funding for SMEs Achieving Its Intended Goals?," KDI Focus, No. 63, 2016. 2. 3.
Choi, J. M., "A Study of the Effects of Government R&D Support on Product Innovation in Small and Medium-sized Enterprises(SMEs): Focusing on the Moderating Effect of Firm Characteristics," Korean Journal of Public Administration, Vol. 56, No. 2, pp. 213-248, 2018.
Cin, B., Kim, Y., and Vonortas, N. S., "The Impact of Government R&D Subsidy on Firm Performance: Evidence from Korean SMEs," Small Business Economics, Vol. 48, No. 2, pp. 345-360, 2017.
Fisher, A., Rudin, C., and Dominici, F., "All Models are Wrong, but Many are Useful: Learning a Variable's Importance by Studying an Entire Class of Prediction Models Simultaneously," Journal of Machine Learning Research, Vol. 20, No. 177, pp. 1-81, 2019.
Friedman, J. H., "Greedy function approximation: a gradient boosting machine," Annals of statistics, Vol. 29, No. 5, pp. 1189-1232, 2001.
Gerath, J., Witten, D., Hastie, T., and Tibshirani, R., An Introduction to Statistical Learning, New York: Springer, 2013.
Hall, B. H. and Lerner, J., Chapter 14-The financing of R&D and innovation, In Handbook of the Economics of Innovation, Vol. 1, pp. 609-639, 2010.
Hong, J. P. and Kim, J. H., "Impacts of Financial Policies for SMEs on Firms Performance: Role of Supplier Network between Large Firms and SMEs," Journal of Korean Economic Analysis, Vol. 21, No. 3, pp. 185-240, 2015.
Ivezic, Z., Connolly, A. J., VanderPlas, J. T., and Gray, A., Statistics, Data Mining, and Machine Learning in Astronomy: A Practical Python Guide for the Analysis of Survey Data. Princeton University Press, 2019.
Ji, M. W., "Did Legal Criteria for Receiving Governmental Support Cause a Negative Effect in Employment Growth of SMEs?:Evidence from the Korean Manufacturing Industry," The Journal of Korean Public Policy, Vol. 17, No. 3, pp. 3-31, 2015.
Jun, B. W. and Choi, E., "Review on Tax Expenditures for Small-and-Mid Sized Firms," Asia Pacific Journal of Small Business, Vol. 37, No. 3, pp. 1-24, 2015.
Kang et al., "An empirical Study on the Impact of Government R&D Investment on SMEs in Korea," Korea Institute of S&T Evaluation and Planning, Report no. 2016-027, 2016.
Kang et al., "Big Data Analysis: Application to Environmental Research and Service II," Korea Environment Institute, 2018.
Kang et al., "Big Data Analysis: Application to Environmental Research and Service," Korea Environment Institute, 2017.
Kim, K. H. and Yang, J. Y., "Government R&D Support and Apply Strategy for SMEs," Regional Industry Review, Vol. 41, No. 3, pp. 299-324, 2018.
Kim, K. W., Kim, J., Shin, J. K., and Hong, S. B., How to Improve the efficiency of Government R&D Investment, Korea Development Institute, 2011.
Ko, H. S., Chung, Y. H., Seo, H. K., and Song, L. K., "A Study on the Effectiveness of the SMEs Consulting Support Project:Focused on Hidden Champion Business Supporting in Daejeon," Asia Pacific Journal of Small Business, Vol. 38, No. 1, pp. 169-188, 2016.
Kuhn, M. and Johnson, K., Applied predictive modeling(Vol. 26), New York: Springer, 2013.
Lee, D. H. and Kim, K. H., "Deep Learning Based Prediction Method of Long-term Photovoltaic Power Generation Using Meteorological and Seasonal Information," The Journal of Society for e-Business Studies, Vol. 24, No. 1, pp. 1-16, 2019.
Lerner, J., Boulevard of broken dreams:why public efforts to boost entrepreneurship and venture capital have failed and what to do about it. Princeton University Press, 2009.
Lundberg, S. M. and Lee, S. I., "A unified approach to interpreting model predictions," In Advances in neural informatio processing systems (pp. 4765-4774), 2017.
Lundberg, S. M., Erion, G. G., and Lee, S. I., "Consistent individualized feature attribution for tree ensembles," arXiv preprint arXiv:1802.03888, 2018.
National Assembly Budget Office, Analysis on Government R&D Program : Overview, Seoul, 2019.
OECD, The SME Financing Gap (Vol. I):Theory and Evidence, OECD Publishing, Paris, 2006.
Pyo, H. H. and Choi, H. H., "The Effects of Export Promotion on Korean Manufacturing SMEs' Performance," Kukje Kyungje Yongu, Vol. 24, No. 3, pp. 29-56, 2018.
Strobl, C., Boulesteix, A., Zeileis, A., and Hothorn, T., "Bias in random forest variable importance measures: Illustrations, sources and a solution," BMC Bioinformatics, Vol. 25, No. 8, pp. 1-21, 2007.
Zhao, Q. and Hastie, T., "Causal interpretations of black-box models," Journal of Business & Economic Statistics, DOI:10.10870/07350015, 2019.
Zuniga-Vincente, J. A., Alonso-Borrego, C., Forcadell, F. J., and Galan, J. I., "Assessing the effect of public subsidies on firm R&D investment: a survey," Journal of Economic Surveys, Vol. 28, No. 1, pp. 36-67, 2014
※ AI-Helper는 부적절한 답변을 할 수 있습니다.