본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.
본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.
In this paper, we analyzed the relationship between user query keywords that is used to search NDSL and technical terms extracted from NDSL journals. For the analysis, we extracted about 833,000 query keywords from NDSL search logs during nearly 17 months and approximately 41,000,000 technical terms...
In this paper, we analyzed the relationship between user query keywords that is used to search NDSL and technical terms extracted from NDSL journals. For the analysis, we extracted about 833,000 query keywords from NDSL search logs during nearly 17 months and approximately 41,000,000 technical terms from NDSL, INSPEC, FSTA journals. And we used only the English noun phrase in extracted those and then we did an experiment on analysis of equality, relationship analysis and frequency analysis.
In this paper, we analyzed the relationship between user query keywords that is used to search NDSL and technical terms extracted from NDSL journals. For the analysis, we extracted about 833,000 query keywords from NDSL search logs during nearly 17 months and approximately 41,000,000 technical terms from NDSL, INSPEC, FSTA journals. And we used only the English noun phrase in extracted those and then we did an experiment on analysis of equality, relationship analysis and frequency analysis.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 검색 질의어로부터 추출한 키워드의 빈도수를 조절하면서 기술용어와의 일치성 및 연관성을 조사하였다. 일치성 및 연관성은 exact match, related match, mismatch로 구분하여 실험하였으며, 150회 이상 반복된 검색 키워드는 기술용어일 확률이 약 85% 이상 된다는 결과를 얻어냈다.
기술용어는 개념간의 관계를 기반으로 지식을 표현하는 것으로써 과학기술 정보의 정리, 기술이전의 기초, 언어의 인덱싱, 시소러스, 분류체계 등에 기초가 된다. 본 논문에서는 이러한 기술용어와 검색 질의어와의 관계를 분석하였다.
검색 질의어로 빈번하게 사용된 키워드가 최근 또는 그 이전부터 이슈화되어 활발히 진행되고 있는 연구 분야 또는 특정 기술 등을 찾는데 도움이 될 수 있을까? 또한 검색 질의어로 사용된 수많은 키워드 중에서 특정 기술을 정확히 표현하는 것은 얼마나 될까? 본 논문은 위와 같은 질문을 해결하기 위하여 검색 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어를 대상으로 이들 간의 연관성, 기술용어에 대한 빈도수 분석 등을 실험한다.
제안 방법
NDSL 로그 데이터베이스에 저장된 검색식에서 제목과 초록항목에 입력된 키워드와 NDSL, FSTA, INSPEC 영문 학술지 데이터베이스에서 추출한 기술용어간의 관계 분석을 수행하였다. 추출과 분석에 사용된 키워드와 기술용어는 2어절 이상의 영문을 사용하였고, 이들 간의 관계 분석은 키워드와 기술용어간의 연관성, 일치성, 빈도수 분석 등이다.
본 논문의 실험을 위하여 영어로 구성된 데이터베이스와 검색 질의어가 필요하며, 이를 위해 NDSL, INSPEC, FSTA 3개 영문 데이터베이스와, NDSL 로그 데이터베이스를 사용하였고, INSEPC과 FSTA 로그 데이터베이스는 수집 불가로 인하여 본 실험에서는 제외되었다. 검색 키워드는 NDSL 로그 데이터베이스에 저장된 검색식에서 제목과 초록 항목에 입력된 키워드 중 2어절 이상의 영문 키워드만을 추출하였다. 기술용어는 NDSL, INSPEC, FSTA 3개 영문 데이터베이스로부터 2어절 이상의 영문 단어만을 추출하였으며, 추출 대상 항목은 제목과 초록 2개로 한정하였다.
본 실험에서의 추출 대상 검색 질의어는 NDSL 전체 분야 즉, 과학기술분야를 포함한 인문과학, 사회과학 등을 대상으로 검색한 질의어이며, 추출 방법은 과 같은 단계로 진행되고 각 단계별 추출 건수를 표기하였다.
대상 데이터
2007년 1월부터 2008년 5월까지 약 17개월 동안의 NDSL 검색 질의어 약 427만여건을 대상으로 약 83만 3,000건의 다어절 키워드를 추출하였다. 본 실험에서의 추출 대상 검색 질의어는 NDSL 전체 분야 즉, 과학기술분야를 포함한 인문과학, 사회과학 등을 대상으로 검색한 질의어이며, 추출 방법은 <그림 1>과 같은 단계로 진행되고 각 단계별 추출 건수를 표기하였다.
3개 영문 학술지 데이터베이스의 데이터 4,141만5,046건을 대상으로 기술용어를 추출하였으며 그 과정은 와 같다.
INSPEC 데이터베이스는 컴퓨터, 제어공학, 전기, 전자, 물리 등에 관한 학술 정보를 제공하는 데이터베이스로 본 논문에서는 955만 6,847건을 사용하였다. NLDS 데이터베이스는 전체 데이터 중에서 3,109만4,899건을 사용하여, 전체 대상 데이터 4,141만5,046건을 사용하였다.
NDSL 검색 시스템에서는 이용자에게 제목, 초록, 년도, 저자 등 다양한 검색 항목을 제공하는데, 3단계에서는 제목과 초록 항목에 입력된 단어를 대상으로 다어절 영문 키워드를 추출한다. 그리고 질의어 연산자(AND, OR, WITHIN 등)는 제거하고, 추출된 결과는 분석 대상으로 선정하여 기술용어 매칭에 사용한다. 본 논문에서는 영문 다어절 키워드만을 대상으로 하는데, 한글로 구성된 키워드를 제외시키는 이유는 다음과 같다.
검색 키워드는 NDSL 로그 데이터베이스에 저장된 검색식에서 제목과 초록 항목에 입력된 키워드 중 2어절 이상의 영문 키워드만을 추출하였다. 기술용어는 NDSL, INSPEC, FSTA 3개 영문 데이터베이스로부터 2어절 이상의 영문 단어만을 추출하였으며, 추출 대상 항목은 제목과 초록 2개로 한정하였다.
그리고 질의어 연산자(AND, OR, WITHIN 등)는 제거하고, 추출된 결과는 분석 대상으로 선정하여 기술용어 매칭에 사용한다. 본 논문에서는 영문 다어절 키워드만을 대상으로 하는데, 한글로 구성된 키워드를 제외시키는 이유는 다음과 같다. 일반적인 기술용어에 있어서, 단일명사로 이루어진 것보다 복합명사로 이루어진 용어 또는 여러 개의 단어가 하나의 기술용어를 구성하는 경우가 많은데, 다어절 한글 용어의 경우에는 띄어쓰기, 영어식 발음표기 등의 문제로 인한 정확한 용어 매칭이 어려울 수 있기 때문이다.
본 논문에서는 영문 학술지 데이터베이스를 대상으로 다어절 기술용어를 추출하기 위하여 FSTA(Food Science and Technology Abstracts), INSPEC(Information Services for the Physics and Engineering Communities), NDSL 3개의 대용량 데이터베이스를 사용한다. FSTA 데이터베이스는 전 세계 식품과학, 식품공학, 식품기술 및 음식과 관련된 식품 영양학에 관한 광범위한 초록정보를 제공하는 데이터베이스로 기술용어 추출을 위해 76만 3,300건의 레코드를 사용하였다.
본 논문의 실험을 위하여 영어로 구성된 데이터베이스와 검색 질의어가 필요하며, 이를 위해 NDSL, INSPEC, FSTA 3개 영문 데이터베이스와, NDSL 로그 데이터베이스를 사용하였고, INSEPC과 FSTA 로그 데이터베이스는 수집 불가로 인하여 본 실험에서는 제외되었다. 검색 키워드는 NDSL 로그 데이터베이스에 저장된 검색식에서 제목과 초록 항목에 입력된 키워드 중 2어절 이상의 영문 키워드만을 추출하였다.
2단계에서는 청킹과 품사 태깅이 완료된 데이터에 대해서 기술용어 여부를 판단하는데, 추출된 다어절의 데이터가 <그림 2>의 용어목록에 있는지를 조사하여 해당 용어가 존재하는 경우에 기술용어로 판단하고, 기술용어로 판단된 것에 대해서는 별도의 태깅(B:시작, E;끝, TT:기술용어, KW: 키워드) 작업을 수행한다. 여기서 사용하는 용어목록은 3개의 용어집으로 전체 용어 수는 285만274개이며, 각 용어집은 원시 데이터 중 키워드 항목에서 2어절 이상의 단어를 추출하여 만든 15만8,621개 용어와 전문용어언어공학연구센터(KORTERM : Korea Terminology Research Center for Language and Knowledge Engineering)의 전문용어사전에서 추출한 25만3,603개 전문용어, 그리 고 위키피디아 용어집 중에서 2어절 이상의 243만8,050개 용어를 사용하였다. <표 7>은 기술용어 추출 과정을 예로써 나타낸 것이다.
원시 데이터는 학술지 서지 정보로 제목, 저자, 발행일자, 키워드, 초록 등 많은 항목을갖고 있으나, 3개 영문 데이터베이스에 공통으로 포함된 항목 중에서 기술용어가 포함될 수 있는 항목인 제목과 초록 정보만을 활용하였다. 그리고 키워드 정보는 아래에 설명했듯이 기술용어 판단을 위해 사용하는 용어목록으로 활용하기 때문에 기술용어 추출에서 제외시켰다.
데이터처리
그리고 키워드 빈도수 100회 이상의 데이터를 대상으로 최근 10년간의 학술지에서 추출한 기술용어와 비교를 통해 빈도수 분석을 수행하였다. 그 결과 빈번하게 검색되는 키워드의 빈도수 분포율이 그렇지 않은 경우와 비교할 때 급격한 증가를 보이고 있음을 알 수 있다.
NDSL 로그 데이터베이스에 저장된 검색식에서 제목과 초록항목에 입력된 키워드와 NDSL, FSTA, INSPEC 영문 학술지 데이터베이스에서 추출한 기술용어간의 관계 분석을 수행하였다. 추출과 분석에 사용된 키워드와 기술용어는 2어절 이상의 영문을 사용하였고, 이들 간의 관계 분석은 키워드와 기술용어간의 연관성, 일치성, 빈도수 분석 등이다.
키워드 빈도수 100회 이상의 데이터를 대상으로 1998년부터 2007년까지 최근 10년간의 기술용어와의 일치성 검토한 결과를 이용하여 년도별 빈도수 분석을 수행하였다. <그림 5>는 기술용어 빈도수 상위 10개를 출력한 것이며 <그림 6>는 각 빈도수를 년도별 데이터베이스 구축건수로 나누어 빈도수에 대한 분포율을 나타낸 것이다.
성능/효과
과 의 그래프를 비교해 볼 때, 키워드와 연관된 기술용어의 출현 빈도가 더 증가하는 모습을 볼 수 있는데, 검색시스템 이용자가 최근에 많이 검색하는 키워드는 해당 분야의 연구 개발 활동이 활발하다는 것을 예측할 수 있을 것이다.
그리고 키워드 빈도수 100회 이상의 데이터를 대상으로 최근 10년간의 학술지에서 추출한 기술용어와 비교를 통해 빈도수 분석을 수행하였다. 그 결과 빈번하게 검색되는 키워드의 빈도수 분포율이 그렇지 않은 경우와 비교할 때 급격한 증가를 보이고 있음을 알 수 있다. 이는 최근에 많이 검색하는 키워드는 해당 분야의 연구 개발 활동이 활발하다는 것을 예측할 수 있다.
기술용어별 빈도수를 알아보기 위하여 1998년부터 2007년까지 10년간 각 년도별 기술용어 빈도수가 상위 1,000개인 것들을 합하였더니 1,430개의 기술용어들이 나타났다. <표 8>은 그 중 일부를 보이고 있다.
<그림 1>에서 전체 검색 질의어 427만여건에서 유니크 질의어는 118만4,000여건으로 약 73%의 질의어가 반복됨을 알 수 있다. <표 2> 분포도에서 알 수 있듯이 질의어 빈도수가 1회인 경우 약 59%, 2회에서 10회인 경우 35%를 차지하고 있어 10회 이내의 빈도수를 갖는 질의어는 전체의 약 94.6%로 나타났다. 그러나 2007년 1월부터 2008년 5월까지의 질의어 중에서 11회 이상 반복된 검색의 경우, 질의어는 약 6만 2,000개, 검색 횟수로는 약 206만1,000건이나 된다는 것을 알 수 있다.
<표 3>은 빈도수 상위 15개의 검색 질의어를 나열한 것이다. 상위 15개 검색 질의어 중에서 분석 대상이 되는 2어절 이상의 키워드는 5개로 나타났으며, 대부분 이용자들이 1개 단어를 검색으로 활용하는 것을 예측할 수 있다.
<표 9>는 검색 질의어에서 추출한 키워드 중 빈도수 10회 이상의 키워드 5만1,749건을 대상으로 1980년부터 2007년까지의 기술용어와 일치 여부를 실험한 결과이다. 실험 결과로써 exact match와 related match는 키워드와 기술용어간의 관계를 지을 수 있다고 판단하므로, 약 29%가 키워드와 기술용어가 일치한다고 할 수 있다. 그러나 mismatch의 경우 약 71%로 높은 비율을 차지하므로, 이것에 대한 분석이 필요할 것이다.
<표 2>는 2단계에서 추출된 검색 질의어의 빈도별 건수를 나타낸 것이다. <그림 1>에서 전체 검색 질의어 427만여건에서 유니크 질의어는 118만4,000여건으로 약 73%의 질의어가 반복됨을 알 수 있다. <표 2> 분포도에서 알 수 있듯이 질의어 빈도수가 1회인 경우 약 59%, 2회에서 10회인 경우 35%를 차지하고 있어 10회 이내의 빈도수를 갖는 질의어는 전체의 약 94.
본 논문에서는 검색 질의어로부터 추출한 키워드의 빈도수를 조절하면서 기술용어와의 일치성 및 연관성을 조사하였다. 일치성 및 연관성은 exact match, related match, mismatch로 구분하여 실험하였으며, 150회 이상 반복된 검색 키워드는 기술용어일 확률이 약 85% 이상 된다는 결과를 얻어냈다.
추출이 완료된 기술용어집합은 과 같이 문헌 종류(TP), 기술용어(TT)와 그 용어가 나타난 논문의 발행년도(YE), 년도별 빈도수(CNT), 논문의 관리번호(ANS) 5개 항목으로 구성되어 전체 1억9,315만1,686건이 추출되었으며, 유니크 기술용어만으로는 97만5,158건이 추출되었다.
후속연구
검색 질의어로 빈번하게 사용된 키워드가 최근 또는 그 이전부터 이슈화되어 활발히 진행되고 있는 연구 분야 또는 특정 기술 등을 찾는데 도움이 될 수 있을까? 또한 검색 질의어로 사용된 수많은 키워드 중에서 특정 기술을 정확히 표현하는 것은 얼마나 될까? 본 논문은 위와 같은 질문을 해결하기 위하여 검색 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어를 대상으로 이들 간의 연관성, 기술용어에 대한 빈도수 분석 등을 실험한다.
검색 키워드와 기술용어간의 관계를 좀 더 세밀하게 파악하기 위하여 1어절의 영어 단어에 대한 추출 및 분석이 필요할 것이다. 하지만 1어절 단어가 기술용어인지 일상용어인지에 대한 판단은 단어 자체로만 판단할 수 있는 것이 아니라 단어가 포함된 문헌의 분야, 문장 또는 문맥 등의 다양 주변 요소들을 함께 분석해야하는 과정이 필요하다.
일반적인 연구 동향 파악은 특정 기술 또는 분야에 한정하는 경우가 대부분이지만, 본 논문을 통해 분석된 결과는 다양한 기술 또는 다양한 분야에 대한 기술 추이 분석 등 연구 동향을 파악하는데 도움이 될 수 있을 것이다. 또한 높은 빈도수를 갖는 키워드를 분석한다면 최근 중요하게 이슈화되는 기술들에 대한 동향 파악도 가능할 것이다.
하지만 1어절 단어가 기술용어인지 일상용어인지에 대한 판단은 단어 자체로만 판단할 수 있는 것이 아니라 단어가 포함된 문헌의 분야, 문장 또는 문맥 등의 다양 주변 요소들을 함께 분석해야하는 과정이 필요하다. 이러한 분야, 문장 또는 문맥 등 분석을 통한 1어절 영어 단어와의 연관성 파악은 향후 연구과제로 남긴다.
일반적인 연구 동향 파악은 특정 기술 또는 분야에 한정하는 경우가 대부분이지만, 본 논문을 통해 분석된 결과는 다양한 기술 또는 다양한 분야에 대한 기술 추이 분석 등 연구 동향을 파악하는데 도움이 될 수 있을 것이다. 또한 높은 빈도수를 갖는 키워드를 분석한다면 최근 중요하게 이슈화되는 기술들에 대한 동향 파악도 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
기술용어는 어떻게 정의할 수 있는가?
기술용어는 전문용어와 동일한 의미를 갖고 있으며, 특정 기술의 개념을 표현하기 위한 언어적 기호라고 정의할 수 있다. 즉, 한 특정 분야의 개념적 정보와 표현의 총체를 용어, 코드, 그래픽 또는 비언어적 기호 및 정의 혹은 다른 서술적 표현을 통하여 나타낸 것이다.
JTextPro는 어떠한 것들에 활용할 수 있도록 개발되었는가?
1단계에서는 원시 데이터의 제목과 초록 정보를 JTextPro를 활용해 청킹과 품사 태깅을 수행한다. JTextPro는 Java 기반의 텍스트 처리를 위한 도구로써 자연어 처리, 텍스트 또는 웹 데이터 마이닝, 정보 추출 등에 활용할 수 있도록 개발되었다. 2단계에서는 청킹과 품사 태깅이 완료된 데이터에 대해서 기술용어 여부를 판단하는데, 추출된 다어절의 데이터가 <그림 2>의 용어목록에 있는지를 조사하여 해당 용어가 존재하는 경우에 기술용어로 판단하고, 기술용어로 판단된 것에 대해서는 별도의 태깅(B:시작, E;끝, TT:기술용어, KW: 키워드) 작업을 수행한다.
키워드와 기술용어 간의 일치성 분석을 위한 실험 방법은 어떠한 과정으로 진행되는가?
키워드와 기술용어 간의 일치성 분석을 위한 실험 방법은 다음과 같다. 추출한 기술용어는 데이터베이스에 저장시키고, 키워드를 변수로 활용하여 두 용어간의 일치여부를 판단하였으며, SQL의 equal 연산자로 매치되는 경우 exact match, exact match가 아니면서 like 연산자로 매치되는 경우 related match, 앞의 두 경우가 모두 아닐 경우 mismatch로 판단한다. Related match는 exact match는 아니지만, 연관된 기술용어가 존재한다고 판단할 수 있는데, 예를 들어 키워드가 ‘signal to noise’일 때, 기술용어가 ‘signal to noise ratio’, ‘signal to noise statistic’등의 경우라면 related match로 판단한다.
오종훈, 이경순, 최기선. 2002. 분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출. 정보과학회논문지: 소프트웨어 및 응용, 29(3/4): 258-269.
오종훈. 2000. 전문분야 사전과 코퍼스 및 외래어 인식에 기반한 전문용어 추출. 석사학위논문, 한국과학기술원, 전산학과.
Alan L.Porter, Scott W. Cunningham. 2004. Tech Mining : Exploiting New Technologies for Competitive Advantage. New York: John Wiley & Sons, Inc.
Michael J. Cafarella, Christopher Re, Dan Suciu, Oren Etzioni, Michele Banko. 2007. “Structured Query of Web Text.” 3rd Biennial Conference on Innovative Data Systems Research.
Michael J. Cafarella, Oren Etzioni. 2005. “A Search Engine for Natural Language Applications.” International World Wide Web Conference Committee.
Doug Downey, Stefan Schoenmackers, Oren Etzioni. 2007. “Sparse Information Extraction : Unsupervised Language Models to the Rescue.” ACL2007.
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead, Oren Etzioni. 2007. “Open Information Extraction from the Web.” IJCAI-07 Proceedings, 2670-2676.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.