연구요약
|
“은유 빅데이터 수집하고 분석을 통하여 은유 지식베이스를 구축하고, 구축된 은유 지식베이스로부터 의미적 문맥 정보를 분석하며, 이에 대한 표현방법과 스크립트 생성”을 최종목표로 한다. 이를 위해 (1) 1차년도에는 은유 빅데이터 수집 및 분석을 통한 요소 분석 및 지식베이스를 구축하고, (2) 2차년도에는 의미적 문맥정보를 분석 및 이기종 은유망 매핑에 관한 연구와 (3) 3차년도에는 의미적 은유 표현 인식 및 자동 스크립트 생성에 관한 연구를 진행할 예정이다.
1차년도의 ‘은유 빅데이터 수집 및 분석을 통한 요소 분석 및 지식베이스 구축’을 위해 은유 코퍼스 패턴을 기반으로 소셜 데이터, 멀티미디어 스크립트, 웹 데이터를 이용한 은유 빅데이터를 수집하고, POS(Part of Speech) tagging, Stop Word 제거, 키워드 및 중요 문장 추출, 데이터 마이닝 등의 자연어처리를 이용하여 은유 빅데이터 분석할 예정이다. 또한, 수집된 빅데이터의 다양한 오류에 대해 은유 코퍼스로부터 유추된 패턴을 통해 수집된 은유 빅데이터의 확인 및 검증 작업을 수행한다. 검증된 은유 빅데이터를 통한 N-Gram 구축한 후, 이를 통해 개념과 관계를 추출하여 은유 지식베이스를 구축한다.
2차년도에는 ‘의미적 문맥정보를 분석 및 이기종 은유망 매핑’을 위해 Linked Data를 통해 오픈된 이기종 사이의 은유 지식베이스 통합을 위해 클래스 집합과 관계를 정의하고, 매핑 알고리즘에 의해 온톨로지 요소 사이의 특정 관계를 파악한다. 두 온톨로지 간의 Correspondences는 트리플 형태로 표현하고, 해당 온톨로지 요소 사이의 매핑 신뢰도를 정량화할 수 있는 측정요소를 도출할 예정이다. 이를 통해 은유와 관련된 기존 코퍼스와 어휘 온톨로지의 일종인 WordNet 등을 이용하여 은유 온톨로지의 확장 방안을 연구한다.
또한, 은유 지식베이스를 통해 의미적 어휘 관계 분석을 통해 은유적 표현을 자동으로 추출하는 방법과 은유 지식베이스를 통한 문장 구조 분석 및 패턴 추출 방법을 연구할 예정이다. 본 연구에서는 MLN(Markov Logic Networks) 알고리즘과 딥러닝 알고리즘을 통해 최적의 은유표현 추출 방법을 도출할 예정이다. 마지막으로 의미적 어휘 관계 분석, 문장 구조 분석 및 패턴 추출을 통해 상위 레벨 온톨로지를 설계 및 구축을 통해 은유 지식베이스를 확장하는 방안을 연구한다. 상위 온톨로지를 이용한 은유 온톨로지의 확장은 Linked Data에 연결된 온톨로지 간의 추론과정을 통해 특정 도메인의 의미적인 요소를 추출하고, 추출된 의미적인 요소를 기반으로 상위 온톨로지 모델링을 이용한 일반적 개념 체계를 구축한다. 그리고, Linked Data를 통해 수집된 어휘 집합과 소셜 분석을 통해 추출된 태깅 클러스터링 정보 및 추론을 통해 생성된 특정 분야 은유 정보를 통합하여 은유 온톨로지의 Concept과 Relation을 자동 생성하게 한다.
3차년도에는 ‘의미적 은유 표현 인식 및 자동 스크립트 생성’을 목표로 은유 어휘의 분포 확률에 따라 시각화(Visualization)하는 방법과 N-Gram 데이터를 확률 정보에 따라 시각화하여 다양한 환경에서 활용할 수 있도록 은유 지식베이스의 시각화 방안에 관해 연구한다. 또한, 환유적 표현을 위한 문장 구조 분석 및 패턴 추출을 하여 의미적 어휘 관계 분석, 문장 구조 분석 및 패턴 추출을 통해 상위 레벨 온톨로지를 설계하고 구축하여 은유 지식베이스를 확장할 예정이다. 마지막으로, 은유 지식베이스를 이용한 추론을 통해 사용자가 원하는 맞춤형 대화체 표현 및 스크립트를 생성할 방법을 연구한다. 또한, 자연스러운 대화체의 구성이 필요한 다양한 분야에 활용될 수 있는 방안을 연구할 예정이다.
|