텍스트 마이닝

From CS Wiki
Text Mining
비정형 텍스트에서 패턴, 관계 등을 분석하여 의미있는 정보를 도출해내는 데이터 마이닝 기법
  • 데이터 마이닝과의 차이
구분 설명
데이터 마이닝 정량화, 구조화된 데이터에서 원하는 정보를 추출하기 위해 통계적, 기계학습적 알고리즘을 적용
텍스트 마이닝 대량의 비정형 텍스트에 요약, 분류, 군집화 등을 적용하여 새로운 정보 도출

주요 기법[edit | edit source]

  • 텍스트 마이닝 기반 기술
기법 내용
정보 추출

(Information Extraction)

  • 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업
  • 원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출
문서 분류

(Classification)

  • 분서분류 : 키워드에 따라 문서를 분류
  • 문서 클러스터링 : 문서 분석하여 동일내용의 문서들을 묶는 기법
문서요약

(Summarization)

  • 문서의 중요 내용을 추출하여 짧은 글로 요약
  • 텍스트 마이닝 응용 기술
응용 기술 내용
Web Mining 웹사이트에 텍스트 마이닝 기법을 적용하여 사용자들의 사용성 증대
Concept Linkage 여러 문서들에서 공유되고 있는 의미를 발견
Question Answering 사람이 자연어로 질문을 던지면, 문서에서 답을 찾아 제공
Topic Tracking 사용자 프로필 기반으로 관심있어 할 문서를 추출하여 제공