자연어 처리
- 목표: 컴퓨터가 인간의 언어를 ‘이해’하고, 그를 통해 유용한 작업을 수행하는 것
- 정의: 텍스트 또는 음성과 같은 인간의 언어 형식의 데이터를 컴퓨터가 처리하도록 하는 연구 분야
데이터 형식 가공 단계 순서
- 일반 데이터 (Raw Data): 가공되지 않은 원시적인 형태의 텍스트, 음성 데이터
- 정보 (Information): 일반 데이터에서 특정 키워드나 문장을 추출한 유의미한 정보
- 지식 (Knowledge): 정보를 연결 분류 구조화 하여 더 깊은 의미나 패턴을 발견하는 과정 핵심 주제나 트렌드 파악이 예시
자연어 처리 분야
- Information Abstraction/Summarization/Visualization: 큰 데이터나 긴 텍스트를 축약하거나 요약하여 핵심 정보만을 제공하는 연구 분야 ex: Text Analytics
- Document Clustering: 유사한 주제나 내용을 가진 문서들을 자동으로 그룹화하는 기법
- Topic Extraction: LDA (Latent Dirichlet Allocation)주요 주체 찾기, 대량의 텍스트에서 주요 주제나 키워드 파악하는 연구 분야
- Document Categorizatoin/Classification: 주어진 내용이 문서에 들어가 있다면 해당 문서를 이미 정의된 카테고리로 분류하는 연구 분야 ex: 스팸 메일 필터링
- Improve forecasting accuray combined with structured data: 구조화된 데이터와 결합하여 예측 정확도를 향상시키는 연구 분야 ex: 구조화된 주식 주가 정보 + 비구조화된 뉴스, 칼럼 데이터 = 모델 정확도 향상
- Question Answering: 사용자의 질문에 대한 답변을 자동으로 생성하거나 추출하는 기능을 하는 질의응답 시스템 ex: IBM Watson, 장학 퀴즈
- 추출형 (한계가 많이 있다): 문서에서 답을 찾아 사용자에게 반환
- 생성형 (연구가 많이 됨): 학습된 정보를 바탕으로 답을 생성하여 반환