자연어처리 2

자연어 처리(2) - Word2Vex

1. Count-based vs Prediction-based 방식 설명 예시 Count-based단어와 문맥이 같이 등장한 횟수(빈도)를 세는 방법동시발생행렬, PMI, PPMIPrediction-based어떤 단어가 등장할지 예측하는 방법Word2Vec (CBOW, Skip-gram) 2. Word2Vec (2013, Google)단어를 의미 기반의 실수 벡터로 변환하는 분산표현 학습 기법 중 하나Prediction-based 방식의 대표적인 모델✅ CBOW (Continous Bag Of Words)주변에 있는 단어들을 입력으로 중간에 있는 단어들을 예측하는 방법(ex. "I __ to school" → "go"를 예측)✅ Skip-gram중간에 있는 단어들을 입력으로 주변 단어들을 예측하는..

Study/Deep Learning 2025.06.11

자연어 처리(1) - 단어의 분산표현

1. 시소러스(Thesaurus)와 워드넷(WordNet) ✅ 시소러스 (Thesaurus)비슷한 뜻의 단어들을 묶어놓은 단어 모음 (ex. happy → glad, cheerful, joyful, pleased...)주로 동의어, 반의어 중심으로 구성되어 있으며, 트리처럼 분류하거나 단순히 비슷한 애들을 나열하는 방식✅ 워드넷 (WordNet) 시소러스보다 더 체계적인 단어 네트워크비슷한 의미의 단어 묶음과 의미 관계(상하 관계)를 담고 있음(ex. {car, auto, automobile, motorcar} → 상위어: vehicle → 하위어: taxi, van) ℹ️시소러스와 워드넷의 단점사람이 수작업으로 직접 분류하고 정리함 → 머신러닝의 철학과 정 반대시대 변화에 대응하기 어려움비용단어의 미묘..

Study/Deep Learning 2025.06.05