단어가방모형이란 bag-of-words model이라고 하며,
Bag of Words란 단어들의 순서와 관계없이, 가방안에서 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다.
단어를 벡터로 표현하기 위해서는 주어진 문장에 쓰인 단어들을 사전 혹은 집합(Vocabulary) 형태로 만들어서 인덱스를 할당해야한다. 단어들의 중복을 허용하지 않아야 한다. (순열, 중복순열, 조합, 중복조합 등)
저장된 단어들은 각각 유니크한 카테고리 변수(Categorical variable)이므로, 원-핫 인코딩(One-hot Encoding)를 이용해 벡터로 표현할 수 있다. 이를 통해 주어진 문장을 원-핫 벡터의 합, 즉 숫자로 표현할 수 있게 된다.
04-02 Bag of Words(BoW)
단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법인 Bag of Words에 대해서 학습합니다. ## 1. Bag of Words란? Bag of Words…
wikidocs.net
'Scientist > ML.DL' 카테고리의 다른 글
[ML/DL] NLP 토크나이저 종류 (0) | 2024.07.17 |
---|---|
[ML/DL] NLP BERT 감정분석 (0) | 2024.07.15 |
[ML/DL] Boosting 알고리즘 - XGBoost (1) | 2024.07.12 |
[ML/DL] 선형회귀분석 변수선택법 + 다중공선성, VIF (0) | 2024.07.12 |
[ML/DL] 과대적합 및 과소적합 (1) | 2024.07.12 |