Professional Field

ETL : Airflow / DW(Snowflake) | AI : Python | BI : Tableau / Power BI

NLP 3

[ML/DL] NLP GRU를 이용한 해외영상 댓글 감정분석

NLP를 이용한 감정분석을 해보기 위해 Kaggle에서 Comment에 관련된 데이터셋을 확보하였다.https://www.kaggle.com/datasets/nipunarora8/most-liked-comments-on-youtube MOST LIKED COMMENTS ON YOUTUBEYoutube Comments Datasetwww.kaggle.com 좋아요가 많이 달린 영상에 댓글을 가져온 것인데 대부분의 댓글의 어떤 내용이 들어가 있으면 좋아요를 많이 받을 수 있을까라는 주제로 분석을 하려고 한다.  먼저 데이터셋을 불러와서 COMMENT 컬럼 데이터를 VADER의 SentimentIntensityAnalyzer() 라이브러리로 감성분석을 진행해 positive / negative / neutra..

Portfolio 2024.07.18

[ML/DL] NLP 토크나이저 종류

Dacon에서 주최하는 재정정보 AI 검색 알고리즘 경진대회의 데이터로 토크나이저 종류를 알아보려고한다. 먼저, 데이터는 40개의 columns과 60만개의 Train set 으로 구성을 확인해보았다. 토크나이저는 텍스트 나누기를 진행하는데, 모델에 학습시키는 구성으로 변경을 하기 위해서이다.교육을 진행할 때 단어들의 조합을 통해 더미데이터로 변환시켜 모델을 완성하고, 텍스트 분류모델을 생성할 수 있다. 토크나이저는 대표적으로 4가지로 분류가 된다.단어 토크나이징 (Word Tokenization):텍스트를 단어 단위로 분할합니다.예시: "I love Python programming." -> ["I", "love", "Python", "programming", "."]문장 토크나이징 (Sentence ..

Scientist/ML.DL 2024.07.17

[ML/DL] NLP BERT 감정분석

감정분석이란 텍스트 내에는 사람의 감정이 표현되지 않지만 어떠한 특정 단어와 문장의 흐름을 통해 식별할 수 있다.이를 분석하는 것이 감정분석이며, 감정 및 평가를 식별하는 자연어 처리의 한 분야이다.  이번에는 감정분석 라이브러리 중 하나인 BERT에 대해 공부해보려고 한다. BERT의 주요 특징은  1. 양방향 인코딩이 가능한 점이 있다. 텍스트의 앞뒤 문맥을 고려해서 해당 단어가 문장에서 어떤 의미를 가지고 있는지를 구별한다. 예를 들어 동음이의어인 사과가 있다면, 너에게 사과할게 / 사과는 빨개  같은 서로 다른 의미를 해석할 수 있다. 2. 대규모 데이터셋이 이미 훈련되어 있기 때문에 사용자가 잘 조절한다면 효율적으로 사용이 가능하다. 3. NLP에는 RNN/LSTM 구조가 들어가게 되는데 여기서..

Scientist/ML.DL 2024.07.15