Professional Field

ETL : Airflow / DW(Snowflake) | AI : Python | BI : Tableau / Power BI

딥러닝 4

[ML/DL] NLP BERT 감정분석

감정분석이란 텍스트 내에는 사람의 감정이 표현되지 않지만 어떠한 특정 단어와 문장의 흐름을 통해 식별할 수 있다.이를 분석하는 것이 감정분석이며, 감정 및 평가를 식별하는 자연어 처리의 한 분야이다.  이번에는 감정분석 라이브러리 중 하나인 BERT에 대해 공부해보려고 한다. BERT의 주요 특징은  1. 양방향 인코딩이 가능한 점이 있다. 텍스트의 앞뒤 문맥을 고려해서 해당 단어가 문장에서 어떤 의미를 가지고 있는지를 구별한다. 예를 들어 동음이의어인 사과가 있다면, 너에게 사과할게 / 사과는 빨개  같은 서로 다른 의미를 해석할 수 있다. 2. 대규모 데이터셋이 이미 훈련되어 있기 때문에 사용자가 잘 조절한다면 효율적으로 사용이 가능하다. 3. NLP에는 RNN/LSTM 구조가 들어가게 되는데 여기서..

Scientist/ML.DL 2024.07.15

[ML/DL] Boosting 알고리즘 - XGBoost

XGBoost 는 Xtreme Gradient Boosting으로, 관련된 논문은 다음과 같다.https://dl.acm.org/doi/abs/10.1145/2939672.2939785 XGBoost | Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data MiningPublication History Published: 13 August 2016dl.acm.org 랜덤 포레스트와 같은 앙상블 기법이지만 랜덤포레스트는 배깅을 사용하고 XGBoost는 부스팅을 사용한다.(균형 트리 방식이다.)보통은 대규모 데이터셋을 사용하거나, 변수가 많을 때, 해석보다는 성능이 우선시 되는 상황에서 주로 사용을..

Scientist/ML.DL 2024.07.12

[ML/DL] 과대적합 및 과소적합

과대적합과 과소적합은 데이터 모델을 사용할 때 어느정도 신뢰성이 있는지 판단할 수 있도록 돕는 개념이다. 과대적합 (Overfitting)과대적합은 모델이 학습 데이터에 너무 잘 맞춰져서, 새로운 데이터에 대해 일반화하지 못하는 경우를 말한다. 즉, 모델이 학습 데이터의 노이즈와 세부사항까지 학습하여 복잡한 패턴을 잡아내지만, 실제로는 이 패턴이 새로운 데이터에는 적용되지 않는 경우이다. ex) 출처 : ChatGPT 시험 준비:학생이 특정 시험의 기출문제만 집중적으로 공부하여, 기출문제에서는 높은 점수를 받지만, 시험에서 예상하지 못한 새로운 유형의 문제가 나오면 점수가 낮아지는 경우. 이 학생은 기출문제의 패턴에 너무 맞춰져 있지만, 시험 전체에 대한 이해가 부족한 상황입니다.요리 레시피:어떤 요리사..

Scientist/ML.DL 2024.07.12

[ML/DL] Youtube 조회수 분석

팀 프로젝트를 통해 머신러닝과 딥러닝을 배우게 되면서 이론적으로는 알겠는데 실제로 무슨 차이가 있는것인지 궁금하여 시작하게 된 유튜브 조회수에 대한 프로젝트를 진행했다.  Kaggle에서 Youtube Korea에 대한 데이터셋을 제공해주어 이를 토대로 분석을 시도하였다.조회수가 잘 나오게하려면 어떤 변수들이 상관관계를 가지고 종속변수에 영향을 주는지 확인해보는 방향으로 개발을 진행 하였다. 1. 변수를 선정한다. 조회수는 Views 나머지 변수는 tags, channel_title, comment_count, likes, dislikes 등이 있다. 2. 먼저 데이터셋을 분석하기 위해 각각의 변수를  피처 스케일링 작업을 진행하였다. 피처 스케일링 작업이란 모델의 성능을 더 좋게 만들기 위해서 데이터의..

Portfolio 2024.07.12