Professional Field

SQL(ORACLE) | AI | BI | 통계분석

머신러닝 5

[ML/DL] NLP BERT 감정분석

감정분석이란 텍스트 내에는 사람의 감정이 표현되지 않지만 어떠한 특정 단어와 문장의 흐름을 통해 식별할 수 있다.이를 분석하는 것이 감정분석이며, 감정 및 평가를 식별하는 자연어 처리의 한 분야이다.  이번에는 감정분석 라이브러리 중 하나인 BERT에 대해 공부해보려고 한다. BERT의 주요 특징은  1. 양방향 인코딩이 가능한 점이 있다. 텍스트의 앞뒤 문맥을 고려해서 해당 단어가 문장에서 어떤 의미를 가지고 있는지를 구별한다. 예를 들어 동음이의어인 사과가 있다면, 너에게 사과할게 / 사과는 빨개  같은 서로 다른 의미를 해석할 수 있다. 2. 대규모 데이터셋이 이미 훈련되어 있기 때문에 사용자가 잘 조절한다면 효율적으로 사용이 가능하다. 3. NLP에는 RNN/LSTM 구조가 들어가게 되는데 여기서..

Scientist/ML.DL 2024.07.15

[ML/DL] Boosting 알고리즘 - XGBoost

XGBoost 는 Xtreme Gradient Boosting으로, 관련된 논문은 다음과 같다.https://dl.acm.org/doi/abs/10.1145/2939672.2939785 XGBoost | Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data MiningPublication History Published: 13 August 2016dl.acm.org 랜덤 포레스트와 같은 앙상블 기법이지만 랜덤포레스트는 배깅을 사용하고 XGBoost는 부스팅을 사용한다.(균형 트리 방식이다.)보통은 대규모 데이터셋을 사용하거나, 변수가 많을 때, 해석보다는 성능이 우선시 되는 상황에서 주로 사용을..

Scientist/ML.DL 2024.07.12

[ML/DL] 선형회귀분석 변수선택법 + 다중공선성, VIF

회귀분석에서 변수 선택법은 종속변수 y에 대한 독립변수 x가 미치는 영향력을 파악하고 유의미한 변수만을 추출하여 분석하기 위함이다. 변수선택법은 세 가지 방법이 존재하는데 1. 전진선택법 2. 후진제거법 3. 단계적선택법이 있다. 1. 회귀분석 전진선택법은 예측 모델을 만들 때 독립 변수를 선택하는 방법 중 하나이다. 이 방법은 단계별로 변수들을 추가해가며 모델을 구축하는 과정에서 가장 유의미한 변수들을 선택한다. 장점은 패턴을 찾기 쉬우며, 직관적이다. 단점은 최적의 변수 조합을 찾기가 어렵다. 독립변수를 차례대로 넣기 때문에 가장 좋은 모형인지 확인이 어렵다. 아래는 전진선택법을 진행하는 과정이다.출처 : https://quantifyinghealth.com/stepwise-selection/# 필요..

Scientist/ML.DL 2024.07.12

[ML/DL] 과대적합 및 과소적합

과대적합과 과소적합은 데이터 모델을 사용할 때 어느정도 신뢰성이 있는지 판단할 수 있도록 돕는 개념이다. 과대적합 (Overfitting)과대적합은 모델이 학습 데이터에 너무 잘 맞춰져서, 새로운 데이터에 대해 일반화하지 못하는 경우를 말한다. 즉, 모델이 학습 데이터의 노이즈와 세부사항까지 학습하여 복잡한 패턴을 잡아내지만, 실제로는 이 패턴이 새로운 데이터에는 적용되지 않는 경우이다. ex) 출처 : ChatGPT 시험 준비:학생이 특정 시험의 기출문제만 집중적으로 공부하여, 기출문제에서는 높은 점수를 받지만, 시험에서 예상하지 못한 새로운 유형의 문제가 나오면 점수가 낮아지는 경우. 이 학생은 기출문제의 패턴에 너무 맞춰져 있지만, 시험 전체에 대한 이해가 부족한 상황입니다.요리 레시피:어떤 요리사..

Scientist/ML.DL 2024.07.12

[ML/DL] Youtube 조회수 분석

팀 프로젝트를 통해 머신러닝과 딥러닝을 배우게 되면서 이론적으로는 알겠는데 실제로 무슨 차이가 있는것인지 궁금하여 시작하게 된 유튜브 조회수에 대한 프로젝트를 진행했다.  Kaggle에서 Youtube Korea에 대한 데이터셋을 제공해주어 이를 토대로 분석을 시도하였다.조회수가 잘 나오게하려면 어떤 변수들이 상관관계를 가지고 종속변수에 영향을 주는지 확인해보는 방향으로 개발을 진행 하였다. 1. 변수를 선정한다. 조회수는 Views 나머지 변수는 tags, channel_title, comment_count, likes, dislikes 등이 있다. 2. 먼저 데이터셋을 분석하기 위해 각각의 변수를  피처 스케일링 작업을 진행하였다. 피처 스케일링 작업이란 모델의 성능을 더 좋게 만들기 위해서 데이터의..

Portfolio 2024.07.12