Professional Field

ETL : Airflow / DW(Snowflake) | AI : Python | BI : Tableau / Power BI

회귀분석 2

[ML/DL] 선형회귀분석 변수선택법 + 다중공선성, VIF

회귀분석에서 변수 선택법은 종속변수 y에 대한 독립변수 x가 미치는 영향력을 파악하고 유의미한 변수만을 추출하여 분석하기 위함이다. 변수선택법은 세 가지 방법이 존재하는데 1. 전진선택법 2. 후진제거법 3. 단계적선택법이 있다. 1. 회귀분석 전진선택법은 예측 모델을 만들 때 독립 변수를 선택하는 방법 중 하나이다. 이 방법은 단계별로 변수들을 추가해가며 모델을 구축하는 과정에서 가장 유의미한 변수들을 선택한다. 장점은 패턴을 찾기 쉬우며, 직관적이다. 단점은 최적의 변수 조합을 찾기가 어렵다. 독립변수를 차례대로 넣기 때문에 가장 좋은 모형인지 확인이 어렵다. 아래는 전진선택법을 진행하는 과정이다.출처 : https://quantifyinghealth.com/stepwise-selection/# 필요..

Scientist/ML.DL 2024.07.12

[ML/DL] Youtube 조회수 분석

팀 프로젝트를 통해 머신러닝과 딥러닝을 배우게 되면서 이론적으로는 알겠는데 실제로 무슨 차이가 있는것인지 궁금하여 시작하게 된 유튜브 조회수에 대한 프로젝트를 진행했다.  Kaggle에서 Youtube Korea에 대한 데이터셋을 제공해주어 이를 토대로 분석을 시도하였다.조회수가 잘 나오게하려면 어떤 변수들이 상관관계를 가지고 종속변수에 영향을 주는지 확인해보는 방향으로 개발을 진행 하였다. 1. 변수를 선정한다. 조회수는 Views 나머지 변수는 tags, channel_title, comment_count, likes, dislikes 등이 있다. 2. 먼저 데이터셋을 분석하기 위해 각각의 변수를  피처 스케일링 작업을 진행하였다. 피처 스케일링 작업이란 모델의 성능을 더 좋게 만들기 위해서 데이터의..

Portfolio 2024.07.12