Professional Field

SQL(ORACLE) | AI | BI | 통계분석

Portfolio 9

[데이터분석] 국내 배급 영화 매출 분석

최근 K-콘텐츠가 전 세계적으로 흥행하는 가운데, 영화 산업에서의 영향력이 어떻게 나타나는지 궁금해졌다.영화 산업은 수조 원 규모의 문화 콘텐츠 시장의 중심 역할을 하며, 이에 따라 국내 배급 시장에서 영화의 성공 요인을 분석해보고자 한다. 또한, 글로벌 박스오피스에서 흥행한 영화들이 어떤 패턴을 보이는지 비교 분석하여 시장 트렌드를 도출하고자 한다.더불어, 최근 특별관에 대한 경쟁이 치열해지는 만큼, 특별관 매출 현황도 함께 분석하여 영화 산업 내에서의 의미를 살펴보겠다.  글로벌 박스오피스를 집계해주는 Box office mojo 라는 홈페이지이다. 인사이드 아웃2는 전세계적으로 2조3천억이란 매출을 달성하였고 국내는 845억이라는 매출을 가져왔다.이러한 글로벌 박스오피스 중에서 국내로 배급을 진행할..

Portfolio 2025.02.10

[DACON] 전기차 가격 예측 해커톤 리뷰

https://dacon.io/competitions/official/236424/overview/description 전기차 가격 예측 해커톤: 데이터로 EV를 읽다! - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io데이콘에서 전기차 가격 예측이라는 주제로 대회가 열려 사이드 프로젝트로 진행해보았다.전기차에 관련된 데이터를 활용하여 전기차 가격을 예측하는 AI 알고리즘 개발해 빠르게 성장하는 전기차 시장에 소비자와 제조사에 시장 경쟁력, 타겟층 공략, 기업에서 손실을 최적화 할 수 있는 성과로 다가갈 수 있을 것이다. 먼저 데이터의 변수는 다음과 같다.ID : 샘플별 고유 ID/제조사/모델/차량상태/배터리용량/구동방식/주행거리(km)/보증기간(년)..

Portfolio 2024.12.12

[ML/DL] NLP GRU를 이용한 해외영상 댓글 감정분석

NLP를 이용한 감정분석을 해보기 위해 Kaggle에서 Comment에 관련된 데이터셋을 확보하였다.https://www.kaggle.com/datasets/nipunarora8/most-liked-comments-on-youtube MOST LIKED COMMENTS ON YOUTUBEYoutube Comments Datasetwww.kaggle.com 좋아요가 많이 달린 영상에 댓글을 가져온 것인데 대부분의 댓글의 어떤 내용이 들어가 있으면 좋아요를 많이 받을 수 있을까라는 주제로 분석을 하려고 한다.  먼저 데이터셋을 불러와서 COMMENT 컬럼 데이터를 VADER의 SentimentIntensityAnalyzer() 라이브러리로 감성분석을 진행해 positive / negative / neutra..

Portfolio 2024.07.18

[Tableau] Business Dashboard 구현

Tablaeu에서 지원하는 데이터셋인 슈퍼스토어 - 샘플을 이용해 고객 대시보드를 구현해보았다. 판매율, 반품율, 고객 분포도, 상품 수익 등 네 가지의 대시보드 전환을 이용하여 실적을 확인할 수 있도록 개발하였다.전체 대시보드는 채널과 지역, 날짜에 따라서 조회를 할 수 있도록 매개변수를 주었다. 판매율에서는 전체 판매상품 중 판매율의 비중을 확인하고, 최근 1년간의 Trend를 확인하여 판매율이 높거나 부진한 제조업체를 찾아낼 수 있도록 만들었다.   반품율에서는 판매상품별 반품 수량을 등급에 따라 차등화하여 어떤 제품들이 반품 수량이 많은지 확인할 수 있도록 구성해보았다. 고객분포도에서는 국가별 고객 분포도를 확인하기위해 색상을 주어 빈도를 나타냈으며, 지역수익률을 다중선택을 통해 확인할 수 있다...

Portfolio 2024.07.12

[Python] Crawling Meta 라이브러리

Meta 라이브러리는 Meta에 게재 중인 광고를 검색할 수 있는 장소이다. 광고주가 고객에게 광고를 나타낼 때 어떤 광고글과 이미지, 동영상 기간 등을 지정하여 게시를 하는데 이것을 크롤링해서 데이터를 모을 수 있으면 어떨까 하는 생각에 시도를 해보았다. 라이브러리는 API를 제공하기 때문에 오픈되어 있는 소스를 사용해도 되지만 selenium을 통한 크롤링을 하기 위해 파이썬 라이브러리를 사용하였다. selenium을 이용하기 위해선 크롬드라이버가 필요하다. 설치방법은 구글에 크롬드라이버( chromedriver.exe ) 최신버전을 다운받으면 된다. 사용한 방법은1. 웹을 열어서 Xpath와 CSS selector를 통해 html로 이루어져 있는 웹 class와 src를 크롤링을 진행2. 많은 광고..

Portfolio 2024.07.12

[DL] RNN / LSTM 태양광 발전량 예측 모델

프로젝트 추진 배경위 [그림]을 보면 연간 연료원별 발전비중을 나타낸 차트를 보면 해가 지날수록 신재생에너지(초록색) 영역이 넓어지는 모습이 보이며, 2019년도 신재생에너지 발전설비 비중은 전체의 13%로 증가하였다. 그리고 이를 에너지원별로 다시 쪼개보면 전체 신재생에너지의 67%를 태양광이 차지했으며 풍력(10%), 일반수력(10%), 바이오/매립가스(6%)가 그 뒤를 이음을 알 수 있다.     또한, 2017년 29,802대였던 국내 발전설비는 이후 연마다 33.6%, 54.7% 증가하여 2019년 61,603대가 되었다. 이 중 태양광 발전설비는 60,433대로 전체 발전설비 숫자의 대부분을 태양광 발전설비가 차지하고 있다는 것을 확인할 수 있다. 이처럼 태양광발전 설비와 기술력이 발전함에 따..

Portfolio 2024.07.12

[ML/DL] Youtube 조회수 분석

팀 프로젝트를 통해 머신러닝과 딥러닝을 배우게 되면서 이론적으로는 알겠는데 실제로 무슨 차이가 있는것인지 궁금하여 시작하게 된 유튜브 조회수에 대한 프로젝트를 진행했다.  Kaggle에서 Youtube Korea에 대한 데이터셋을 제공해주어 이를 토대로 분석을 시도하였다.조회수가 잘 나오게하려면 어떤 변수들이 상관관계를 가지고 종속변수에 영향을 주는지 확인해보는 방향으로 개발을 진행 하였다. 1. 변수를 선정한다. 조회수는 Views 나머지 변수는 tags, channel_title, comment_count, likes, dislikes 등이 있다. 2. 먼저 데이터셋을 분석하기 위해 각각의 변수를  피처 스케일링 작업을 진행하였다. 피처 스케일링 작업이란 모델의 성능을 더 좋게 만들기 위해서 데이터의..

Portfolio 2024.07.12

[통계] 시계열분석 ARIMA모형을 이용한 서울지역 대학생 입학 분석 및 예측

오늘날의 우리는 개인의 능력과는 상관없이 출신 학교의 지위를 중요하게 여기는 사회현상의 학벌주의로 살아가고 있다. 시대가 변화함에 따라 학벌이 중요시 여겨지면서 서울 중심의 대학으로 집중 포화되는 현상이 보이고 있다.  시대의 흐름에 있어 어쩔 수 없이 서울 중심 대학교를 희망하고 갈망하는 학생들이 많아질 것이고 이에 대한 모형을 만들고 예측하여 앞으로 서울권에 있는 대학교들의 입학자 수가 얼마나 증감할 것인가를 분석하였다. 본 분석은 R Package의 시계열분석과 예측함수를 사용하여 서울지역의 대학교 통계를 통해서 입학자수의 대한 분석과 향후 3년간을 예측하였다.  시계열분석에 사용되는 자기상관계수(Autocorrelation coefficient)과 부분자기상관계수(Partial autocorrel..

Portfolio 2021.05.17