Meta 라이브러리는 Meta에 게재 중인 광고를 검색할 수 있는 장소이다.
광고주가 고객에게 광고를 나타낼 때 어떤 광고글과 이미지, 동영상 기간 등을 지정하여 게시를 하는데 이것을 크롤링해서 데이터를 모을 수 있으면 어떨까 하는 생각에 시도를 해보았다.
라이브러리는 API를 제공하기 때문에 오픈되어 있는 소스를 사용해도 되지만 selenium을 통한 크롤링을 하기 위해 파이썬 라이브러리를 사용하였다.
selenium을 이용하기 위해선 크롬드라이버가 필요하다. 설치방법은 구글에 크롬드라이버( chromedriver.exe ) 최신버전을 다운받으면 된다.
사용한 방법은
1. 웹을 열어서 Xpath와 CSS selector를 통해 html로 이루어져 있는 웹 class와 src를 크롤링을 진행
2. 많은 광고글이 있는 검색어는 사양 이슈로 인해 스크롤을 10번 정도만 내리고 Stop
3. 경로에 폴더가 없으면 폴더를 자동생성하여 그 안에 추출한 데이터셋과 이미지, 동영상이 추출되도록 설정
완성된 코드로 브이티를 검색해보자.
추가로 광고게시날짜, 게시ID, 글내용, href 까지 추출하였다.
완성된 코드는 아래 Github에서 확인가능하다.
https://github.com/KCY0204/KCY_Practice/tree/main/Meta%20Library%20Crawling
'Portfolio' 카테고리의 다른 글
[ML/DL] NLP GRU를 이용한 해외영상 댓글 감정분석 (1) | 2024.07.18 |
---|---|
[Tableau] Business Dashboard 구현 (0) | 2024.07.12 |
[Tableau] 작업물 (0) | 2024.07.12 |
[DL] RNN / LSTM 태양광 발전량 예측 모델 (0) | 2024.07.12 |
[ML/DL] Youtube 조회수 분석 (0) | 2024.07.12 |