[Python] 대용량 데이터 로드하는 방법

Scientist/Code

K_CY 2024. 7. 15. 23:53

아래 대용량 데이터 손쉽게 로드하는 방법에 대해 pickle을 포스팅했는데,

메모리가 부족하거나 분산환경이 아니라 아예 첫 1회조차 불러오지 못하는 상황이라면

Chunksize 를 사용하면 된다.

1. chunksize: loop마다 csv 데이터를 읽어올 양이다. 10 ** 6은 100000인데요, 이는 한 번에 1000개의 데이터를 가져온다는 뜻이다.

2. pd.read_csv(chunk_size): Python pandas에서 read_csv에는 chunksize라는 옵션이 존재한다.

이를 통해서 chunk 라는 dataframe이 생긴다. 이를 데이터셋으로 이용하면 된다.

chunksize = 10**6  # 청크 크기 조절
for chunk in pd.read_csv('open/train.csv', chunksize=chunksize):
    # 각 청크에 대해 원하는 작업 수행
    print(chunk.shape)

[Python] 대용량 데이터 임시 저장 Pickle 사용법 (0)	2024.07.15
[Python] 문자형식의 Json 데이터를 추출하는 방법 (0)	2021.07.02

Finding Value in Data

안녕하세요. 데이터 엔지니어(DW,ETL), 데이터 분석(AI,ML,DL) 및 시각화(BI) 정보를 공유하기 위해 개설하였습니다.

docker, 회귀분석, Python, 머신러닝, apache airflow, 반원, 영화데이터, NLP, 랭체인, 딥러닝, LLM, langchain, 파이프라인, DW, 태블로, 크루스칼왈리스검정, donut chart, tableau, 파이썬, airflow,

Finding Value in Data