Professional Field

SQL(ORACLE) | AI | BI | 통계분석

Scientist/Code

[Python] 대용량 데이터 로드하는 방법

K_CY 2024. 7. 15. 23:53

아래 대용량 데이터 손쉽게 로드하는 방법에 대해 pickle을 포스팅했는데,

메모리가 부족하거나 분산환경이 아니라 아예 첫 1회조차 불러오지 못하는 상황이라면 

Chunksize 를 사용하면 된다.

 

1. chunksize: loop마다 csv 데이터를 읽어올 양이다. 10 ** 6은 100000인데요, 이는 한 번에 1000개의 데이터를 가져온다는 뜻이다.

2. pd.read_csv(chunk_size): Python pandas에서 read_csv에는 chunksize라는 옵션이 존재한다. 

 

이를 통해서 chunk 라는 dataframe이 생긴다. 이를 데이터셋으로 이용하면 된다.

 

 

chunksize = 10**6  # 청크 크기 조절
for chunk in pd.read_csv('open/train.csv', chunksize=chunksize):
    # 각 청크에 대해 원하는 작업 수행
    print(chunk.shape)