아래 대용량 데이터 손쉽게 로드하는 방법에 대해 pickle을 포스팅했는데,
메모리가 부족하거나 분산환경이 아니라 아예 첫 1회조차 불러오지 못하는 상황이라면
Chunksize 를 사용하면 된다.
1. chunksize: loop마다 csv 데이터를 읽어올 양이다. 10 ** 6은 100000인데요, 이는 한 번에 1000개의 데이터를 가져온다는 뜻이다.
2. pd.read_csv(chunk_size): Python pandas에서 read_csv에는 chunksize라는 옵션이 존재한다.
이를 통해서 chunk 라는 dataframe이 생긴다. 이를 데이터셋으로 이용하면 된다.
chunksize = 10**6 # 청크 크기 조절
for chunk in pd.read_csv('open/train.csv', chunksize=chunksize):
# 각 청크에 대해 원하는 작업 수행
print(chunk.shape)
'Scientist > Code' 카테고리의 다른 글
[Python] 대용량 데이터 임시 저장 Pickle 사용법 (0) | 2024.07.15 |
---|---|
[Python] 문자형식의 Json 데이터를 추출하는 방법 (0) | 2021.07.02 |