DataFrame lớn, liên tục trong gấu trúc

Question 1

Tôi đang tìm cách chuyển sang python và gấu trúc với tư cách là người dùng SAS lâu năm.

Tuy nhiên, khi chạy một số bài kiểm tra ngày hôm nay, tôi đã rất ngạc nhiên rằng python đã hết bộ nhớ khi cố gắng với pandas.read_csv()tệp csv 128mb. Nó có khoảng 200.000 hàng và 200 cột chủ yếu là dữ liệu số.

Với SAS, tôi có thể nhập tệp csv vào tập dữ liệu SAS và nó có thể lớn bằng ổ cứng của tôi.

Có một cái gì đó tương tự trong pandas?

Tôi thường xuyên làm việc với các tệp lớn và không có quyền truy cập vào mạng máy tính phân tán.

Question 2

Về nguyên tắc, nó sẽ không hết bộ nhớ, nhưng hiện có những vấn đề về bộ nhớ read_csvtrên các tệp lớn do một số vấn đề phức tạp bên trong Python gây ra (điều này là mơ hồ nhưng nó đã được biết đến từ lâu: http://github.com/pydata / pandas / issue / 407 ).

Hiện tại không có giải pháp hoàn hảo (đây là một giải pháp tẻ nhạt: bạn có thể phiên âm từng hàng một thành một mảng NumPy được phân bổ trước hoặc tệp ánh xạ bộ nhớ-- np.mmap), nhưng tôi sẽ làm việc trong tương lai gần. Một giải pháp khác là đọc tệp trong các phần nhỏ hơn (sử dụng iterator=True, chunksize=1000) sau đó nối sau đó với pd.concat. Vấn đề xảy ra khi bạn kéo toàn bộ tệp văn bản vào bộ nhớ trong một lần nhấn lớn.

Question 3

Wes tất nhiên là đúng! Tôi chỉ đang cố gắng cung cấp một mã ví dụ hoàn chỉnh hơn một chút. Tôi gặp sự cố tương tự với tệp 129 Mb, được giải quyết bằng cách:

import pandas as pd

tp = pd.read_csv('large_dataset.csv', iterator=True, chunksize=1000)  # gives TextFileReader, which is iterable with chunks of 1000 rows.
df = pd.concat(tp, ignore_index=True)  # df is DataFrame. If errors, do `list(tp)` instead of `tp`

Question 4

Đây là một chủ đề cũ hơn, nhưng tôi chỉ muốn kết xuất giải pháp thay thế của mình ở đây. Ban đầu tôi đã thử chunksizetham số (ngay cả với các giá trị khá nhỏ như 10000), nhưng nó không giúp được gì nhiều; vẫn gặp sự cố kỹ thuật với kích thước bộ nhớ (CSV của tôi là ~ 7,5 Gb).

Ngay bây giờ, tôi chỉ đọc các phần của tệp CSV theo cách tiếp cận vòng lặp và thêm chúng vào cơ sở dữ liệu SQLite từng bước một:

import pandas as pd
import sqlite3
from pandas.io import sql
import subprocess

# In and output file paths
in_csv = '../data/my_large.csv'
out_sqlite = '../data/my.sqlite'

table_name = 'my_table' # name for the SQLite database table
chunksize = 100000 # number of lines to process at each iteration

# columns that should be read from the CSV file
columns = ['molecule_id','charge','db','drugsnow','hba','hbd','loc','nrb','smiles']

# Get number of lines in the CSV file
nlines = subprocess.check_output('wc -l %s' % in_csv, shell=True)
nlines = int(nlines.split()[0]) 

# connect to database
cnx = sqlite3.connect(out_sqlite)

# Iteratively read CSV and dump lines into the SQLite table
for i in range(0, nlines, chunksize):

    df = pd.read_csv(in_csv,  
            header=None,  # no header, define column header manually later
            nrows=chunksize, # number of rows to read at each iteration
            skiprows=i)   # skip rows that were already read

    # columns to read        
    df.columns = columns

    sql.to_sql(df, 
                name=table_name, 
                con=cnx, 
                index=False, # don't use CSV file index
                index_label='molecule_id', # use a unique column from DataFrame as index
                if_exists='append') 
cnx.close()

Question 5

Dưới đây là quy trình làm việc của tôi.

import sqlalchemy as sa
import pandas as pd
import psycopg2

count = 0
con = sa.create_engine('postgresql://postgres:pwd@localhost:00001/r')
#con = sa.create_engine('sqlite:///XXXXX.db') SQLite
chunks = pd.read_csv('..file', chunksize=10000, encoding="ISO-8859-1",
                     sep=',', error_bad_lines=False, index_col=False, dtype='unicode')

Dựa trên kích thước tệp của bạn, bạn nên tối ưu hóa kích thước khối tốt hơn.

 for chunk in chunks:
        chunk.to_sql(name='Table', if_exists='append', con=con)
        count += 1
        print(count)

Sau khi có tất cả dữ liệu trong Cơ sở dữ liệu, Bạn có thể truy vấn những dữ liệu bạn cần từ cơ sở dữ liệu.

Question 6

Nếu bạn muốn tải các tệp csv lớn, dask có thể là một lựa chọn tốt. Nó bắt chước api của gấu trúc, vì vậy nó có cảm giác khá giống với gấu trúc

liên kết đến dask trên github

Question 7

Bạn có thể sử dụng Pytable thay vì pandas df. Nó được thiết kế cho các tập dữ liệu lớn và định dạng tệp là hdf5. Nên thời gian xử lý hồ sơ tương đối nhanh.