Làm cách nào để lọc các dòng khi tải trong hàm Pandas read_csv?

Question 1

Làm cách nào để lọc các dòng CSV sẽ được tải vào bộ nhớ bằng cách sử dụng gấu trúc? Đây có vẻ như là một lựa chọn mà người ta nên tìm read_csv. Tui bỏ lỡ điều gì vậy?

Ví dụ: chúng tôi có một CSV với cột dấu thời gian và chúng tôi chỉ muốn tải những dòng có dấu thời gian lớn hơn một hằng số nhất định.

Question 2

Không có tùy chọn để lọc các hàng trước khi tệp CSV được tải vào đối tượng gấu trúc.

Bạn có thể tải tệp và sau đó lọc bằng cách sử dụng df[df['field'] > constant], hoặc nếu bạn có một tệp rất lớn và bạn lo lắng về việc hết bộ nhớ, thì hãy sử dụng trình lặp và áp dụng bộ lọc khi bạn nối các phần của tệp, ví dụ:

import pandas as pd
iter_csv = pd.read_csv('file.csv', iterator=True, chunksize=1000)
df = pd.concat([chunk[chunk['field'] > constant] for chunk in iter_csv])

Bạn có thể thay đổi tùy chọn chunksizecho phù hợp với bộ nhớ hiện có của mình. Xem tại đây để biết thêm chi tiết.

Question 3

Tôi đã không tìm thấy một cách dễ dàng để làm điều đó trong bối cảnh của read_csv. Tuy nhiên, read_csvtrả về một DataFrame, có thể được lọc bằng cách chọn các hàng theo vectơ boolean df[bool_vec]:

filtered = df[(df['timestamp'] > targettime)]

Đây là việc chọn tất cả các hàng trong df (giả sử df là bất kỳ DataFrame nào, chẳng hạn như kết quả của read_csvcuộc gọi, ít nhất chứa một cột datetime timestamp) mà các giá trị trong timestampcột này lớn hơn giá trị của targettime. Câu hỏi tương tự .

Question 4

Nếu phạm vi được lọc gần nhau (như thường xảy ra với các bộ lọc thời gian (tem)), thì giải pháp nhanh nhất là mã hóa phạm vi hàng. Đơn giản chỉ cần kết hợp skiprows=range(1, start_row)với nrows=end_rowcác tham số. Sau đó, quá trình nhập sẽ mất vài giây trong khi giải pháp được chấp nhận sẽ mất vài phút. Một vài thử nghiệm với ban đầu start_rowkhông phải là chi phí lớn do tiết kiệm được thời gian nhập khẩu. Lưu ý rằng chúng tôi đã giữ hàng tiêu đề bằng cách sử dụng range(1,..).

Question 5

Nếu bạn đang sử dụng Linux, bạn có thể sử dụng grep.

# to import either on Python2 or Python3
import pandas as pd
from time import time # not needed just for timing
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO


def zgrep_data(f, string):
    '''grep multiple items f is filepath, string is what you are filtering for'''

    grep = 'grep' # change to zgrep for gzipped files
    print('{} for {} from {}'.format(grep,string,f))
    start_time = time()
    if string == '':
        out = subprocess.check_output([grep, string, f])
        grep_data = StringIO(out)
        data = pd.read_csv(grep_data, sep=',', header=0)

    else:
        # read only the first row to get the columns. May need to change depending on 
        # how the data is stored
        columns = pd.read_csv(f, sep=',', nrows=1, header=None).values.tolist()[0]    

        out = subprocess.check_output([grep, string, f])
        grep_data = StringIO(out)

        data = pd.read_csv(grep_data, sep=',', names=columns, header=None)

    print('{} finished for {} - {} seconds'.format(grep,f,time()-start_time))
    return data

Question 6

Bạn có thể chỉ định nrowstham số.

import pandas as pd df = pd.read_csv('file.csv', nrows=100)

Mã này hoạt động tốt trong phiên bản 0.20.3.