Tôi có một bộ dữ liệu với 19 cột và khoảng 250k hàng. Tôi đã làm việc với các bộ dữ liệu lớn hơn, nhưng lần này, Pandas quyết định chơi với thần kinh của tôi.
Tôi đã cố gắng chia dữ liệu gốc thành 3 datafram dựa trên một số quy tắc đơn giản. Tuy nhiên, phải mất một thời gian dài để thực thi mã. Khoảng 15-20 giây chỉ để lọc.
Bất kỳ cách nào khác sẽ cải thiện hiệu suất của mã?
import pandas as pd
#read dataset
df = pd.read_csv('myData.csv')
#create a dataframe with col1 10 and col2 <= 15
df1 = df[(df.col1 == 10) & (df.col2 <= 15)]
df = df[~df.isin(df1)].dropna()
#create a dataframe with col3 7 and col4 >= 4
df2 = df[(df.col3 == 7) & (df.col4 >= 4)]
df = df[~df.isin(df2)].dropna()
Cuối cùng, tôi có các df1, df2, df
dataframes với dữ liệu được lọc.