Tôi có một df dataframe lớn (khoảng 12 triệu hàng) với câu:
df.columns = ['word','documents','frequency']
Vì vậy, sau đây chạy một cách kịp thời:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Tuy nhiên, điều này đang mất một thời gian dài bất ngờ để chạy:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
Tôi làm gì sai ở đây? Có cách nào tốt hơn để đếm số lần xuất hiện trong một khung dữ liệu lớn không?
df.word.describe()
chạy khá tốt, vì vậy tôi thực sự không mong đợi khung dữ liệu xảy ra này sẽ mất nhiều thời gian để xây dựng.
ps: Nếu câu trả lời là rõ ràng và bạn cảm thấy cần phải phạt tôi vì đã hỏi câu hỏi này, vui lòng bao gồm cả câu trả lời. cảm ơn bạn.
df.word.value_counts()['myword']
là nhanh gấp đôilen(df[df.word == 'myword'])
.