Người mới phân tích bằng Python vì vậy hãy nhẹ nhàng :-) Tôi không thể tìm thấy câu trả lời cho câu hỏi này - xin lỗi nếu nó đã được trả lời ở nơi khác ở định dạng khác.
Tôi có một bộ dữ liệu dữ liệu giao dịch cho một cửa hàng bán lẻ. Các biến cùng với lời giải thích là:
- phần: phần của cửa hàng, một str;
- prod_name: tên của sản phẩm, một str;
- biên nhận: số hóa đơn, số nguyên;
- thủ quỹ, số nhân viên thu ngân, một int;
- chi phí: chi phí của mặt hàng, một phao;
- ngày, ở định dạng MM / DD / YY, một str;
- thời gian, ở định dạng HH: MM: SS, một str;
Biên lai có cùng giá trị cho tất cả các sản phẩm được mua trong một giao dịch, do đó, nó có thể được sử dụng để xác định số lượng mua trung bình được thực hiện trong một giao dịch.
cách tốt nhất để làm việc này là gì? Về cơ bản, tôi muốn sử dụng groupby()
để nhóm biến biên nhận theo các lần xuất hiện giống hệt nhau để tôi có thể tạo biểu đồ.
Làm việc với dữ liệu trong DataFrame của gấu trúc.
BIÊN TẬP:
Dưới đây là một số dữ liệu mẫu có tiêu đề (prod_name thực sự là số hex):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
Từ bộ mẫu này, tôi mong đợi một biểu đồ biên nhận cho thấy hai lần xuất hóa đơn 102857 (vì người đó đã mua hai mặt hàng trong một giao dịch) và một lần xuất hiện tương ứng của hóa đơn 102856 và biên nhận 102858. Lưu ý: tập dữ liệu của tôi không lớn, khoảng 1 triệu hàng.