Tôi thu thập các mẫu rất lớn (> 1.000.000) dữ liệu phân loại mỗi ngày và muốn xem dữ liệu trông "khác biệt" đáng kể giữa các ngày để phát hiện lỗi trong việc thu thập dữ liệu.
Tôi nghĩ rằng sử dụng một bài kiểm tra phù hợp (đặc biệt là bài kiểm tra G) sẽ phù hợp (ý định chơi chữ) cho việc này. Phân phối dự kiến được đưa ra bởi phân phối của ngày hôm trước.
Nhưng, vì kích thước mẫu của tôi quá lớn, thử nghiệm có công suất rất cao và cho ra nhiều kết quả dương tính giả. Điều đó có nghĩa là, ngay cả một biến động hàng ngày rất nhỏ sẽ cho giá trị p gần như bằng không.
Cuối cùng tôi đã nhân số liệu thống kê kiểm tra của mình với một số hằng số (0,001), có cách diễn giải tốt về việc lấy mẫu dữ liệu ở tốc độ đó. bài viết này dường như đồng ý với phương pháp này. Họ nói rằng:
Chi vuông là đáng tin cậy nhất với các mẫu từ khoảng 100 đến 2500 người
Tôi đang tìm kiếm một số ý kiến có thẩm quyền hơn về điều này. Hoặc có lẽ một số giải pháp thay thế cho dương tính giả khi chạy thử nghiệm thống kê trên các tập dữ liệu lớn.