Tôi là một người mới về thống kê, vì vậy xin lỗi trước nếu tôi hỏi một câu hỏi dũng cảm. Tôi đã tìm kiếm câu trả lời cho câu hỏi của mình, nhưng tôi thấy rằng nhiều chủ đề quá cụ thể hoặc nhanh chóng vượt xa những gì tôi hiện đang hiểu.
Tôi có một số công việc mô phỏng bao gồm các bộ dữ liệu lớn trở nên không khả thi để mô phỏng triệt để. Đối với các bộ dữ liệu nhỏ nhất của tôi, một lần chạy toàn diện trình bày phân phối kết quả sau đây trong tổng số 9180900 bài kiểm tra.
Kết quả / Tần suất:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Những con số có ý nghĩa gì không quan trọng; Vấn đề là các bộ dữ liệu lớn hơn mà tôi có có thể trải qua hàng tỷ bài kiểm tra và trở nên quá tốn thời gian để chạy. Tôi cần hạn chế khối lượng công việc.
Tôi cảm thấy mình phải có thể lấy mẫu từ toàn bộ các thử nghiệm để rút ra phân phối cho mẫu và suy ra (trong một số giới hạn) rằng kết quả của một mô phỏng toàn diện sẽ thể hiện phân phối gần giống nhau. Không có sự thiên vị cố hữu trong các thử nghiệm được chạy, do đó, việc chọn ngẫu nhiên các đầu vào phải cung cấp một mẫu hợp lệ.
Điều tôi chưa hiểu là làm thế nào tôi nên chọn kích thước mẫu của mình. Cụ thể, bản phân phối thể hiện một cái đuôi kỳ lạ và tôi sợ rằng việc lấy mẫu quá nhỏ sẽ làm mất tần số thấp hơn. (140 lần xuất hiện của '4' chỉ chiếm 0,0015% dân số!)
Vì vậy, câu hỏi của tôi là, cách tốt nhất để tính kích thước mẫu mà tôi có thể khẳng định mức độ tốt trong kết quả của mình là gì?
Hoặc, tôi đang hỏi sai câu hỏi?