Làm thế nào để bạn gọi đây là chiến lược lựa chọn cỡ mẫu động?

Hãy tưởng tượng rằng bạn muốn đánh giá khả năng nén của một tài liệu lớn rất nhanh. Bạn có thể chọn ngẫu nhiên một chuỗi con, cố gắng nén nó. Điều này có thể phục vụ như một dự đoán cho khả năng nén tổng thể của tài liệu. Nhưng mẫu của bạn nên lớn như thế nào?

Chúng tôi đã đưa ra chiến lược sau:

Chọn một cỡ mẫu tùy ý (nhỏ). Đo độ nén.
Tiếp theo, tăng gấp đôi kích thước mẫu và đo lại độ nén. Nếu có ít thay đổi (giả sử dưới 10%), thì kết luận rằng bạn đã xác định được độ tin cậy của tài liệu. Nếu không, tăng gấp đôi kích thước mẫu một lần nữa, v.v.

Chúng tôi khá chắc chắn rằng đây không phải là một chiến lược mới, và chúng tôi đang tự hỏi liệu nó có liên quan đến một số chiến lược nổi tiếng được sử dụng bởi các nhà thống kê hay không.

("Nén" ở đây chỉ là một ví dụ. Về cơ bản, chúng tôi quan tâm đến một số liệu không có thuộc tính toán học đã biết, do đó không thể xác định phân tích đâu có thể là cỡ mẫu tốt. Chúng tôi không có lựa chọn nào khác ngoài việc rơi trở lại các heuristic như vậy.)

sampling model-selection sample-size

— Daniel Lemire
nguồn

Điều này đã được gọi là 'Lấy mẫu lũy tiến', ví dụ: http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.86.9168&rep=rep1&type=pdf

— CDX
nguồn

Tài liệu tham khảo được CDX đưa ra là: Foster Provost, David Jensen và Tim Oates. 1999. Lấy mẫu tiến bộ hiệu quả. Trong Kỷ yếu của hội nghị quốc tế ACM SIGKDD lần thứ năm về khám phá tri thức và khai thác dữ liệu (KDD '99). ACM, New York, NY, Hoa Kỳ, 23-32.

— Daniel Lemire