Giả sử bạn có một nhóm người đánh giá mức độ họ thích một bộ phim theo tỷ lệ rời rạc từ 1 đến 10 và bạn muốn có một khoảng [ l , u ] sao cho với độ tin cậy (ít nhất) 95%, (ít nhất) 90 % của tất cả những người xem phim sẽ đánh giá nó không thấp hơn l và không cao hơn u . [ l , u ] sau đó là khoảng dung sai (hai mặt) với độ tin cậy 95% và độ bao phủ 90%. (Để rõ ràng, độ tin cậy 95% ngụ ý rằng nếu bạn lặp lại quy trình này nhiều lần, 95% khoảng thời gian được sản xuất sẽ có ít nhất 90% dân số.) Tất nhiên, chúng tôi thường muốn [ l , u ] hẹp như có thể trong khi vẫn đáp ứng yêu cầu của chúng tôi.
Tôi đã thấy các phương pháp không tham số khác nhau để xây dựng các khoảng dung sai cho các biến ngẫu nhiên liên tục. Tôi cũng đã thấy các phương pháp để xây dựng các khoảng dung sai cho các biến nhị thức và Poisson. (Gói R tolerance
thực hiện một số phương thức này; Young, 2010) Nhưng còn các biến rời rạc khi phân phối không xác định thì sao? Đây thường là trường hợp đối với các thang đánh giá như trong ví dụ của tôi và giả sử phân phối nhị thức có vẻ không an toàn vì dữ liệu theo thang đánh giá thực thường thể hiện sự kỳ lạ như đa phương thức.
Nó sẽ có ý nghĩa để quay trở lại các phương pháp không tham số cho các biến liên tục? Ngoài ra, điều gì về một phương pháp Monte Carlo như tạo ra 1.000 bản sao bootstrap của mẫu và tìm một khoảng thời gian thu được ít nhất 90% mẫu trong ít nhất 950 bản sao?
Trẻ, DS (2010). dung sai: Một gói R để ước tính khoảng dung sai. Tạp chí phần mềm thống kê, 36 (5), 1 trận39. Lấy từ http://www.jstatsoft.org/v36/i05