Lấy và giải thích các khoảng tin cậy khởi động từ dữ liệu phân cấp


10

Tôi quan tâm đến việc đạt được khoảng tin cậy khởi động trên số lượng X, khi số lượng này được đo 10 lần cho mỗi 10 cá nhân.

Một cách tiếp cận là lấy giá trị trung bình của mỗi cá nhân, sau đó khởi động lại phương tiện (ví dụ: lấy mẫu lại phương tiện có thay thế).

Một cách tiếp cận khác là thực hiện các thao tác sau trên mỗi lần lặp của quy trình bootstrapping: trong mỗi cá nhân, lấy mẫu lại 10 quan sát của cá nhân đó bằng thay thế, sau đó tính toán một ý nghĩa mới cho cá nhân đó và cuối cùng tính toán một nhóm mới. Trong phương pháp này, mỗi cá nhân được quan sát trong tập dữ liệu gốc luôn đóng góp cho nhóm có nghĩa trên mỗi lần lặp của thủ tục bootstrap.

Cuối cùng, cách tiếp cận thứ ba là kết hợp hai cách tiếp cận trên: lấy mẫu lại các cá nhân sau đó lấy mẫu lại trong các cá nhân đó. Cách tiếp cận này khác với cách tiếp cận trước đó ở chỗ nó cho phép cùng một cá nhân đóng góp nhân cho nhóm có nghĩa trên mỗi lần lặp, mặc dù vì mỗi đóng góp được tạo ra thông qua quy trình lấy mẫu độc lập, những đóng góp này có thể được dự kiến ​​sẽ thay đổi đôi chút so với nhau.

Trong thực tế, tôi thấy rằng các cách tiếp cận này mang lại các ước tính khác nhau cho khoảng tin cậy (ví dụ: với một bộ dữ liệu, tôi thấy rằng cách tiếp cận thứ ba mang lại khoảng tin cậy lớn hơn nhiều so với hai cách tiếp cận đầu tiên), vì vậy tôi tò mò mỗi phương pháp có thể là gì giải thích để đại diện.

Câu trả lời:


7

Cách tiếp cận đầu tiên của bạn là về một giữa S CI. Nếu bạn muốn đo trong S thì đó là cách tiếp cận sai.

Cách tiếp cận thứ hai sẽ tạo ra một CI bên trong chỉ áp dụng cho 10 cá nhân đó.

Cách tiếp cận cuối cùng là phương pháp đúng cho S CI bên trong. Bất kỳ sự gia tăng nào của CI là do CI của bạn đại diện nhiều hơn cho một CI có thể được áp dụng cho dân số thay vì 10 S đó.


6

Theo Davison và Hinckley ("Phương pháp Bootstrap và ứng dụng của họ", 1997, Phần 3.8), thuật toán thứ ba là bảo thủ. Họ ủng hộ cách tiếp cận thứ tư: chỉ đơn giản là lấy lại các đối tượng.


1
Thú vị, tôi sẽ phải xem tài liệu tham khảo đó. Bạn có chắc bạn có nghĩa là cách tiếp cận "thứ tư"? Cách tiếp cận đầu tiên tôi liệt kê dường như mô tả "đơn giản là lấy lại các đối tượng".
Mike Lawrence

1
Vâng, nó có, nhưng nó mô tả việc lấy lại chủ đề có nghĩa. D & H ủng hộ việc lấy lại các đối tượng và phù hợp với mô hình ban đầu.
Andrew Robinson

2
Bạn cũng có thể muốn xem các ấn phẩm được xuất bản gần đây: Ren, Shiquan, Lai, Hong, Tong, Wenjing, Aminzadeh, Mostafa, Hou, Xuezhang và Lai, Shenghan (2010) 'Khởi động không đối xứng cho dữ liệu phân cấp', Tạp chí Thống kê Ứng dụng, 37: 9, 1487 - 1498
Andrew Robinson

2
@Mike: lấy lại toàn bộ clsuter là những gì các nhà thống kê khảo sát làm trong bootstraps của họ. Đó thực sự là một quy trình khác chỉ tương đương với cách tiếp cận "đầu tiên" của bạn nếu (i) bạn chỉ ước tính giá trị trung bình và (ii) dữ liệu không có trọng số và cân bằng. Xem thêm citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .
StasK
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.