Kỹ thuật bootstrapping thích hợp cho dữ liệu cụm?


16

Tôi có một câu hỏi liên quan đến kỹ thuật bootstrapping thích hợp để sử dụng với dữ liệu có phân cụm mạnh.

Tôi đã được giao nhiệm vụ đánh giá mô hình dự báo hiệu ứng hỗn hợp đa biến trên dữ liệu yêu cầu bảo hiểm bằng cách chấm điểm mô hình cơ sở hiện tại trên dữ liệu khiếu nại gần đây, để xác định mô hình dự đoán các giai đoạn chăm sóc nào có tần suất phiên cao nhất (trên Phân vị thứ 95). Độ nhạy, độ đặc hiệu và giá trị tiên đoán dương (PPV) sẽ được sử dụng để đánh giá hiệu quả của mô hình.

Bootstrapping có vẻ là cách phù hợp để xây dựng khoảng tin cậy cho độ nhạy, độ đặc hiệu và tỷ lệ phần trăm PPV. Thật không may, một bootstrap ngây thơ không phù hợp khi dữ liệu khiếu nại là 1) tương quan với nhà cung cấp dịch vụ chăm sóc, 2) được nhóm lại thành các đợt chăm sóc với các lượt truy cập thường xuyên hơn trong nhiều tháng trước đó trong giai đoạn chăm sóc (vì vậy có hiện tượng tự tương quan). Một biến thể trên kỹ thuật bootstrap khối di chuyển sẽ thích hợp ở đây?

Hoặc có lẽ một quy trình bootstrap ba bước sẽ hoạt động: 1) mẫu thay thế từ các nhà cung cấp khác nhau trong dữ liệu, sau đó 2) mẫu thay thế từ các đợt chăm sóc riêng biệt của các nhà cung cấp được chọn, sau đó 3) mẫu thay thế từ các khiếu nại khác nhau trong mỗi tập đã chọn.

Cảm ơn rất nhiều về sựh gợi ý!

Câu trả lời:


14

Cách tiếp cận thứ hai mà bạn đề xuất có vẻ hợp lý, nhưng hóa ra tốt hơn là chỉ lấy mẫu bằng thay thế ở mức cao nhất và không thay thế ở các cấp dưới còn lại khi khởi động dữ liệu phân cấp. Điều này được hiển thị từ các mô phỏng của Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Về mặt lý thuyết, Field & Welsh (2007) đã nghiên cứu các cách tiếp cận khác nhau cho các tập dữ liệu 2 cấp và thấy rằng lấy mẫu bằng thay thế ở cả hai cấp không phải là một ý tưởng tuyệt vời.
http: // onlinel Library.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Sự tự kỷ mà bạn đề cập là một vấn đề nghiêm trọng. Mặt khác, lựa chọn mà không thay thế từ các tập chăm sóc sẽ bảo vệ cấu trúc tự tương quan để có thể nó không phải là một vấn đề lớn.


Tôi tự hỏi liệu giải pháp sau có phù hợp không:
Rafael

... xin lỗi tôi không thể hoàn thành bình luận trước đây của tôi. Đây là: ... Tạo một mã (id) có tính đến từng cấp độ phân cụm (ví dụ episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) và sau đó sử dụng GEE cho phép bạn xử lý tự động tương quan. Tôi đã đọc ở đâu đó rằng các mô hình GEE đưa ra ước tính mạnh mẽ ngay cả khi có các cấu trúc bụi hơn. Liệu giải pháp này nghe có vẻ hợp lý?
Rafael
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.