Tôi có một câu hỏi liên quan đến kỹ thuật bootstrapping thích hợp để sử dụng với dữ liệu có phân cụm mạnh.
Tôi đã được giao nhiệm vụ đánh giá mô hình dự báo hiệu ứng hỗn hợp đa biến trên dữ liệu yêu cầu bảo hiểm bằng cách chấm điểm mô hình cơ sở hiện tại trên dữ liệu khiếu nại gần đây, để xác định mô hình dự đoán các giai đoạn chăm sóc nào có tần suất phiên cao nhất (trên Phân vị thứ 95). Độ nhạy, độ đặc hiệu và giá trị tiên đoán dương (PPV) sẽ được sử dụng để đánh giá hiệu quả của mô hình.
Bootstrapping có vẻ là cách phù hợp để xây dựng khoảng tin cậy cho độ nhạy, độ đặc hiệu và tỷ lệ phần trăm PPV. Thật không may, một bootstrap ngây thơ không phù hợp khi dữ liệu khiếu nại là 1) tương quan với nhà cung cấp dịch vụ chăm sóc, 2) được nhóm lại thành các đợt chăm sóc với các lượt truy cập thường xuyên hơn trong nhiều tháng trước đó trong giai đoạn chăm sóc (vì vậy có hiện tượng tự tương quan). Một biến thể trên kỹ thuật bootstrap khối di chuyển sẽ thích hợp ở đây?
Hoặc có lẽ một quy trình bootstrap ba bước sẽ hoạt động: 1) mẫu thay thế từ các nhà cung cấp khác nhau trong dữ liệu, sau đó 2) mẫu thay thế từ các đợt chăm sóc riêng biệt của các nhà cung cấp được chọn, sau đó 3) mẫu thay thế từ các khiếu nại khác nhau trong mỗi tập đã chọn.
Cảm ơn rất nhiều về sựh gợi ý!