Cách ước tính đường cong hiệu chuẩn với bootstrap (R)


9

Câu hỏi : Tôi đã trang bị một mô hình xác suất (mạng bayes) để mô hình hóa một biến kết quả nhị phân. Tôi muốn tạo một biểu đồ hiệu chuẩn độ phân giải cao (ví dụ như spline) được sửa chữa cho quá mức với bootstrapping. Có một quy trình chuẩn để tính đường cong như vậy không?

Cân nhắc : Tôi có thể thực hiện việc này một cách dễ dàng với phân tách thử nghiệm / đào tạo, nhưng tôi không muốn vứt bỏ bất kỳ dữ liệu nào vì tôi có ít hơn 20.000 mẫu. Vì vậy, tôi tự nhiên nghĩ về bootstrapping. Tôi biết rằng một chức năng như vậy (hiệu chỉnh) được triển khai trong gói rms của Frank Harrell, nhưng tiếc là mô hình tôi sử dụng không được gói hỗ trợ.

Câu hỏi thưởng : có thể hiệu chỉnh lại một mô hình tính toán sai với bootstrapping không? Lý do tôi hỏi điều này là vì tôi đã cố gắng hiệu chỉnh lại một mô hình bằng cách

  1. phân chia dữ liệu trong đào tạo / kiểm tra
  2. mô hình phù hợp để thiết lập đào tạo
  3. hiệu chỉnh lại mô hình để đào tạo tập hợp (với một spline hình khối)
  4. đánh giá hiệu chuẩn trên bộ kiểm tra

Các mô hình được hiệu chỉnh lại theo kiểu trên đã được hiệu chuẩn hoàn hảo trên bộ xe lửa nhưng không quá nhiều trên bộ thử nghiệm, điều này có thể cho thấy tình trạng thừa nhẹ. Tôi cũng đã thử chia thêm bộ thử nghiệm, hiệu chỉnh trên một lần phân tách và đánh giá hiệu chuẩn ở lần phân tách thứ hai. Tôi đã có kết quả tốt hơn (mặc dù vẫn chưa được hiệu chuẩn hoàn hảo), nhưng các bộ trở nên khá nhỏ (~ 1000 mẫu) và do đó hiệu chuẩn không đáng tin cậy


1
Không chắc chắn những gì có sẵn trong R, nhưng sklearn của Python có một mô đun hiệu chuẩn xác suất tuyệt vời hỗ trợ xác thực chéo và hồi quy đẳng hướng / đơn điệu, là chìa khóa để hiệu chuẩn xác suất chất lượng cao. Đây là một nơi tốt để có một số ý tưởng. scikit-learn.org/urdy/modules/calibr.html
olooney

Cảm ơn bạn vì câu trả lời! Tôi bị ràng buộc với R và không đặc biệt quan tâm đến việc bắt đầu với reticulate. Tôi có thể tự thực hiện quy trình nếu tôi biết, nhưng tôi không tìm thấy nó ở bất cứ đâu .. Tôi đoán tôi chỉ hy vọng rằng profell sẽ thấy câu hỏi này: D
Gino_JrDataSellectist

1
Vui lòng bao gồm một ví dụ dữ liệu (nhỏ) để minh họa những gì bạn đang nói. Cảm ơn bạn.
Jim

Bạn nên xem xét phần giới thiệu này về gói rms (và chức năng hiệu chỉnh của nó) trong R: r-bloggers.com/int sinhtion
to

Xin chào rpatel, cảm ơn vì lời đề nghị. Tôi đã đề cập đến chức năng rms :: calibrate trong câu hỏi ban đầu của mình, lưu ý rằng nó không hỗ trợ lớp mô hình mà tôi đang sử dụng. Tôi cũng sở hữu cuốn sách Chiến lược mô hình hồi quy củaellell, nhưng tôi không thể tìm thấy bất kỳ mô tả chi tiết nào về cách hoạt động của chức năng hiệu chỉnh.
Gino_JrDataSellectist

Câu trả lời:


6

Sau khi thảo luận với prof Frank Mitchell qua email, tôi đã nghĩ ra quy trình sau đây để ước tính đường chuẩn hiệu chỉnh lạc quan, một phần dựa trên Hướng dẫn về Thống kê sinh học (STATISTICS IN MEDICINE, TẬP 15,361-387 (1996)):

  1. phù hợp với mô hình dự đoán rủi ro trên tất cả dữ liệu
  2. p= =(0,01,0,02,...,0,99)cmộttôimộtpp
  3. vẽ mẫu bootstrap với sự thay thế, cùng kích thước của dữ liệu gốc
  4. mô hình dự đoán rủi ro phù hợp trên mẫu bootstrap
  5. cmộttôiboot
  6. cmộttôiorTôig
  7. p
    ÔiptTôimTôiSm(p)= =cmộttôiboot(p)-cmộttôiorTôig(p)
  8. p
  9. cmộttôicorr(p)= =cmộttôimộtpp(p)-<ÔiptTôimTôiSm(p)>

Lưu ý quan trọng : Quy trình trên được lấy cảm hứng từ công việc của Mitchell và cuộc thảo luận của tôi với anh ta, nhưng tất cả các lỗi là của riêng tôi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.