Lưu ý: Trường hợp là n >> p
Tôi đang đọc các yếu tố của học thống kê và có nhiều đề cập khác nhau về cách "đúng" để thực hiện xác nhận chéo (ví dụ trang 60, trang 245). Cụ thể, câu hỏi của tôi là làm thế nào để đánh giá mô hình cuối cùng (không có bộ kiểm tra riêng) bằng cách sử dụng CV gấp hoặc bootstrapping khi đã có một tìm kiếm mô hình? Dường như trong hầu hết các trường hợp (thuật toán ML không có lựa chọn tính năng nhúng) sẽ có
- Bước lựa chọn tính năng
- Bước chọn tham số meta (ví dụ: tham số chi phí trong SVM).
Những câu hỏi của tôi:
- Tôi đã thấy rằng bước lựa chọn tính năng có thể được thực hiện khi lựa chọn tính năng được thực hiện trên toàn bộ tập huấn luyện và được đặt sang một bên. Sau đó, bằng cách sử dụng CV gấp, thuật toán chọn tính năng được sử dụng trong mỗi lần gấp (nhận các tính năng khác nhau có thể được chọn mỗi lần) và trung bình lỗi. Sau đó, bạn sẽ sử dụng các tính năng được chọn bằng cách sử dụng tất cả dữ liệu (được đặt sang một bên) để huấn luyện chế độ cuối cùng, nhưng sử dụng lỗi từ xác thực chéo để ước tính hiệu suất của mô hình trong tương lai. LÀ ĐÚNG NÀY?
- Khi bạn đang sử dụng xác thực chéo để chọn tham số mô hình, thì làm thế nào để ước tính hiệu suất mô hình sau đó? ĐÓ LÀ QUY TRÌNH CÙNG NHƯ SỐ 1 TRÊN HAY BẠN NÊN SỬ DỤNG CV NESTED THÍCH SHOWN TRÊN TRANG 54 ( pdf ) HOẶC SOMETHING ELSE?
- Khi bạn đang thực hiện cả hai bước (thiết lập tính năng và tham số) ..... thì bạn sẽ làm gì? vòng lặp lồng phức tạp?
- Nếu bạn có một mẫu giữ riêng, liệu mối quan tâm có biến mất và bạn có thể sử dụng xác thực chéo để chọn các tính năng và tham số (không phải lo lắng vì ước tính hiệu suất của bạn sẽ đến từ một bộ giữ ngoài)?