Làm cách nào để chọn kích thước tập huấn, xác thực chéo và tập kiểm tra cho dữ liệu cỡ mẫu nhỏ?


10

Giả sử tôi có cỡ mẫu nhỏ, ví dụ N = 100 và hai lớp. Tôi nên chọn kích cỡ tập huấn, xác thực chéo và tập kiểm tra cho máy học như thế nào?

Tôi sẽ chọn trực giác

  • Tập kích thước tập là 50
  • Xác thực chéo đặt kích thước 25 và
  • Kích thước thử nghiệm là 25.

Nhưng có lẽ điều này làm cho ít nhiều ý nghĩa. Làm thế nào tôi thực sự nên quyết định những giá trị này? Tôi có thể thử các tùy chọn khác nhau không (mặc dù tôi đoán nó không thích hợp hơn ... tăng khả năng học tập quá mức)?

Nếu tôi có nhiều hơn hai lớp thì sao?


2
100 là quá nhỏ đối với tôi. Tôi sẽ chọn chiến lược bỏ qua một lần cho cả xác thực chéo và đánh giá thử nghiệm.
Ghi nhớ

Tôi chưa thấy tài liệu nào về điều này (cỡ mẫu tối thiểu để xác nhận). Không chắc chắn lý do tại sao. Có vẻ như một vấn đề quan trọng.
charles

Câu trả lời:


15

+1 hoàn toàn cho lời khuyên về tối ưu hóa tham số và độ phức tạp của mô hình. nhưng tất cả những lời khuyên này là tuyệt vời
charles

1

Cho rằng kích thước mẫu của bạn nhỏ, một thực hành tốt sẽ là bỏ qua phần xác thực chéo và sử dụng tỷ lệ 60 - 40 hoặc 70 - 30.

Như bạn có thể thấy trong phần 2.8 của Giới thiệu về Clementine và Khai thác dữ liệu và cả trong Thư viện MSDN - Khai thác dữ liệu - Đào tạo và kiểm tra Đặt tỷ lệ 70 - 30 là phổ biến. Theo bài giảng Machine Learning của Andrew Ng, tỷ lệ 60 - 20 - 20 được khuyến nghị.

Hy vọng tôi đã có ích. Trân trọng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.