Sau khi đọc lại câu hỏi này, tôi có thể cung cấp cho bạn các ràng buộc sau:
Giả sử các mẫu được rút ra iid, sự phân bố là cố định, và sự mất mát được bao bọc bởi , sau đó với xác suất ít nhất 1 - δ ,
E [ E ( h ) ] ≤ E ( h ) + B √B1 - δ
E [ E( h ) ] ≤ E^( h ) + nhật ký B1δ2 m-----√
nơi là kích thước mẫu, và 1 - δ là sự tự tin. Các ràng buộc giữ tầm thường bởi sự bất bình đẳng của McDiarmid.m1 - δ
là kích thước mẫu, E [ E ( h ) ] là lỗi tổng quát, và E ( h ) là lỗi thử nghiệm cho giả thuyết.mE [ E( h ) ]E^( h )
Vui lòng không chỉ báo cáo lỗi xác thực chéo cũng như lỗi kiểm tra, những lỗi này nói chung là vô nghĩa vì chúng chỉ là ước tính điểm.
Bài cũ để ghi lại:
Tôi không chắc chắn rằng tôi hoàn toàn hiểu câu hỏi của bạn, nhưng tôi sẽ đâm vào nó.
Đầu tiên, tôi không chắc chắn làm thế nào bạn sẽ xác định một khoảng dự đoán cho lựa chọn mô hình, vì theo tôi hiểu, các khoảng dự đoán đưa ra một số giả định phân phối. Thay vào đó, bạn có thể rút ra các bất đẳng thức tập trung, về cơ bản ràng buộc một biến ngẫu nhiên bởi phương sai của nó đối với một số xác suất. Bất bình đẳng tập trung được sử dụng thông qua học máy, bao gồm cả lý thuyết nâng cao để tăng cường. Trong trường hợp này, bạn muốn ràng buộc lỗi tổng quát hóa (lỗi nói chung, các điểm bạn chưa thấy) bởi lỗi thực nghiệm (lỗi của bạn trên tập kiểm tra) cộng với một số thuật ngữ phức tạp và thuật ngữ liên quan đến phương sai.
Bây giờ tôi cần phải xua tan một sự hiểu lầm về xác nhận chéo là cực kỳ phổ biến. Xác thực chéo sẽ chỉ cung cấp cho bạn một ước tính không thiên vị về lỗi dự kiến của một mô hình CHO MỘT KÍCH THƯỚC MẪU CỐ ĐỊNH. Bằng chứng cho điều này chỉ hoạt động cho giao thức rời khỏi. Điều này thực sự khá yếu, vì nó không cung cấp cho bạn thông tin nào về phương sai. Mặt khác, xác nhận chéo sẽ trả về một mô hình gần với giải pháp giảm thiểu rủi ro cấu trúc, đây là giải pháp tốt nhất về mặt lý thuyết. Bạn có thể tìm thấy bằng chứng trong phần phụ lục tại đây: http://www.cns.nyu.edu/~rabadi/resource/scat-150519.pdf
Vậy làm thế nào để rút ra một khái quát ràng buộc? (Hãy nhớ một ràng buộc khái quát hóa về cơ bản là một khoảng dự đoán về lỗi tổng quát hóa cho một mô hình cụ thể). Vâng, các giới hạn là thuật toán cụ thể. Thật không may, chỉ có một cuốn sách giáo khoa đặt giới hạn cho tất cả các thuật toán thường được sử dụng trong học máy (bao gồm cả tăng tốc). Cuốn sách là Những nền tảng của Machine Learning (2012) của Mohri, Rostamizadeh và Talwalkar. Đối với các slide bài giảng bao trùm tài liệu, bạn có thể tìm thấy chúng trên trang web của Mohri: http://www.cs.nyu.edu/~mohri/ml14/
Mặc dù Yếu tố học tập thống kê là một cuốn sách quan trọng và có phần hữu ích, nhưng nó không nghiêm ngặt và nó bỏ qua nhiều chi tiết kỹ thuật rất quan trọng liên quan đến các thuật toán và hoàn toàn bỏ qua bất kỳ giới hạn khái quát nào. Các nền tảng của Machine Learning là cuốn sách toàn diện nhất cho máy học (điều này có ý nghĩa khi thấy nó được viết bởi một số thứ tốt nhất trong lĩnh vực này). Tuy nhiên, sách giáo khoa là tiên tiến, vì vậy chỉ cần cẩn thận các chi tiết kỹ thuật.
Có thể tìm thấy khái quát hóa để tăng cường (có bằng chứng) tại đây: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Tôi hy vọng đó là những gợi ý đủ để trả lời câu hỏi của bạn. Tôi do dự về việc đưa ra một câu trả lời hoàn chỉnh bởi vì sẽ mất khoảng 50 trang để xem qua tất cả các chi tiết cần thiết, chứ đừng nói đến các cuộc thảo luận sơ bộ ...
Chúc may mắn!