Tôi quan tâm đến kết quả lý thuyết về khả năng khái quát hóa của Máy vectơ hỗ trợ, ví dụ như giới hạn về xác suất lỗi phân loại và về kích thước của LinkedInnik-Chervonenkis (VC) của các máy này. Tuy nhiên, đọc qua các tài liệu tôi đã có ấn tượng rằng một số kết quả định kỳ tương tự có xu hướng hơi khác nhau giữa tác giả và tác giả, đặc biệt là về các điều kiện kỹ thuật cần thiết cho một ràng buộc nhất định để giữ.
Sau đây tôi sẽ nhắc lại cấu trúc của vấn đề SVM và trạng thái 3 của các kết quả khái quát hóa chính mà tôi đã tìm thấy thường xuyên ở dạng này hay dạng khác tôi đưa ra 3 tài liệu tham khảo chính trong suốt quá trình giải trình.
Đặt vấn đề :
Giả sử chúng ta có một mẫu dữ liệu của các cặp (iid) độc lập và phân phối giống hệt nhau trong đó cho tất cả , và . Chúng tôi xây dựng một máy vectơ hỗ trợ (SVM) tối đa hóa lề tối thiểu giữa siêu phẳng tách biệt được xác định bởi , và và điểm gần nhất trong số để tách hai lớp được xác định bởi và . Chúng tôi cho phép SVM thừa nhận một số lỗi thông qua lề mềm bằng cách đưa ra các biến chùng i x i ∈ R p y i ∈ { - 1 , 1 } m * { x : w ⋅ x + b = 0 } w ∈ R p b ∈ R x 1 , ⋯ , x n y = - 1 y = 1 - w * b * nhưng để đơn giản hóa công chứng, chúng tôi bỏ qua khả năng của hạt nhân. Các tham số giải pháp và thu được bằng cách giải chương trình tối ưu hóa bậc hai lồi sau đây:
Chúng tôi quan tâm đến khả năng khái quát của máy này.
Kích thước vnnik-Chervonenkis :
Một kết quả đầu tiên là do (Vapnik, 2000), trong đó anh ta giới hạn kích thước VC của một siêu phẳng tách biệt, định lý 5.1. Để, chúng ta có:
Kết quả này có thể được tìm thấy một lần nữa trong (Burges, 1998), định lý 6. Tuy nhiên, có vẻ như định lý của Burges hạn chế hơn so với kết quả tương tự của Vapnik, vì anh ta cần xác định một loại phân loại đặc biệt, được gọi là phân loại dung sai khoảng cách mà SVM thuộc về , để nêu định lý.-
Giới hạn xác suất lỗi :
Trong (Vapnik, 2000), định lý 5.2 trong trang 139 đưa ra các ràng buộc sau về khả năng khái quát hóa SVM:
Trong đó là số vectơ hỗ trợ của SVM. Kết quả này dường như được tìm thấy một lần nữa trong (Burges, 1998), phương trình (86) và (93) tương ứng. Nhưng một lần nữa, Burges dường như khác với Vapnik khi ông tách các thành phần trong hàm tối thiểu ở trên trong các định lý khác nhau, với các điều kiện khác nhau.
Một kết quả khác xuất hiện trong (Vapnik, 2000), tr.133, là như sau. Giả sử một lần nữa rằng, với tất cả , và để và , chúng tôi xác định bằng: h ≡ V C ε ∈ [ 0 , 1 ] ζ
Chúng tôi cũng định nghĩa là số ví dụ đào tạo được phân loại sai bởi SVM. Sau đó, với xác suất chúng ta có thể khẳng định rằng xác suất mà một ví dụ kiểm tra sẽ không được phân tách chính xác bởi siêu phẳng -margin tức là SVM có lề có ràng buộc: 1 - ε m * - m * -
Tuy nhiên, trong (Hastie, Tibshirani và Friedman, 2009), tr.438, một kết quả rất giống nhau được tìm thấy:
Kết luận :
Dường như với tôi rằng có một mức độ xung đột nhất định giữa các kết quả này. Mặt khác, hai trong số các tài liệu tham khảo này, mặc dù là kinh điển trong tài liệu SVM, bắt đầu hơi cũ (1998 và 2000), đặc biệt nếu chúng tôi xem xét rằng nghiên cứu về thuật toán SVM bắt đầu vào giữa những năm 1990.
Câu hỏi của tôi là:
- Những kết quả này vẫn còn hiệu lực ngày hôm nay, hoặc chúng đã được chứng minh là sai?
- Có giới hạn chặt chẽ hơn với các điều kiện tương đối lỏng lẻo đã được bắt nguồn từ đó? Nếu vậy, tôi có thể tìm thấy chúng ở đâu và ở đâu?
- Cuối cùng, có tài liệu tham khảo nào tổng hợp các kết quả khái quát hóa chính về SVM không?
Tài liệu tham khảo :
Hastie, T., Tibshirani, R. và Friedman, J. (2009). Các yếu tố của học thống kê , ấn bản 2, Springer
Vapnik, VN (1998). Lý thuyết học thống kê , ấn bản 1, John Wiley & Sons
Vapnik, VN (2000). Bản chất của lý thuyết học thống kê , tái bản lần 2, Springer