Giới hạn tổng quát về SVM


11

Tôi quan tâm đến kết quả lý thuyết về khả năng khái quát hóa của Máy vectơ hỗ trợ, ví dụ như giới hạn về xác suất lỗi phân loại và về kích thước của LinkedInnik-Chervonenkis (VC) của các máy này. Tuy nhiên, đọc qua các tài liệu tôi đã có ấn tượng rằng một số kết quả định kỳ tương tự có xu hướng hơi khác nhau giữa tác giả và tác giả, đặc biệt là về các điều kiện kỹ thuật cần thiết cho một ràng buộc nhất định để giữ.

Sau đây tôi sẽ nhắc lại cấu trúc của vấn đề SVM và trạng thái 3 của các kết quả khái quát hóa chính mà tôi đã tìm thấy thường xuyên ở dạng này hay dạng khác tôi đưa ra 3 tài liệu tham khảo chính trong suốt quá trình giải trình.

Đặt vấn đề :

Giả sử chúng ta có một mẫu dữ liệu của các cặp (iid) độc lập và phân phối giống hệt nhau trong đó cho tất cả , và . Chúng tôi xây dựng một máy vectơ hỗ trợ (SVM) tối đa hóa lề tối thiểu giữa siêu phẳng tách biệt được xác định bởi , và và điểm gần nhất trong số để tách hai lớp được xác định bởi và . Chúng tôi cho phép SVM thừa nhận một số lỗi thông qua lề mềm bằng cách đưa ra các biến chùng i x iR p y i{ - 1 , 1 } m * { x : w x + b = 0 } w R p b R x 1 , , x n y = - 1 y = 1(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1 - w * b *ξ1,,ξn nhưng để đơn giản hóa công chứng, chúng tôi bỏ qua khả năng của hạt nhân. Các tham số giải pháp và thu được bằng cách giải chương trình tối ưu hóa bậc hai lồi sau đây:wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Chúng tôi quan tâm đến khả năng khái quát của máy này.

Kích thước vnnik-Chervonenkis VC :

Một kết quả đầu tiên là do (Vapnik, 2000), trong đó anh ta giới hạn kích thước VC của một siêu phẳng tách biệt, định lý 5.1. Để, chúng ta có:R=maxxixi

VCmin((Rm)2,p)+1

Kết quả này có thể được tìm thấy một lần nữa trong (Burges, 1998), định lý 6. Tuy nhiên, có vẻ như định lý của Burges hạn chế hơn so với kết quả tương tự của Vapnik, vì anh ta cần xác định một loại phân loại đặc biệt, được gọi là phân loại dung sai khoảng cách mà SVM thuộc về , để nêu định lý.-

Giới hạn xác suất lỗi :

Trong (Vapnik, 2000), định lý 5.2 trong trang 139 đưa ra các ràng buộc sau về khả năng khái quát hóa SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

Trong đó là số vectơ hỗ trợ của SVM. Kết quả này dường như được tìm thấy một lần nữa trong (Burges, 1998), phương trình (86) và (93) tương ứng. Nhưng một lần nữa, Burges dường như khác với Vapnik khi ông tách các thành phần trong hàm tối thiểu ở trên trong các định lý khác nhau, với các điều kiện khác nhau.nSV

Một kết quả khác xuất hiện trong (Vapnik, 2000), tr.133, là như sau. Giả sử một lần nữa rằng, với tất cả , và để và , chúng tôi xác định bằng:i h V C ε [ 0 , 1 ] ζxi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

Chúng tôi cũng định nghĩa là số ví dụ đào tạo được phân loại sai bởi SVM. Sau đó, với xác suất chúng ta có thể khẳng định rằng xác suất mà một ví dụ kiểm tra sẽ không được phân tách chính xác bởi siêu phẳng -margin tức là SVM có lề có ràng buộc: 1 - ε m * - m * -nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Tuy nhiên, trong (Hastie, Tibshirani và Friedman, 2009), tr.438, một kết quả rất giống nhau được tìm thấy:

ErrorTestζ

Kết luận :

Dường như với tôi rằng có một mức độ xung đột nhất định giữa các kết quả này. Mặt khác, hai trong số các tài liệu tham khảo này, mặc dù là kinh điển trong tài liệu SVM, bắt đầu hơi cũ (1998 và 2000), đặc biệt nếu chúng tôi xem xét rằng nghiên cứu về thuật toán SVM bắt đầu vào giữa những năm 1990.

Câu hỏi của tôi là:

  • Những kết quả này vẫn còn hiệu lực ngày hôm nay, hoặc chúng đã được chứng minh là sai?
  • Có giới hạn chặt chẽ hơn với các điều kiện tương đối lỏng lẻo đã được bắt nguồn từ đó? Nếu vậy, tôi có thể tìm thấy chúng ở đâu và ở đâu?
  • Cuối cùng, có tài liệu tham khảo nào tổng hợp các kết quả khái quát hóa chính về SVM không?

Tài liệu tham khảo :

Burges, JC (1998). "Hướng dẫn về Máy Vector Hỗ trợ Nhận dạng Mẫu", Khai thác Dữ liệu và Khám phá Kiến thức , 2: 121-167

Hastie, T., Tibshirani, R. và Friedman, J. (2009). Các yếu tố của học thống kê , ấn bản 2, Springer

Vapnik, VN (1998). Lý thuyết học thống kê , ấn bản 1, John Wiley & Sons

Vapnik, VN (1999). "Tổng quan về lý thuyết học thống kê", Giao dịch của IEEE trên mạng thần kinh , 10 (5): 988-999

Vapnik, VN (2000). Bản chất của lý thuyết học thống kê , tái bản lần 2, Springer


một tài liệu tham khảo tóm tắt các giới hạn rủi ro tiên tiến (tính đến năm 2008) cho các SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .
đăng ký

Câu trả lời:


3

Tôi không biết tài liệu mà bạn đề cập chi tiết, nhưng tôi nghĩ rằng một bản tóm tắt toàn diện về giới hạn khái quát hóa cần được cập nhật có thể được tìm thấy trong Boucheron et al. (2004) (Liên kết: https://www.researchgate.net/profile/Olivier_Bousquet/publication / 38718428 Canberra-Australia-Tháng Hai-2-14-2003-Tuebingen-Đức-Tháng Tám-4-16-2003-Revised-Lectures.pdf # page = 176 )

Tôi sẽ phác thảo một phần của SVM bị ràng buộc sau đây, để lại chi tiết và chứng minh.

Trước khi xây dựng cụ thể về ràng buộc SVM, chúng ta cần hiểu những gì giới hạn khái quát hóa đang cố gắng đạt được.

Trước tiên, chúng ta hãy giả sử rằng xác suất thực biết thì phân loại tốt nhất có thể sẽ là phân loại bayes, tức là P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

Mục tiêu của lý thuyết học thống kê hiện nay là tìm ra sự khác biệt giữa một bộ phân loại của lớp (ví dụ: SVM) và trình phân loại bayes, tức là Lưu ý rằng là sự mất mát cho dữ liệu và dự kiến là phân loại tốt nhất có thể trong mô hình lớp . Thuật ngữ được gọi là lỗi ước tính và thường là trọng tâm vì nó có thể được giới hạn dễ dàng hơn nhiều so với lỗi xấp xỉ (thuật ngữ khác). Tôi cũng sẽ bỏ qua lỗi gần đúng ở đây.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

Lỗi ước tính có thể được phân tách thêm bằng Bây giờ điều này có thể được giới hạn bởi hai bước:Z

Z=ZEZ+EZ.
  1. Giới hạn sử dụng bất đẳng thức McDiarmidZEZ

  2. Giới hạn với độ phức tạp RademacherEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Sử dụng bất đẳng thức McDiarmids người ta có thể chỉ ra rằng nếu hàm mất mát nằm trong một khoảng không quá , thì bước một dẫn đến một ràng buộc của trong đó là mức độ tin cậy. Đối với bước thứ hai, chúng ta có thể chỉ ra rằng Nếu bạn có chức năng mất riêng biệt, ví dụ như không phải là Lipchitz, chẳng hạn như 0-1 -loss, bạn sẽ cần Kích thước VC để tiếp tục giới hạn Độ phức tạp Rademacher. Tuy nhiên, đối với các chức năng L-lipchitz như Mất bản lề, điều này có thể bị giới hạn bởi trong đóB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λbiểu thị chính quy. Vì đối với tổn thất bản lề và (chứng minh với bất đẳng thức Gauchy-Schwartz), điều này càng đơn giản hóa. Cuối cùng, đặt tất cả các kết quả lại với nhau, chúng ta có thể giới hạn L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.