Mối quan hệ giữa mất SVM và bản lề là gì?


9

Đồng nghiệp của tôi và tôi đang cố gắng che giấu sự khác biệt giữa hồi quy logistic và SVM. Rõ ràng họ đang tối ưu hóa các chức năng khách quan khác nhau. Là một SVM đơn giản như nói nó là một phân loại phân biệt đối xử chỉ đơn giản là tối ưu hóa mất bản lề? Hay nó phức tạp hơn thế? Làm thế nào để các vectơ hỗ trợ đi vào chơi? Còn các biến chùng thì sao? Tại sao bạn không có SVM sâu theo cách bạn không thể có một mạng lưới thần kinh sâu với các chức năng kích hoạt sigmoid?

Câu trả lời:


10

Đây là nỗ lực của tôi để trả lời câu hỏi của bạn:

  • Là một SVM đơn giản như nói nó là một phân loại phân biệt đối xử chỉ đơn giản là tối ưu hóa mất bản lề? Hay nó phức tạp hơn thế? Vâng, bạn có thể nói rằng. Ngoài ra, đừng quên rằng nó cũng thường xuyên hóa mô hình. Tôi không nói rằng SVM phức tạp hơn thế, tuy nhiên, điều quan trọng là phải đề cập rằng tất cả các lựa chọn đó (ví dụ như mất bản lề và chính quy ) có các diễn giải toán học chính xác và không phải là tùy ý. Đó là những gì làm cho SVM trở nên phổ biến và mạnh mẽ. Ví dụ, mất bản lề là một mức liên tục và lồi trên bị ràng buộc với mất nhiệm vụ, đối với các vấn đề phân loại nhị phân, là mất . Lưu ý rằngL20/10/1mất không lồi và không liên tục. Độ lồi của mất bản lề làm cho toàn bộ mục tiêu đào tạo của SVM lồi. Thực tế là giới hạn trên của nhiệm vụ mất đảm bảo rằng bộ giảm thiểu ràng buộc sẽ không có giá trị xấu đối với mất nhiệm vụ. hóa có thể được hiểu theo hình học là kích thước của lề.L2

  • Làm thế nào để các vectơ hỗ trợ đi vào chơi? Các vectơ hỗ trợ đóng vai trò quan trọng trong việc đào tạo các SVM. Họ xác định các siêu phẳng tách biệt. Đặt biểu thị một tập huấn luyện và là tập các vectơ hỗ trợ mà bạn có được bằng cách huấn luyện một SVM trên (giả sử tất cả các siêu đường kính đều được cố định trước). Nếu chúng ta loại bỏ tất cả các mẫu không phải SV từ và huấn luyện một SVM khác (có cùng giá trị siêu tham số) trên các mẫu còn lại (tức là trên ), chúng ta sẽ có được phân loại chính xác như trước!DSV(D)DDDSV(D)

  • Còn các biến chùng thì sao? SVM ban đầu được thiết kế cho các vấn đề tồn tại một siêu phẳng tách biệt (tức là một siêu phẳng tách hoàn toàn các mẫu huấn luyện khỏi hai lớp), và mục tiêu là tìm ra, trong số tất cả các siêu phẳng tách rời, siêu phẳng có lề lớn nhất . Các lề , ký hiệu bởi , được định nghĩa cho một phân và một tập huấn luyện . Giả sử tách hoàn toàn tất cả các ví dụ trong , chúng ta có , đó là khoảng cách của ví dụ huấn luyện gần nhất với siêu phẳng tách biệtd(w,D)wDwDd(w,D)=min(x,y)DywTx||w||2w . Lưu ý rằng tại đây. Việc giới thiệu các biến chùng giúp cho việc huấn luyện các SVM về các vấn đề trong đó 1) một siêu phẳng tách biệt không tồn tại (nghĩa là dữ liệu huấn luyện không thể phân tách tuyến tính) hoặc 2) bạn rất vui khi (hoặc muốn) hy sinh lỗi (độ lệch cao hơn) để tổng quát hóa tốt hơn (phương sai thấp hơn). Tuy nhiên, điều này có giá của việc phá vỡ một số diễn giải toán học và hình học cụ thể của các SVM mà không có các biến chùng (ví dụ: giải thích hình học của lề).y{+1,1}

  • Tại sao bạn không thể có SVM sâu? Mục tiêu SVM là lồi. Chính xác hơn, nó là bậc hai; đó là bởi vì bộ điều chỉnh là bậc hai và mất bản lề là tuyến tính. Các mục tiêu đào tạo trong các mô hình phân cấp sâu, tuy nhiên, phức tạp hơn nhiều. Đặc biệt, chúng không lồi. Tất nhiên, người ta có thể thiết kế một mô hình phân biệt đối xử phân cấp với mất bản lề và chuẩn hóa , v.v., nhưng, nó sẽ không được gọi là một SVM. Trên thực tế, mất bản lề thường được sử dụng trong DNN (Mạng lưới thần kinh sâu) cho các vấn đề phân loại.L2L2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.