Trực giác cho tham số chính quy trong SVM


11

Làm thế nào để thay đổi tham số chính quy trong một SVM thay đổi ranh giới quyết định cho một tập dữ liệu không thể tách rời? Một câu trả lời trực quan và / hoặc một số bình luận về các hành vi hạn chế (đối với chính quy hóa lớn và nhỏ) sẽ rất hữu ích.

Câu trả lời:


17

Tham số chính quy (lambda) đóng vai trò là mức độ quan trọng được trao cho các phân loại sai. SVM đặt ra một vấn đề tối ưu hóa bậc hai tìm cách tối đa hóa lề giữa cả hai lớp và giảm thiểu số lượng phân loại sai. Tuy nhiên, đối với các vấn đề không thể tách rời, để tìm ra giải pháp, ràng buộc phân loại sai phải được nới lỏng và điều này được thực hiện bằng cách đặt "chính quy" đã đề cập.

Vì vậy, theo trực giác, khi lambda phát triển càng lớn thì càng ít các ví dụ phân loại sai được cho phép (hoặc mức giá cao nhất phải trả trong hàm mất mát). Sau đó, khi lambda có xu hướng vô hạn, giải pháp có xu hướng đến biên độ cứng (cho phép không phân loại sai). Khi lambda có xu hướng về 0 (không có 0) thì càng được phép phân loại sai.

Chắc chắn có một sự đánh đổi giữa hai và lambdas nhỏ hơn bình thường, nhưng không quá nhỏ, khái quát tốt. Dưới đây là ba ví dụ để phân loại SVM tuyến tính (nhị phân).

Tuyến tính SVM Lambda = 0,1 Tuyến tính SVM Lambda = 1 nhập mô tả hình ảnh ở đây

Đối với SVM phi tuyến tính, ý tưởng là tương tự. Vì điều này, đối với các giá trị cao hơn của lambda, khả năng bị quá mức cao hơn, trong khi đối với các giá trị thấp hơn của lambda thì khả năng bị thiếu hụt cao hơn.

Các hình ảnh dưới đây cho thấy hành vi của Hạt nhân RBF, để tham số sigma cố định trên 1 và thử lambda = 0,01 và lambda = 10

Hạt nhân RBF SVM lambda = 0,01 Hạt nhân RBF SVM lambda = 10

Bạn có thể nói hình đầu tiên nơi lambda thấp hơn "thoải mái" hơn hình thứ hai nơi dữ liệu được dự định sẽ được trang bị chính xác hơn.

(Các slide của Giáo sư Oriol Pujol. Đại học Barcelona)


Những bức ảnh đẹp! Bạn đã tự tạo ra chúng? Nếu có, có lẽ bạn có thể chia sẻ mã để vẽ chúng?
Alexey Grigorev

đồ họa đẹp. liên quan đến hai cái cuối => từ văn bản, người ta sẽ nghĩ rằng bức tranh đầu tiên là bức ảnh có lambda = 0,01, nhưng theo cách hiểu của tôi (và để phù hợp với biểu đồ lúc đầu) thì đây là bức ảnh có lambda = 10. bởi vì đây rõ ràng là một trong những điều kiện ít chính quy nhất (quá mức nhất, thoải mái nhất).
Wim 'titte' Thiels

^ đây là sự hiểu biết của tôi là tốt. Phần trên cùng của hai biểu đồ màu hiển thị rõ ràng nhiều đường viền hơn cho hình dạng của dữ liệu, do đó phải là biểu đồ trong đó lề của phương trình SVM được ưa thích với lambda cao hơn. Phần dưới của hai biểu đồ màu cho thấy sự phân loại dữ liệu thoải mái hơn (cụm màu xanh nhỏ trong vùng màu cam) có nghĩa là tối đa hóa lề không được ưa chuộng hơn là giảm thiểu số lượng lỗi trong phân loại.
Brian Ambielli
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.