Hồi quy logistic hạt nhân so với SVM


32

Như đã biết, SVM có thể sử dụng phương thức kernel để chiếu các điểm dữ liệu trong không gian cao hơn để các điểm có thể được phân tách bằng một không gian tuyến tính. Nhưng chúng ta cũng có thể sử dụng hồi quy logistic để chọn ranh giới này trong không gian kernel, vậy lợi thế của SVM là gì? Vì SVM sử dụng một mô hình thưa thớt trong đó chỉ những vectơ hỗ trợ đó đóng góp khi dự đoán, điều này có làm cho SVM nhanh hơn trong dự đoán không?


1
Các slide của Hastie là những gì bạn đang tìm kiếm
Yibo Yang

Câu trả lời:


28

KLR và SVM

  1. Hiệu suất phân loại gần như giống hệt nhau trong cả hai trường hợp.
  2. KLR có thể cung cấp xác suất lớp trong khi SVM là phân loại xác định.
  3. KLR có sự mở rộng tự nhiên đối với phân loại nhiều lớp trong khi trong SVM, có nhiều cách để mở rộng sang phân loại nhiều lớp (và đây vẫn là một lĩnh vực nghiên cứu cho dù có phiên bản nào có chất lượng vượt trội so với các loại khác).
  4. Đáng ngạc nhiên hay không ngạc nhiên, KLR cũng có các thuộc tính ký quỹ tối ưu mà các SVM được hưởng (ít nhất là trong giới hạn)!

Nhìn vào phần trên có vẻ như hồi quy logistic kernel là những gì bạn nên sử dụng. Tuy nhiên, có những lợi thế nhất định mà các SVM được hưởng

  1. KLR đắt hơn về mặt tính toán so với SVM - so với trong đó là số lượng vectơ hỗ trợ.O(N3)O(N2k)k
  2. Trình phân loại trong SVM được thiết kế sao cho nó chỉ được định nghĩa theo các vectơ hỗ trợ, trong khi ở KLR, trình phân loại được xác định trên tất cả các điểm chứ không chỉ các vectơ hỗ trợ. Điều này cho phép các SVM tận hưởng một số tăng tốc tự nhiên (về mặt viết mã hiệu quả) mà khó có thể đạt được đối với KLR.

7
+1 Tôi chỉ nói thêm rằng nếu độ phức tạp tính toán là một vấn đề, thì không quá khó để xây dựng mô hình hồi quy logistic hạt nhân thưa thớt bằng cách chọn tham gia các vectơ cơ sở để giảm thiểu tổn thất thường xuyên trên tập huấn luyện hoặc các phương pháp khác. Xem các giấy tờ trên "Máy Vector thông tin" chẳng hạn.
Dikran Marsupial

4
Ngoài ra, khá thường xuyên nếu bạn tối ưu hóa hạt nhân và các tham số chính quy của một SVM, bạn kết thúc với một mô hình trong đó hầu như tất cả các dữ liệu là các vectơ hỗ trợ. Sự thưa thớt của SVM là một tai nạn hạnh phúc, nó không thực sự là một điểm bán hàng tốt của kỹ thuật vì nói chung có thể đạt được độ thưa thớt lớn hơn bằng các phương tiện khác.
Dikran Marsupial

1
@DikranMarsupial Cảm ơn con trỏ đến Máy Vector Thông tin. Tôi biết một số tác phẩm trong KLR thưa thớt nhưng cho đến nay tôi không nghĩ bất kỳ tác phẩm nào trong số chúng có quy mô tốt cho các bộ dữ liệu lớn. Dù bằng cách nào, việc phát hành một triển khai tốt của KLR thưa thớt, thân thiện với người dùng như libSVM hoặc SVM Light có thể đi một chặng đường dài trong việc áp dụng nó. Xin lỗi nếu việc triển khai như vậy đã tồn tại, tuy nhiên tôi không biết gì cả (EDIT: Tôi nghĩ bạn có nghĩa là "Nhập máy vectơ" thay vì "Máy vectơ thông tin"?)
TenaliRaman

2
Nếu bạn kết thúc với tất cả các điểm dữ liệu dưới dạng các vectơ hỗ trợ, thì bạn đã quá phù hợp. Điều này xảy ra với RBF nhiều lần. Trong thực tế, một trong những điều cơ bản mà tôi đã học được khi sử dụng SVM là trước tiên và kiểm tra trước hết phần được chọn làm vectơ hỗ trợ. Nếu đó là bất cứ thứ gì nhiều hơn 30% dữ liệu, tôi hoàn toàn từ chối mô hình đó.
TenaliRaman

3
Điều không đúng là tất cả các điểm dữ liệu là SV có nghĩa là quá khớp. Nếu giá trị của C là nhỏ, thì có rất ít hình phạt cho các biến chùng thì bạn có thể có một bộ phân loại rất nhạt nhẽo (điều đó gây ra nhiều lỗi trên tập huấn luyện) và lề quá rộng để tất cả dữ liệu là các vectơ hỗ trợ. Từ chối các mô hình không thưa thớt không phải là một quy tắc tốt vì đôi khi SVM với hiệu suất tổng quát hóa tốt nhất là không thưa thớt. Số lượng SV là giới hạn trên của lỗi bỏ qua một lần, nhưng thực sự nó thường là một ràng buộc rất mất!
Dikran Marsupial

15

Đây là vấn đề của tôi:

SVM là một cách rất thanh lịch để làm phân loại. Có một số lý thuyết hay, một số toán học hay, chúng khái quát tốt và chúng cũng không quá chậm. Cố gắng sử dụng chúng để hồi quy, và nó trở nên lộn xộn.

  • Đây là một tài nguyên về hồi quy SVM. Lưu ý các tham số bổ sung cho twiddle và thảo luận chuyên sâu về các thuật toán tối ưu hóa.

Hồi quy quy trình Gaussian có rất nhiều phép toán kernelly tương tự, và nó hoạt động rất tốt cho hồi quy. Một lần nữa, rất thanh lịch, và nó không quá chậm. Cố gắng sử dụng chúng để phân loại, và nó bắt đầu cảm thấy khá bẩn.

  • Đây là một chương trong cuốn sách GP về hồi quy.

  • Đây là một chương về phân loại, để so sánh. Lưu ý rằng bạn kết thúc với một số xấp xỉ phức tạp hoặc một phương pháp lặp.

Tuy nhiên, một điều tuyệt vời khi sử dụng GP để phân loại là nó cung cấp cho bạn một phân phối dự đoán, thay vì phân loại có / không đơn giản.


2
Các GP +1 là một thay thế tốt cho KLR (mặc dù KLR thường cho hiệu suất tốt hơn vì lựa chọn mô hình dựa trên bằng chứng có thể bị sai khá dễ dàng nếu có đặc điểm kỹ thuật sai của mô hình) và thường được xác nhận chéo.
Dikran Marsupial

7

vui lòng truy cập http://www.stanford.edu/~hastie/Papers/svmtalk.pdf

Một số kết luận: Hiệu suất phân loại rất giống nhau. Đã giới hạn các thuộc tính lề tối ưu. Cung cấp các ước tính về xác suất của lớp. Thông thường những thứ này hữu ích hơn các phân loại. Tổng quát hóa một cách tự nhiên cho phân loại lớp M thông qua hồi quy đa logit kernel.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.