Hiểu về hồi quy SVM: hàm mục tiêu và độ phẳng


12

Các SVM để phân loại có ý nghĩa trực quan với tôi: Tôi hiểu cách giảm thiểu ||θ||2 mang lại lợi nhuận tối đa. Tuy nhiên, tôi không hiểu mục tiêu đó trong bối cảnh hồi quy. Các văn bản khác nhau ( ở đâyở đây ) mô tả điều này là tối đa hóa "độ phẳng". Tại sao chúng ta muốn làm điều đó? Điều gì trong hồi quy là tương đương với khái niệm "lề"?

Dưới đây là một vài câu trả lời cố gắng, nhưng không có câu trả lời nào thực sự giúp tôi hiểu.


Tôi không thực sự tin vào lý thuyết SVM, nhưng 'độ phẳng' trong cuộc thảo luận về máy nhân mà bạn liên kết có vẻ như: 'có đạo hàm nhỏ thứ hai ' (nghĩ về động lực điển hình cho các mô hình làm mịn spline).
liên hợp chiến binh

Câu trả lời:


11

Một cách mà tôi nghĩ về độ phẳng là nó làm cho dự đoán của tôi ít nhạy cảm hơn với các nhiễu loạn trong các tính năng. Nghĩa là, nếu tôi đang xây dựng một mô hình có dạng nơi vector đặc trưng của tôi x đã được bình thường hóa, sau đó giá trị nhỏ hơn trong θ có nghĩa là mô hình của tôi là ít nhạy cảm với lỗi trong đo lường / cú sốc ngẫu nhiên / không -Sự ổn định của các tính năng, x . Đưa ra hai mô hình ( nghĩa là hai giá trị có thể có của θ ) giải thích dữ liệu tốt như nhau, tôi thích mô hình 'phẳng hơn'.

y=xθ+ϵ,
xθxθ

Bạn cũng có thể nghĩ về Regression Ridge như làm chính điều tương tự mà không cần thủ thuật kernel hoặc công thức hồi quy của ống SVM.

chỉnh sửa : Đáp lại bình luận của @ Yang, một số giải thích thêm:

  1. Hãy xem xét các trường hợp tuyến tính: . Giả sử x được rút iid từ một số phân phối, không phụ thuộc vào θ . Theo danh tính sản phẩm chấm, chúng ta có y = | | x | | | | θ | | cos ψ + ε , nơi ψ là góc giữa θx , mà có lẽ là phân phối theo một số phân phối hình cầu thống nhất. Bây giờ lưu ý: 'độ lây lan' ( ví dụ độ lệch chuẩn mẫu) của các dự đoán của chúng tôi vềy=xθ+ϵxθy=||x||||θ||cosψ+ϵψθx tỉ lệ với | | θ | | . Để có được MSE tốt với các phiên bản tiềm ẩn, không ồn ào của các quan sát của chúng tôi, chúng tôi muốn thu nhỏ điều đó | | θ | | . Côngcụ ước tính James Stein.y||θ||||θ||
  2. Hãy xem xét trường hợp tuyến tính với rất nhiều tính năng. Hãy xem xét các mô hình , và y = x q 2 + ε . Nếu θ 1 có nhiều phần tử bằng 0 hơn θ 2 , nhưng có cùng khả năng giải thích, chúng tôi sẽ thích nó hơn, dựa trên dao cạo của Occam, vì nó phụ thuộc vào ít biến số hơn ( nghĩa là chúng tôi đã 'thực hiện lựa chọn tính năng' bằng cách đặt một số yếu tố của θ 1 tới zero). Độ phẳng là một phiên bản liên tục của lập luận này. Nếu mỗi biên của xy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xcó đơn vị độ lệch chuẩn, và ví dụ 2 yếu tố đó là 10, và số còn lại n - 2 nhỏ hơn 0,0001, tùy thuộc vào sự khoan dung của bạn của tiếng ồn, đây là một cách hiệu quả 'chọn' hai tính năng, và zeroing ra những cái còn lại .θ1n2
  3. Khi lừa nhân được sử dụng, bạn đang thực hiện hồi quy tuyến tính trong không gian vectơ chiều cao (đôi khi vô hạn). Mỗi phần tử của hiện tương ứng với một trong các mẫu của bạn , không phải là các tính năng của bạn . Nếu k phần tử của θ là khác không và m - k còn lại bằng 0, các tính năng tương ứng với k phần tử khác không của θ được gọi là 'vectơ hỗ trợ' của bạn. Để lưu trữ mô hình SVM của bạn, giả sử trên đĩa, bạn chỉ cần giữ các vectơ đặc trưng k đó và bạn có thể ném phần còn lại của chúng đi. Bây giờ độ phẳng thực sự quan trọng, bởi vì có kθkθmkkθkknhỏ làm giảm lưu trữ và truyền tải, vv , yêu cầu. Một lần nữa, tùy thuộc vào sự khoan dung của bạn cho tiếng ồn, bạn có thể có thể không hiểu tất cả các yếu tố của nhưng l lớn nhất, đối với một số l , sau khi thực hiện một hồi quy SVM. Độ phẳng ở đây tương đương với Parsimony đối với số lượng vectơ hỗ trợ.θll

1
Vì vậy, đây về cơ bản là hồi quy với hàm mất 'ống' (0 hình phạt cho điểm +/- epsilon của dự đoán) chứ không phải là hàm mất bậc hai từ OLS?
liên hợp chiến binh

@Conjugate Trước: yes, hồi quy hạt nhân thường giảm thiểu một chức năng 'mất epsilon-insenstive', mà bạn có thể nghĩ đến như thấy ví dụ kernelsvm.tripod.com hoặc bất kỳ giấy tờ bởi Smola và cộng sự . f(x)=(|x|ϵ)+
shabbychef

@shabbychef Cảm ơn. Tôi luôn tự hỏi những gì đang xảy ra ở đó.
liên hợp chiến binh

@Conjugate Trước: Tôi không nghĩ rằng đây thực sự là hàm mất mát mong muốn, nhưng toán học kết thúc tốt đẹp, vì vậy họ đã chạy với nó. Ít nhất đó là sự nghi ngờ của tôi.
shabbychef

@shabbychef: Tôi vẫn bị lạc. Xét trường hợp một chiều: . Tất cả giảm thiểu θ làm là cung cấp cho bạn một hơn ngang dòng. Nó dường như không có gì để làm với đạo hàm thứ hai, mà tôi nghĩ rằng bạn đang đề cập đến ("độ mịn"). Và nếu điểm mẫu của tôi là (0,0) và (1,1e9), tại sao tôi lại thích một đường phẳng hơn? Ví dụ, nói tôi ε khoan dung là 1 - tại sao tôi muốn dòng phẳng từ (0,0) đến (1,1e9-1) ( θ = 1 e 9 - 1 ) thay vì dòng qua (1,1e9) ( θ = 1 e 9 ) hoặc dòng qua (1,1e9 + 1) ( θy=θxθϵθ=1e91θ=1e9 )? θ=1e9+1
Yang

3

shabbychef đã đưa ra một lời giải thích rất rõ ràng từ quan điểm của sự phức tạp của mô hình. Tôi sẽ cố gắng hiểu vấn đề này từ một quan điểm khác trong trường hợp nó có thể giúp đỡ bất cứ ai.

Về cơ bản chúng tôi muốn tối đa hóa lợi nhuận trong SVC. Đây là giống nhau ở SVR trong khi chúng tôi muốn tối đa hóa lỗi dự đoán trong một độ chính xác định nghĩa cho sự tổng quát tốt hơn. Ở đây nếu chúng ta giảm thiểu lỗi dự đoán thay vì tối đa hóa, kết quả dự đoán trên dữ liệu không xác định có nhiều khả năng bị quá mức. Chúng ta hãy suy nghĩ về "tối đa hóa lỗi dự đoán" trong trường hợp một chiều.e

Trong trường hợp một chiều, mục tiêu của chúng tôi là để tối đa hóa khoảng cách từ tất cả các điểm đến đường xu hướng y = ω x + b trong e . Lưu ý rằng chúng tôi đặt giới hạn độ chính xác là e để chúng tôi có thể tối đa hóa khoảng cách, không giảm thiểu . Sau đó chúng ta hãy xem phương trình rất đơn giản của khoảng cách từ một điểm đến một đường thẳng.(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

Ngay bây giờ tử số được giới hạn ở . Để phát huy tối đa khoảng cách, những gì chúng tôi cố gắng làm là để giảm thiểu ω .eω

Bất cứ ai cũng có thể dễ dàng mở rộng trường hợp một chiều sang trường hợp N chiều vì phương trình khoảng cách sẽ luôn là khoảng cách Euclide .

Ngoài ra, chúng tôi có thể có đánh giá về vấn đề tối ưu hóa trong SVR để so sánh [1].

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Cảm ơn.

[1] Smola, A. và B. Schölkopf. Một hướng dẫn về hồi quy vector hỗ trợ. Thống kê và tính toán, Tập. 14, số 3, ngày 8 tháng 8 năm 2004, trang 199


0

At least, I don't think minimizing θ has anything to do with the concept margin as in a SVM classification setting. It serves for a totally different goal that is well explained by the above two posts, i.e., reducing model complexity and avoiding overfitting.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.