Mô hình thống kê đằng sau thuật toán SVM là gì?


28

Tôi đã học được rằng, khi xử lý dữ liệu bằng cách sử dụng phương pháp dựa trên mô hình, bước đầu tiên là mô hình hóa thủ tục dữ liệu dưới dạng mô hình thống kê. Sau đó, bước tiếp theo là phát triển thuật toán học / suy luận nhanh / hiệu quả dựa trên mô hình thống kê này. Vì vậy, tôi muốn hỏi mô hình thống kê nào đứng sau thuật toán máy vectơ hỗ trợ (SVM)?

Câu trả lời:


27

Bạn thường có thể viết một mô hình tương ứng với hàm mất (ở đây tôi sẽ nói về hồi quy SVM thay vì phân loại SVM; nó đặc biệt đơn giản)

Ví dụ: trong mô hình tuyến tính, nếu hàm mất của bạn là thì tối thiểu hóa sẽ tương ứng với khả năng tối đa cho . (Ở đây tôi có một hạt nhân tuyến tính)f exp ( - aig(εi)=ig(yixiβ)= exp ( - afexp(ag(ε)) =exp(ag(yxβ))

Nếu tôi nhớ chính xác hồi quy SVM có hàm mất như thế này:

âm mưu mất epsilon không nhạy cảm

Điều đó tương ứng với mật độ đồng nhất ở giữa với các đuôi theo cấp số nhân (như chúng ta thấy bằng cách lũy thừa âm của nó, hoặc một số bội số âm của nó).

biểu đồ mật độ tương ứng

Có một nhóm 3 tham số gồm: vị trí góc (ngưỡng không nhạy cảm tương đối) cộng với vị trí và tỷ lệ.

Đó là một mật độ thú vị; Nếu tôi nhớ lại chính xác khi nhìn vào phân phối cụ thể đó vài thập kỷ trước, một công cụ ước tính tốt cho vị trí của nó là trung bình của hai lượng tử được đặt đối xứng tương ứng với vị trí của các góc (ví dụ: midriale sẽ đưa ra xấp xỉ tốt cho MLE cho một cụ thể sự lựa chọn của hằng số trong tổn thất SVM); một công cụ ước tính tương tự cho tham số tỷ lệ sẽ dựa trên sự khác biệt của chúng, trong khi tham số thứ ba về cơ bản tương ứng với việc tìm ra tỷ lệ phần trăm của các góc (điều này có thể được chọn thay vì ước tính như thường thấy đối với SVM).

Vì vậy, ít nhất đối với hồi quy SVM có vẻ khá đơn giản, ít nhất là nếu chúng ta chọn lấy ước tính của mình theo khả năng tối đa.

(Trong trường hợp bạn sắp hỏi ... Tôi không có tài liệu tham khảo nào về kết nối cụ thể này với SVM: Bây giờ tôi mới làm việc đó. Thật đơn giản, tuy nhiên, hàng chục người sẽ giải quyết nó trước tôi nên không nghi ngờ gì nữa có tài liệu tham khảo cho nó - tôi vừa mới chưa bao giờ thấy bất kỳ).


2
. một vài tháng)
Glen_b -Reinstate Monica

2
2

2
Nếu OP đang hỏi về SVM, họ có thể quan tâm đến việc phân loại (đây là ứng dụng phổ biến nhất của SVM). Trong trường hợp đó, tổn thất là mất bản lề , một chút khác biệt (bạn không có phần tăng lên). Liên quan đến mô hình, tôi đã nghe các học giả nói tại hội nghị rằng các SVM được giới thiệu để thực hiện phân loại mà không phải sử dụng khung xác suất. Có lẽ đó là lý do tại sao bạn không thể tìm thấy tài liệu tham khảo. Mặt khác, bạn có thể và bạn thực hiện lại việc giảm thiểu tổn thất bản lề như giảm thiểu rủi ro theo kinh nghiệm - có nghĩa là ...
DeltaIV

4
Chỉ vì bạn không cần phải có khung xác suất ... không có nghĩa là những gì bạn đang làm không tương ứng với một khung. Người ta có thể thực hiện các hình vuông nhỏ nhất mà không cần giả định tính bình thường, nhưng thật hữu ích khi hiểu rằng đó là những gì nó đang hoạt động tốt ... và khi bạn không ở gần đó thì nó có thể hoạt động kém hơn nhiều.
Glen_b -Reinstate Monica

3
Có lẽ icml-2011.org/ con / 386_icmlapers.pdf là một tài liệu tham khảo cho điều này? (Tôi chỉ đọc lướt qua)
Lyndon White

8

Tôi nghĩ rằng ai đó đã trả lời câu hỏi theo nghĩa đen của bạn, nhưng hãy để tôi làm sáng tỏ một sự nhầm lẫn tiềm ẩn.

Câu hỏi của bạn có phần giống như sau:

f(x)=

Nói cách khác, nó chắc chắn một câu trả lời hợp lệ (thậm chí là một câu trả lời duy nhất nếu bạn áp đặt các ràng buộc về tính đều đặn), nhưng đó là một câu hỏi khá lạ, vì nó không phải là một phương trình vi phân làm phát sinh hàm đó ngay từ đầu.
(Mặt khác, với phương trình vi phân, việc hỏi giải pháp của nó là điều tự nhiên, vì đó thường là lý do tại sao bạn viết phương trình!)

Dưới đây là lý do: Tôi nghĩ rằng bạn đang nghĩ đến việc xác suất / thống kê từ các hãng cụ thể, sinh sảnphân biệt các mô hình, dựa trên ước tính xác suất doanh và điều kiện từ dữ liệu.

Các SVM là không. Đó là một kiểu hoàn toàn khác của mô hình mà một người bỏ qua những người đó và cố gắng trực tiếp mô hình hóa ranh giới quyết định cuối cùng, xác suất bị nguyền rủa.

Vì đó là về việc tìm ra hình dạng của ranh giới quyết định, trực giác đằng sau nó là hình học (hoặc có lẽ chúng ta nên nói dựa trên tối ưu hóa) chứ không phải xác suất hoặc thống kê.

Do đó, xác suất không thực sự được xem xét ở mọi nơi trên đường đi, nên việc hỏi một mô hình xác suất tương ứng có thể là gì, và đặc biệt là vì toàn bộ mục tiêu là để tránh phải lo lắng về xác suất. Do đó tại sao bạn không thấy mọi người nói về họ.


6
Tôi nghĩ rằng bạn đang giảm giá trị của các mô hình thống kê theo quy trình của bạn. Lý do nó hữu ích là vì nó cho bạn biết những giả định nào đằng sau một phương thức. Nếu bạn biết những điều này, bạn có thể hiểu những tình huống nào nó sẽ đấu tranh và khi nào nó sẽ phát triển mạnh. Bạn cũng có thể khái quát hóa và mở rộng svm theo cách nguyên tắc nếu bạn có mô hình cơ bản.
xác suất

3
@probabilityislogic: "Tôi nghĩ rằng bạn đang giảm giá trị của các mô hình thống kê làm thủ tục của bạn." ... Tôi nghĩ rằng chúng ta đang nói chuyện với nhau. Những gì tôi đang cố gắng để nói là có không phải là một mô hình thống kê đằng sau các thủ tục. Tôi không nói rằng không thể đưa ra một cái phù hợp với nó sau, nhưng tôi đang cố gắng giải thích rằng nó không "đứng sau" nó theo bất kỳ cách nào, mà là "phù hợp" với nó sau thực tế . Tôi cũng không nói rằng làm một việc như vậy là vô ích; Tôi đồng ý với bạn rằng nó có thể kết thúc với giá trị to lớn. Hãy ghi nhớ những sự phân biệt này trong tâm trí.
Mehrdad

1
@Mehrdad: Tôi không nói rằng không thể đưa ra một cái phù hợp với nó một posteriori, Thứ tự mà các mảnh mà chúng ta gọi là 'cỗ máy' được lắp ráp để giải quyết) là thú vị từ một lịch sử của quan điểm khoa học. Nhưng đối với tất cả chúng ta biết có thể có một bản thảo chưa được biết đến trong một số thư viện có chứa một mô tả về động cơ svm từ 200 năm trước, tấn công vấn đề từ góc độ mà Glen_b đã khám phá. Có thể các khái niệm của một posteriorisau thực tế là ít tin cậy hơn trong khoa học.
dùng603

1
@ user603: Không chỉ là lịch sử mà vấn đề ở đây. Các khía cạnh lịch sử chỉ là một nửa của nó. Nửa còn lại là cách nó thực sự bắt nguồn từ thực tế. Nó bắt đầu như một vấn đề hình học và kết thúc bằng một vấn đề tối ưu hóa. Không ai bắt đầu với mô hình xác suất trong đạo hàm, có nghĩa là mô hình xác suất không có nghĩa là "đằng sau" kết quả. Nó giống như tuyên bố cơ học Lagrangian là "phía sau" F = ma. Có lẽ nó có thể dẫn đến nó, và vâng nó rất hữu ích, nhưng không, nó không phải và không bao giờ là nền tảng của nó. Trong thực tế, toàn bộ mục tiêu là để tránh xác suất.
Mehrdad
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.