Máy hỗ trợ Vector có nhạy cảm với mối tương quan giữa các thuộc tính không?


11

Tôi muốn đào tạo một SVM để phân loại các trường hợp (TRUE / FALSE) dựa trên 20 thuộc tính. Tôi biết rằng một số thuộc tính có mối tương quan cao. Do đó, câu hỏi của tôi là: SVM có nhạy cảm với sự tương quan, hoặc dự phòng, giữa các tính năng không? Bất kỳ tài liệu tham khảo?


Tôi đoán là không, vì việc tạo một phân tách dựa trên một biến sẽ làm cho các biến tương quan khác yếu đi về các phân tách tiếp theo. Tuy nhiên, có thể có một số bất ổn về biến nào được chọn, tuy nhiên.
mandata

Bạn đang nói về một hạt nhân SVM tuyến tính, hoặc hạt nhân RBF, hoặc ...?
Dougal

Hmmmm, tôi không biết ... câu trả lời có phụ thuộc vào điều đó không?
dùng7064

Phải, chắc chắn rồi. Bạn có thể thiết kế một kernel để xử lý rõ ràng các mối tương quan, nếu bạn muốn.
Dougal

1
@Dougal: Nếu có các phương pháp để loại bỏ ảnh hưởng của tương quan, thì điều đó có nghĩa là SVM tiêu chuẩn nhạy cảm với tương quan không?
cfh

Câu trả lời:


12

Nhân tuyến tính: Hiệu ứng ở đây tương tự như đa nhân trong hồi quy tuyến tính. Mô hình đã học của bạn có thể không đặc biệt ổn định trước các biến thể nhỏ trong tập huấn luyện, bởi vì các vectơ trọng lượng khác nhau sẽ có đầu ra tương tự. Mặc dù vậy, các dự đoán tập huấn luyện sẽ khá ổn định và do đó sẽ kiểm tra dự đoán nếu chúng đến từ cùng một phân phối.

Hạt nhân RBF: Hạt nhân RBF chỉ xem xét khoảng cách giữa các điểm dữ liệu. Do đó, hãy tưởng tượng bạn thực sự có 11 thuộc tính, nhưng một trong số chúng được lặp lại 10 lần (một trường hợp khá cực đoan). Sau đó, thuộc tính lặp đi lặp lại đó sẽ đóng góp gấp 10 lần khoảng cách so với bất kỳ thuộc tính nào khác và mô hình đã học có thể sẽ bị ảnh hưởng nhiều hơn bởi tính năng đó.

Một cách đơn giản để giảm tương quan với hạt nhân RBF là sử dụng khoảng cách Mahalanobis: , trong đó là một ước tính của ma trận hiệp phương sai mẫu. Tương tự, ánh xạ tất cả các vectơ của bạn thành và sau đó sử dụng hạt nhân RBF thông thường, trong đó sao cho , ví dụ: phân tách Cholesky của .d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1


Đây là một câu trả lời rất thú vị; Tôi muốn đọc thêm về cách giảm thiểu các loại vấn đề này. Bạn có thể thêm một hoặc hai tài liệu tham khảo?
Sycorax nói Phục hồi lại

Tôi không biết một tay tốt, nhưng tôi sẽ tìm xung quanh một chút cho một, có lẽ tối nay.
Dougal

Tuyệt vời! Inbox tôi nếu bạn tình cờ tìm thấy một bài viết mát mẻ. Tôi rất vui vì (+1) của tôi có thể giúp bạn kiếm được hơn 3k. (-:
Sycorax nói Phục hồi lại

1
Nghịch đảo ma trận hiệp phương sai trong khoảng cách Mahalanobis là một chìa khóa. Nếu bạn có thể ước tính nó một cách đáng tin cậy, điều này ảnh hưởng có thể được tính đến.
Vladislavs Dovgalecs
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.