Tại sao tỷ lệ lại quan trọng đối với phân loại SVM tuyến tính?


15

Khi thực hiện phân loại SVM tuyến tính, thường hữu ích khi bình thường hóa dữ liệu huấn luyện, ví dụ bằng cách trừ giá trị trung bình và chia cho độ lệch chuẩn và sau đó chia tỷ lệ dữ liệu thử nghiệm với độ lệch chuẩn và trung bình của dữ liệu huấn luyện. Tại sao quá trình này thay đổi đáng kể hiệu suất phân loại?


1
Câu hỏi này đã được trả lời stackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc

Cảm ơn bạn, juampa! Tuy nhiên, tôi vẫn chưa hoàn toàn rõ ràng lý do tại sao bộ kiểm tra cần phải được thu nhỏ với giá trị trung bình và tiêu chuẩn của tập huấn luyện thay vì của chính nó? Trong một số trường hợp, sau này dường như thực hiện tốt euqlly hoặc thậm chí tốt hơn khi hai lớp mẫu được cân bằng tốt trong bộ thử nghiệm.
Thanh Hoa

1
bởi vì sau đó bạn không nhất quán Bạn đang thử nghiệm trên các dữ liệu khác nhau. Hãy tưởng tượng bạn vẽ các mẫu từ một Gaussian N (mu, sigma). Bạn đã đào tạo với N (0,1) (sau khi định tâm và chia tỷ lệ) nhưng đã thử nghiệm với N (mu, sigma)
jpmuc

Câu trả lời:


12

Tôi nghĩ rằng nó có thể được làm rõ hơn thông qua một ví dụ. Giả sử bạn có hai vectơ đầu vào: X1 và X2. và giả sử X1 có phạm vi (0,1 đến 0,8) và X2 có phạm vi (3000 đến 50000). Bây giờ trình phân loại SVM của bạn sẽ là một ranh giới tuyến tính nằm trong mặt phẳng X1-X2. Yêu cầu của tôi là độ dốc của ranh giới quyết định tuyến tính không nên phụ thuộc vào phạm vi của X1 và X2, mà thay vào đó là sự phân bố các điểm.

Bây giờ hãy đưa ra dự đoán về điểm (0,1, 4000) và (0,8, 4000). Hầu như không có bất kỳ sự khác biệt nào về giá trị của hàm, do đó làm cho SVM kém chính xác hơn vì nó sẽ có độ nhạy ít hơn đối với các điểm theo hướng X1.


7

SVM cố gắng tối đa hóa khoảng cách giữa mặt phẳng phân cách và các vectơ hỗ trợ. Nếu một tính năng (tức là một chiều trong không gian này) có giá trị rất lớn, nó sẽ thống trị các tính năng khác khi tính khoảng cách. Nếu bạn bán lại tất cả các tính năng (ví dụ: [0, 1]), tất cả chúng đều có cùng ảnh hưởng đến số liệu khoảng cách.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.