Trước hết, không có lý do - ngoại trừ chi phí tính toán - không sử dụng toàn bộ dữ liệu của bạn. Miễn là bạn không sử dụng thông tin nhãn, không có lý do gì để không sử dụng tất cả thông tin bạn có thể nhận được từ dữ liệu của mình.
Tại sao các lượng tử của khoảng cách là một heuristic tốt? Giải pháp cho vấn đề SVM là sự kết hợp tuyến tính của các hạt nhân RBF nằm trên các vectơ hỗ trợ . Trong giai đoạn tìm hiểu, tối ưu hóa sẽ điều chỉnh để tối đa hóa lề trong khi vẫn giữ nguyên phân loại chính xác.α i∑iyiαiexp(−γ||x−xi||2)αi
Bây giờ, có hai trường hợp cực đoan cho sự lựa chọn :γ
- Hãy tưởng tượng rất nhỏ, điều đó có nghĩa là hạt nhân RBF rất rộng. Chúng ta hãy giả sử rằng nó rộng đến mức hạt nhân RBF vẫn đủ tích cực cho mọi điểm dữ liệu của bộ dữ liệu. Điều này có thể cung cấp cho trình tối ưu hóa một công việc khó khăn vì việc thay đổi giá trị của một sẽ thay đổi chức năng quyết định trên tất cả các điểm dữ liệu vì hạt nhân quá rộng.a iγαi
- Một tình huống cực đoan khác là khi lớn, điều đó có nghĩa là hạt nhân RBF rất hẹp. Khi thay đổi cho điểm dữ liệu đó, chức năng quyết định của SVM về cơ bản sẽ chỉ thay đổi đối với điểm dữ liệu đó. Điều này có nghĩa là có lẽ tất cả các vectơ đào tạo sẽ kết thúc như các vectơ hỗ trợ. Điều này rõ ràng là không mong muốn.a iγαi
Để thấy rằng heuristic là một lựa chọn tốt, người ta phải nhận ra rằng một giá trị nhất định của xác định một ranh giới cho hạt nhân RBF trong đó hạt nhân sẽ lớn hơn một giá trị nhất định (như giá trị một- -quantile cho Bình thường phân phối). Bằng cách chọn theo lượng tử trên khoảng cách theo cặp, bạn chắc chắn rằng một tỷ lệ phần trăm nhất định của các điểm dữ liệu nằm trong ranh giới đó. Do đó, nếu bạn thay đổi cho một datapoint, thực tế bạn sẽ chỉ ảnh hưởng đến chức năng quyết định cho một tỷ lệ phần trăm của các datapoint đó là những gì bạn muốn. Nên chọn tỷ lệ phần trăm như thế nào tùy thuộc vào vấn đề học tập, nhưng bạn tránh thay đổi chức năng quyết định cho tất cả hoặcσ gamma alpha iγσγαichỉ có một datapoint.