Như highBandference đề xuất, nó phụ thuộc vào việc bạn đang sử dụng một SVM tuyến tính hay phi tuyến tính (là phạm vi nếu một hạt nhân không được sử dụng, nó là một phân loại tuyến tính lề tối đa chứ không phải là một SVM).
Trình phân loại tuyến tính lề tối đa không khác với bất kỳ phân loại tuyến tính nào khác ở chỗ nếu quá trình tạo dữ liệu có nghĩa là có các tương tác giữa các thuộc tính, thì việc cung cấp các thuật ngữ tương tác đó có khả năng cải thiện hiệu suất. Trình phân loại tuyến tính lề tối đa khá giống như hồi quy sườn, với một chút khác biệt trong thời hạn hình phạt được thiết kế để tránh bị quá mức (đưa ra các giá trị phù hợp cho tham số chính quy), và trong hầu hết các trường hợp, hồi quy sườn và phân loại lề tối đa sẽ cho hiệu suất tương tự.
Nếu bạn nghĩ rằng các thuật ngữ tương tác có thể quan trọng, thì bạn có thể đưa chúng vào không gian tính năng của một SVM bằng cách sử dụng hạt nhân đa thức , sẽ cung cấp một không gian đặc trưng trong đó mỗi trục đại diện cho một đơn hàng d hoặc ít hơn, tham số c ảnh hưởng đến trọng số tương đối của các đơn thức của các đơn hàng khác nhau. Vì vậy, một SVM với hạt nhân đa thức tương đương với việc khớp một mô hình đa thức trong không gian thuộc tính, kết hợp hoàn toàn với các tương tác đó.K(x,x′)=(x⋅x′+c)ddc
Được cung cấp đủ các tính năng, bất kỳ phân loại tuyến tính nào cũng có thể phù hợp với dữ liệu. IIRC một điểm ở "vị trí chung" trong n - 1nn−1không gian thứ nguyên có thể bị phá vỡ (phân tách theo bất kỳ cách tùy ý nào) bởi một siêu mặt phẳng (kích thước VC cf). Làm điều này thường sẽ dẫn đến sự phù hợp quá mức nghiêm trọng, và vì vậy nên tránh. Điểm của phân loại lề tối đa là hạn chế sự phù hợp quá mức này bằng cách thêm một điều khoản phạt có nghĩa là có thể đạt được sự phân tách lớn nhất (điều này đòi hỏi độ lệch lớn nhất so với bất kỳ ví dụ đào tạo nào để tạo ra sự phân loại sai). Điều này có nghĩa là bạn có thể chuyển đổi dữ liệu thành một không gian có chiều rất cao (trong đó mô hình tuyến tính rất mạnh) mà không phát sinh quá nhiều sự phù hợp.
Lưu ý rằng một số hạt nhân tạo ra một không gian đặc trưng chiều vô hạn, trong đó phân loại "tầm thường" được đảm bảo có thể áp dụng cho bất kỳ mẫu đào tạo hữu hạn nào ở vị trí chung. Ví dụ, bố trí hình tròn chức năng cơ sở hạt nhân, , nơi không gian đặc trưng là orthant tích cực của một hypersphere chiều vô hạn. Các hạt nhân như vậy làm cho SVM trở thành một xấp xỉ phổ quát, có thể đại diện cho bất kỳ ranh giới quyết định nào .K(x,x′)=exp−γ∥x−x′∥2
Tuy nhiên đây chỉ là một phần của câu chuyện. Trong thực tế, chúng tôi thường sử dụng một SVM lề mềm, trong đó giới hạn lề được phép vi phạm và có một tham số chính quy kiểm soát sự đánh đổi giữa tối đa hóa lề (đó là một điều khoản phạt, tương tự như được sử dụng trong hồi quy sườn núi) và độ lớn của các biến chùng (gần giống với sự mất mát trên mẫu đào tạo). Sau đó, chúng tôi tránh việc khớp quá mức bằng cách điều chỉnh tham số điều chỉnh, ví dụ bằng cách giảm thiểu lỗi xác thực chéo (hoặc một số ràng buộc với lỗi bỏ qua một lần), giống như chúng ta sẽ làm trong trường hợp hồi quy sườn.
Vì vậy, trong khi SVM có thể phân loại một cách tầm thường tập huấn luyện, nó thường sẽ chỉ làm như vậy nếu các tham số chính quy và nhân được chọn không tốt. Chìa khóa để đạt được kết quả tốt với bất kỳ mô hình hạt nhân nào nằm ở việc chọn một hạt nhân phù hợp, sau đó điều chỉnh các tham số nhân và chính quy để tránh việc khớp quá hoặc dưới dữ liệu.