Đối với dữ liệu tuyến tính, điều này tất nhiên là không hữu ích, nhưng đối với dữ liệu phi tuyến tính, điều này dường như luôn hữu ích. Sử dụng phân loại tuyến tính dễ dàng hơn nhiều so với phi tuyến tính về thời gian đào tạo và khả năng mở rộng.
@BartoszKP đã giải thích lý do tại sao kernel trick hữu ích. Để giải quyết đầy đủ câu hỏi của bạn tuy nhiên tôi muốn chỉ ra rằng, kernel đó không phải là lựa chọn duy nhất để xử lý dữ liệu không phân tách tuyến tính.
Có ít nhất ba lựa chọn thay thế tốt, phổ biến để phân định mô hình:
- Các phương thức dựa trên mạng trung tính, trong đó bạn thêm một (hoặc nhiều) đơn vị xử lý, có thể chuyển đổi dữ liệu của bạn thành trường hợp phân tách tuyến tính. Trong trường hợp đơn giản nhất, nó là một lớp dựa trên sigmoid, thêm phi tuyến tính vào quá trình. Sau khi được khởi tạo ngẫu nhiên, họ sẽ nhận được các bản cập nhật trong quá trình tối ưu hóa dựa trên độ dốc của lớp trên (thực tế giải quyết vấn đề tuyến tính).
- Đặc biệt - các kỹ thuật học sâu có thể được sử dụng ở đây để chuẩn bị dữ liệu để phân loại tuyến tính hơn nữa. Nó rất giống với ý tưởng trước đó, nhưng ở đây trước tiên bạn huấn luyện các lớp xử lý của mình để tìm một điểm khởi đầu tốt để tinh chỉnh hơn nữa dựa trên việc đào tạo một số mô hình tuyến tính.
- Các phép chiếu ngẫu nhiên - bạn có thể lấy mẫu các phép chiếu (phi tuyến tính) từ một số không gian được xác định trước và huấn luyện phân loại tuyến tính trên đầu chúng. Ý tưởng này được khai thác rất nhiều trong cái gọi là học máy cực đoan , trong đó các bộ giải tuyến tính rất hiệu quả được sử dụng để huấn luyện một bộ phân loại đơn giản trên các phép chiếu ngẫu nhiên và đạt được hiệu suất rất tốt (về các vấn đề phi tuyến tính trong cả phân loại và hồi quy, ví dụ như học cực đoan máy móc ).
Tóm lại - kernelization là một kỹ thuật phân định tuyệt vời và bạn có thể sử dụng nó, khi vấn đề không phải là tuyến tính, nhưng điều này không nên mù "nếu sau đó" thẩm định. Đây chỉ là một trong ít nhất một vài phương pháp thú vị, có thể dẫn đến kết quả khác nhau, tùy thuộc vào vấn đề và yêu cầu. Cụ thể, ELM có xu hướng tìm các giải pháp rất giống với các giải pháp được đưa ra bởi SVM đã được nhân hóa trong khi đồng thời có thể được đào tạo các hàng có cường độ nhanh hơn (vì vậy nó có quy mô tốt hơn nhiều so với các SVM được nhân)