Trong những năm gần đây, Mạng lưới thần kinh chuyển đổi (CNN) đã trở thành công nghệ tiên tiến để nhận dạng đối tượng trong thị giác máy tính. Thông thường, một CNN bao gồm một số lớp chập, tiếp theo là hai lớp được kết nối đầy đủ. Một trực giác đằng sau điều này là các lớp chập học thể hiện tốt hơn dữ liệu đầu vào và các lớp được kết nối đầy đủ sau đó học cách phân loại biểu diễn này dựa trên một bộ nhãn.
Tuy nhiên, trước khi CNN bắt đầu thống trị, Support Vector Machines (SVM) là công nghệ tiên tiến nhất. Vì vậy, có vẻ hợp lý khi nói rằng một SVM vẫn là một phân loại mạnh hơn so với mạng thần kinh được kết nối đầy đủ hai lớp. Do đó, tôi tự hỏi tại sao các CNN tiên tiến có xu hướng sử dụng các lớp được kết nối đầy đủ để phân loại hơn là một SVM? Theo cách này, bạn sẽ có cả hai thế giới tốt nhất: đại diện cho tính năng mạnh và phân loại mạnh, thay vì đại diện cho tính năng mạnh mà chỉ là phân loại yếu ...
Có ý kiến gì không?