Tại sao CNNs kết luận với các lớp FC?

11

Theo hiểu biết của tôi, CNN bao gồm hai phần. Phần đầu tiên (các lớp đối lưu / nhóm) thực hiện trích xuất tính năng và phần thứ hai (các lớp fc) thực hiện phân loại từ các tính năng.

Vì các mạng thần kinh được kết nối đầy đủ không phải là các bộ phân loại tốt nhất (nghĩa là chúng vượt trội hơn so với các SVM và RF trong hầu hết thời gian), tại sao các CNN lại kết luận với các lớp FC, thay vì giả sử là một SVM hoặc RF?

— Mary93
nguồn

4

Nó không đơn giản như vậy. Trước hết, một SVM, theo một cách nào đó, là một loại mạng thần kinh (bạn có thể tìm hiểu một giải pháp SVM thông qua backpropagation). Xem * Mạng * thần kinh nhân tạo là gì? . Thứ hai, bạn không thể biết trước mô hình nào sẽ hoạt động tốt hơn, nhưng điều quan trọng là với kiến trúc biến đổi thần kinh hoàn toàn, bạn có thể tìm hiểu các trọng số từ đầu đến cuối, trong khi gắn SVM hoặc RF vào kích hoạt lớp ẩn cuối cùng của CNN là chỉ đơn giản là một thủ tục ad hoc . Nó có thể hoạt động tốt hơn và có thể không, chúng tôi không thể biết nếu không thử nghiệm.

Phần quan trọng là một kiến trúc tích chập hoàn toàn có khả năng học tập đại diện, rất hữu ích cho vô số lý do. Lần đầu tiên, nó có thể giảm hoặc loại bỏ hoàn toàn tính năng kỹ thuật trong vấn đề của bạn.

Về các lớp FC, chúng tương đương về mặt toán học với các lớp Convolutional 1x1. Xem bài đăng của Yann Lecun , mà tôi sao chép dưới đây:

Trong Convolutional Nets, không có thứ gọi là "các lớp được kết nối đầy đủ". Chỉ có các lớp chập với các hạt tích chập 1x1 và một bảng kết nối đầy đủ.

Một thực tế quá hiếm khi hiểu rằng ConvNets không cần phải có đầu vào có kích thước cố định. Bạn có thể huấn luyện chúng trên các đầu vào xảy ra để tạo ra một vectơ đầu ra duy nhất (không có phạm vi không gian), sau đó áp dụng chúng cho các hình ảnh lớn hơn. Thay vì một vectơ đầu ra duy nhất, sau đó bạn có được một bản đồ không gian của các vectơ đầu ra. Mỗi vector nhìn thấy các cửa sổ đầu vào tại các vị trí khác nhau trên đầu vào.

Trong kịch bản đó, "các lớp được kết nối đầy đủ" thực sự hoạt động như các kết cấu 1x1.

— Bọ lửa
nguồn

0

Nếu bạn biết Định lý Bữa trưa Không miễn phí (Wolpert & Mac sẵn), bạn sẽ không bị gác máy trên một phân loại và hỏi tại sao nó không phải là tốt nhất. Định lý NFL về cơ bản nói rằng "trong vũ trụ của tất cả các hàm chi phí, không có một phân loại tốt nhất". Thứ hai, hiệu suất phân loại luôn "phụ thuộc vào dữ liệu."

Các Ugly Duckling Định lý (Watanabe) khẳng định về cơ bản rằng "trong vũ trụ của tất cả các bộ tính năng, không có một bộ tốt nhất các tính năng."

Định lý của Cover nói rằng nếu , nghĩa là, chiều của dữ liệu lớn hơn kích thước mẫu, thì một vấn đề phân loại nhị phân luôn luôn có thể phân tách tuyến tính. $p>n$

Theo quan điểm trên, cũng như Occam's Razor , không bao giờ có thứ gì tốt hơn bất cứ thứ gì khác, độc lập với chức năng dữ liệu và chi phí.

Tôi đã luôn lập luận rằng bản thân các CNN không phải là các nhóm phân loại mà sự đa dạng (kappa so với lỗi) có thể được đánh giá.

— Logic NXG
nguồn