Các lớp được kết nối đầy đủ làm gì trong CNNs?

Tôi hiểu các lớp chập và gộp, nhưng tôi không thể thấy lý do cho một lớp được kết nối đầy đủ trong CNNs. Tại sao lớp trước không được kết nối trực tiếp với lớp đầu ra?

neural-networks deep-learning conv-neural-network

— jeff
nguồn

Câu trả lời:

Đầu ra từ các lớp chập biểu thị các tính năng cấp cao trong dữ liệu. Mặc dù đầu ra đó có thể được làm phẳng và kết nối với lớp đầu ra, nhưng thêm một lớp được kết nối đầy đủ là một cách rẻ tiền (thông thường) để học các kết hợp phi tuyến tính của các tính năng này.

Về cơ bản, các lớp chập đang cung cấp một không gian đặc trưng có ý nghĩa, chiều thấp và hơi bất biến, và lớp được kết nối đầy đủ đang học một hàm (có thể là phi tuyến tính) trong không gian đó.

LƯU Ý: Việc chuyển đổi từ các lớp FC sang các lớp Conv là chuyện nhỏ. Chuyển đổi các đầu FC lớp vào lớp Conv có thể hữu ích như này trang mô tả.

— jamesmf
nguồn

Cảm ơn câu trả lời của bạn James. Vì vậy, chúng tôi đang tìm hiểu các trọng số giữa các lớp được kết nối với lan truyền trở lại, điều đó có đúng không?

— jeff

Có, lỗi truyền ngược lại qua lớp được kết nối đầy đủ đến các lớp chập và gộp.

— jamesmf

Đồng ý. Vì vậy, mục đích của lớp fc có thể được coi là PCA phi tuyến tính, nó điều chỉnh các tính năng "tốt" và làm giảm các tính năng khác thông qua việc tìm hiểu toàn bộ trọng số.

— jeff

Nó chủ yếu cho phép bạn kết hợp phi tuyến tính năng. Tất cả các tính năng có thể tốt (giả sử bạn không có tính năng "chết"), nhưng sự kết hợp của các tính năng đó có thể còn tốt hơn.

— jamesmf

@jamesmf: Tính năng chết là gì? và sự kết hợp của các tính năng bạn đang nói về là gì? bạn có ý nghĩa gì bởi sự kết hợp phi tuyến tính? Là sử dụng một lớp kết nối đầy đủ bắt buộc trong một cnn? hoặc nó có thể được thay thế mà không có bất kỳ ảnh hưởng xấu đến độ chính xác? Cảm ơn rất nhiều trước. Tôi sẽ biết ơn nếu bạn có thể đưa ra một trực giác về những câu hỏi tôi đã hỏi.

— Rika

Tôi thấy câu trả lời này của Anil-Sharma trên Quora rất hữu ích.

Chúng ta có thể chia toàn bộ mạng (để phân loại) thành hai phần:

Trích xuất tính năng : Trong các thuật toán phân loại thông thường, như SVM, chúng tôi đã sử dụng để trích xuất các tính năng từ dữ liệu để làm cho phân loại hoạt động. Các lớp chập đang phục vụ cùng một mục đích khai thác tính năng. Các CNN nắm bắt sự biểu diễn dữ liệu tốt hơn và do đó chúng tôi không cần phải thực hiện kỹ thuật tính năng.
Phân loại : Sau khi trích xuất tính năng, chúng ta cần phân loại dữ liệu thành nhiều lớp khác nhau, điều này có thể được thực hiện bằng cách sử dụng mạng thần kinh được kết nối đầy đủ (FC). Thay cho các lớp được kết nối đầy đủ, chúng ta cũng có thể sử dụng một trình phân loại thông thường như SVM. Nhưng chúng tôi thường kết thúc việc thêm các lớp FC để làm cho mô hình từ đầu đến cuối có thể huấn luyện được.

— đá
nguồn