Tôi đang nghiên cứu và cố gắng thực hiện các mạng nơ ron tích chập, nhưng tôi cho rằng câu hỏi này áp dụng cho các tri giác đa lớp nói chung.
Các nơ-ron đầu ra trong mạng của tôi biểu thị sự kích hoạt của mỗi lớp: nơ-ron hoạt động mạnh nhất tương ứng với lớp dự đoán cho một đầu vào nhất định. Để xem xét chi phí entropy chéo cho đào tạo, tôi đang thêm một lớp softmax ở cuối mạng, để mỗi giá trị kích hoạt của nơ ron được hiểu là giá trị xác suất.
Câu hỏi của tôi là: các nơ ron trong lớp đầu ra có nên áp dụng hàm phi tuyến tính cho đầu vào không? Trực giác của tôi là không cần thiết:
- nếu đầu vào của nơ ron đầu ra thứ là sản phẩm chấm giữa một vectơ (đến từ lớp trước) và trọng số cho nơ ron đó,x T θ i x θ i
- và nếu tôi sử dụng một hàm phi tuyến tính đơn điệu như sigmoid hoặc ReLU
- thì đầu ra kích hoạt lớn hơn vẫn sẽ tương ứng với lớn nhất , do đó, từ quan điểm này, hàm phi tuyến tính sẽ không thay đổi dự đoán.
Có điều gì đó sai với cách giải thích này? Có một số yếu tố đào tạo mà tôi đang xem xét làm cho đầu ra phi tuyến tính cần thiết?
Và nếu tôi đúng, liệu có gì thay đổi nếu thay vì sử dụng hàm sigmoid tôi sử dụng hàm ReLU , không hoàn toàn đơn điệu?
BIÊN TẬP
Liên quan đến câu trả lời của Karel, câu trả lời về cơ bản là "nó phụ thuộc", đây là một mô tả chi tiết hơn về mạng lưới của tôi và nghi ngờ:
Giả sử tôi có N lớp ẩn và lớp đầu ra của tôi chỉ là lớp softmax trên một tập các nơ-ron đại diện cho các lớp (vì vậy đầu ra dự kiến của tôi là xác suất dữ liệu đầu vào thuộc về mỗi lớp). Giả sử các lớp N-1 đầu tiên có các nơ-ron phi tuyến, sự khác biệt giữa việc sử dụng các nơ-ron phi tuyến và tuyến tính trong lớp ẩn N-th là gì?