Về cơ bản, câu hỏi của tôi là trong Perceptionron đa lớp, perceptron được sử dụng với chức năng kích hoạt sigmoid. Vì vậy, trong quy tắc cập nhật được tính như
Perceptron "sigmoid" này khác với hồi quy logistic như thế nào?
Tôi có thể nói rằng một tri giác sigmoid một lớp tương đương với hồi quy logistic theo nghĩa là cả hai đều sử dụng trong quy tắc cập nhật. Ngoài ra, cả return trong dự đoán. Tuy nhiên, trong các tri giác đa lớp, chức năng kích hoạt sigmoid được sử dụng để trả về xác suất, không phải là tín hiệu tắt trái ngược với hồi quy logistic và perceptionron một lớp. dấu( y =1
Tôi nghĩ rằng việc sử dụng thuật ngữ "Perceptron" có thể hơi mơ hồ, vì vậy hãy để tôi cung cấp một số nền tảng dựa trên sự hiểu biết hiện tại của tôi về các tri giác một lớp:
Quy tắc tri giác cổ điển
Đầu tiên, perceptionron cổ điển của F. Rosenblatt nơi chúng ta có chức năng bước:
để cập nhật các trọng số
Vì vậy, được tính là
Xuống dốc
Sử dụng độ dốc gốc, chúng tôi tối ưu hóa (tối thiểu hóa) hàm chi phí
trong đó chúng ta có các số "thực", vì vậy tôi thấy điều này về cơ bản tương tự như hồi quy tuyến tính với sự khác biệt là đầu ra phân loại của chúng ta bị ngưỡng.
Ở đây, chúng tôi thực hiện một bước theo hướng tiêu cực của gradient khi chúng tôi cập nhật các trọng số
Nhưng ở đây, chúng ta có thay vì y =dấu(wTxi)
Ngoài ra, chúng tôi tính toán tổng các lỗi bình phương cho một lần vượt qua toàn bộ tập dữ liệu huấn luyện (trong chế độ học tập theo đợt) trái ngược với quy tắc perceptron cổ điển cập nhật các trọng số khi các mẫu đào tạo mới xuất hiện (tương tự với độ dốc dốc ngẫu nhiên - trực tuyến học tập).
Chức năng kích hoạt Sigmoid
Bây giờ, đây là câu hỏi của tôi:
Trong Perceptionron đa lớp, perceptron được sử dụng với chức năng kích hoạt sigmoid. Vì vậy, trong quy tắc cập nhật được tính như
Perceptron "sigmoid" này khác với hồi quy logistic như thế nào?