NeuralNetwork một lớp với kích hoạt ReLU bằng với SVM?


10

Giả sử tôi có một mạng nơ ron một lớp đơn giản, với n đầu vào và một đầu ra duy nhất (nhiệm vụ phân loại nhị phân). Nếu tôi đặt hàm kích hoạt trong nút đầu ra là hàm sigmoid- thì kết quả là phân loại hồi quy logistic.

Trong cùng một kịch bản, nếu tôi thay đổi kích hoạt đầu ra thành ReLU (đơn vị tuyến tính được chỉnh lưu), thì cấu trúc kết quả có giống hoặc tương tự như một SVM không?

Nếu không tại sao?


Bạn có bất kỳ giả thuyết về lý do tại sao đó có thể là trường hợp? lý do tại sao một perceptron = logistic chính xác là do kích hoạt - về cơ bản chúng là cùng một mô hình, về mặt toán học (mặc dù có thể được đào tạo khác nhau) - trọng số tuyến tính + một sigmoid được áp dụng cho phép nhân ma trận. Các SVM hoạt động hoàn toàn khác nhau - họ tìm kiếm dòng tốt nhất để phân tách dữ liệu - chúng có dạng hình học hơn là "trọng lượng" / "matrixy". Đối với tôi, không có gì về ReLUs khiến tôi phải suy nghĩ = ah, chúng giống với một SVM. (
Svm

mục tiêu lề tối đa của một Svm và hàm kích hoạt relu trông giống nhau. Do đó câu hỏi.
AD

"Các SVM hoạt động hoàn toàn khác nhau - chúng tìm kiếm dòng tốt nhất để phân tách dữ liệu - chúng có dạng hình học hơn" trọng lượng "/" matrixy ". Đó là một chút lượn sóng tay - TẤT CẢ các phân loại tuyến tính tìm dòng tốt nhất để phân tách dữ liệu bao gồm hồi quy logistic và perceptron.
AD

Câu trả lời:


11

E=max(1ty,0)

Để mất mạng ở dạng tương tự như các SVM, chúng ta có thể loại bỏ mọi chức năng kích hoạt phi tuyến tính khỏi lớp đầu ra và sử dụng mất bản lề để truyền ngược.

E=ln(1+exp(ty))

Vì vậy, về mặt chức năng mất, các SVM và hồi quy logistic khá gần nhau, mặc dù các SVM sử dụng thuật toán rất khác nhau để đào tạo và suy luận dựa trên các vectơ hỗ trợ.

Có một cuộc thảo luận thú vị về mối quan hệ của SVM và hồi quy logistic trong phần 7.1.2 của cuốn sách Nhận dạng mẫu và Học máy .

nhập mô tả hình ảnh ở đây


cảm ơn đã chỉ vào cuốn sách Vì vậy, tôi có cảm giác rằng ngoài các chức năng kích hoạt, sự khác biệt thực sự nằm ở các thuật toán tối ưu hóa được sử dụng. Đối với LR, chúng ta có thể sử dụng giảm dần độ dốc đơn giản, trong khi trong SVM, chúng ta thường giải quyết tối ưu hóa bị ràng buộc.
AD
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.