Trong bài báo có tên Deep Learning và Thông tin về tắc nghẽn thông tin, các tác giả nêu trong phần II A) như sau:
Các nơ-ron đơn chỉ phân loại các đầu vào có thể phân tách tuyến tính, vì chúng chỉ có thể thực hiện các siêu phẳng trong không gian đầu vào của chúng . Hyperplanes có thể phân loại tối ưu dữ liệu khi các đầu vào là độc lập conditioanlly.
Để hiển thị điều này, họ rút ra những điều sau đây. Sử dụng định lý Bayes, họ nhận được:
(1)
Trong đó là đầu vào, là lớp và là lớp dự đoán (tôi giả sử, không được xác định). Tiếp tục, họ nói rằng:
(2)
Trong đó là kích thước đầu vào và Tôi không chắc chắn (một lần nữa, cả hai đều không xác định). Xem xét một tế bào thần kinh sigmoidal, với chức năng kích hoạt sigmoid và vô hiệu hóa , sau khi chèn (2) vào (1), chúng ta sẽ nhận được các giá trị trọng lượng tối ưu và , khi các giá trị đầu vào .
Bây giờ đến câu hỏi của tôi. Tôi hiểu cách chèn (2) vào (1) dẫn đến trọng số tối ưu và giá trị đầu vào . Tuy nhiên, điều tôi không hiểu là như sau:
- Làm thế nào (1) dẫn xuất bằng định lý Bayes?
- (2) có nguồn gốc như thế nào? là gì Ý nghĩa của nó là gì? Tôi cho rằng nó có liên quan đến sự độc lập có điều kiện
- Ngay cả khi kích thước của x là độc lập có điều kiện, làm thế nào người ta có thể nói rằng nó bằng với xác suất tỷ lệ của nó? (tức là làm thế nào bạn có thể nói ?)
EDIT: Biến là biến nhị phân. Từ đây tôi giả sử rằng là lớp "khác". Điều này sẽ giải quyết câu hỏi 1. Bạn có đồng ý không?