Một thực tế nổi tiếng là mạng 1 lớp không thể dự đoán hàm xor, vì nó không thể phân tách tuyến tính. Tôi đã cố gắng tạo một mạng 2 lớp, sử dụng hàm sigmoid logistic và backprop, để dự đoán xor. Mạng của tôi có 2 nơ-ron (và một sai lệch) trên lớp đầu vào, 2 nơ-ron và 1 sai lệch ở lớp ẩn và 1 nơ-ron đầu ra. Tôi ngạc nhiên, điều này sẽ không hội tụ. Nếu tôi thêm một lớp mới, vì vậy tôi có một mạng 3 lớp với đầu vào (2 + 1), hidden1 (2 + 1), hidden2 (2 + 1) và đầu ra, nó hoạt động. Ngoài ra, nếu tôi giữ một mạng 2 lớp, nhưng tôi tăng kích thước lớp ẩn lên 4 nơ ron + 1 sai lệch, nó cũng hội tụ. Có một lý do tại sao một mạng 2 lớp có 3 nơ ron ẩn hoặc ít hơn sẽ không thể mô hình hóa chức năng xor?