Đây là thỏa thuận:
Về mặt kỹ thuật, bạn đã viết các câu đúng (cả hai mô hình có thể xấp xỉ bất kỳ hàm 'không quá điên rồ' nào được cung cấp đủ các tham số), nhưng những câu đó không đưa bạn đến đâu cả!
Tại sao vậy? Chà, xem xét kỹ hơn về lý thuyết gần đúng phổ quát, hoặc bất kỳ bằng chứng chính thức nào khác về việc mạng lưới thần kinh có thể tính toán bất kỳ f (x) nào nếu có các nơ-ron ENOUGH.
Tất cả các loại bằng chứng mà tôi đã thấy chỉ sử dụng một lớp ẩn.
Hãy xem nhanh tại đây http://neuralnetworksanddeeplearning.com/chap5.html để biết một số trực giác. Có những công trình cho thấy rằng trong một nghĩa nào đó, số lượng tế bào thần kinh cần thiết tăng theo cấp số nhân nếu bạn chỉ sử dụng một lớp.
Vì vậy, trong lý thuyết bạn đúng, trong thực tế, bạn không có bộ nhớ vô hạn, vì vậy bạn không thực sự muốn đào tạo một mạng lưới thần kinh 2 ^ 1000, phải không? Ngay cả khi bạn đã có dung lượng bộ nhớ vô hạn, chắc chắn mạng đó sẽ vượt quá mức chắc chắn.
Theo tôi, điểm quan trọng nhất của ML là điểm thực tế! Hãy mở rộng một chút về điều đó. Vấn đề lớn thực sự ở đây không chỉ là làm thế nào đa thức tăng / giảm rất nhanh ngoài tập huấn luyện. Không có gì. Ví dụ nhanh, bất kỳ pixel nào của ảnh đều nằm trong một phạm vi rất cụ thể ([0,255] cho mỗi màu RGB), do đó bạn có thể yên tâm rằng mọi mẫu mới sẽ nằm trong phạm vi giá trị tập huấn luyện của bạn. Không. Vấn đề lớn là: Sự so sánh này không hữu ích khi bắt đầu bằng (!).
Tôi đề nghị bạn sẽ thử nghiệm một chút với MNIST và thử xem kết quả thực tế bạn có thể đưa ra bằng cách chỉ sử dụng một lớp duy nhất.
Các mạng thực tế sử dụng nhiều hơn một lớp ẩn, đôi khi hàng chục (tốt, Resnet thậm chí nhiều hơn ...) các lớp. Vì một lý do. Lý do đó không được chứng minh, và nói chung, việc chọn một kiến trúc cho mạng lưới thần kinh là một lĩnh vực nghiên cứu nóng. Nói cách khác, trong khi chúng ta vẫn cần biết thêm, cả hai mô hình mà bạn đã so sánh (hồi quy tuyến tính và NN chỉ với một lớp ẩn), đối với nhiều bộ dữ liệu, không có ích gì!
Nhân tiện, trong trường hợp bạn sẽ vào ML, có một định lý vô dụng khác thực sự là một 'lĩnh vực nghiên cứu' hiện tại (có lẽ gần đúng) / chiều VC. Tôi sẽ mở rộng trên đó như một phần thưởng:
Nếu về cơ bản gần đúng phổ quát nói rằng với số lượng nơ-ron vô hạn, chúng ta có thể tính gần đúng bất kỳ chức năng nào (cảm ơn rất nhiều?), Thì PAC nói theo thuật ngữ thực tế là, đưa ra (thực tế!) Số lượng ví dụ được dán nhãn mà chúng ta có thể đạt được gần như chúng ta muốn giả thuyết tốt nhất trong mô hình của chúng tôi. Thật là vui nhộn khi tôi tính toán số lượng ví dụ thực tế cần thiết cho một mạng thực tế nằm trong một số tỷ lệ lỗi mong muốn thực tế với một số xác suất okish :) Nó nhiều hơn số lượng điện tử trong vũ trụ. PS để tăng cường cũng giả định rằng các mẫu là IID (điều đó không bao giờ đúng!).