Mạng nơ ron nhân tạo THIẾT BỊ để hồi quy tuyến tính với các tính năng đa thức?


11

Tôi muốn cải thiện sự hiểu biết của tôi về các mạng thần kinh và lợi ích của chúng so với các thuật toán học máy khác. Sự hiểu biết của tôi là như dưới đây và câu hỏi của tôi là:

Bạn có thể sửa chữa và bổ sung sự hiểu biết của tôi xin vui lòng? :)

Sự hiểu biết của tôi:

(1) Mạng nơ ron nhân tạo = Hàm, dự đoán giá trị đầu ra từ giá trị đầu vào. Theo Định lý xấp xỉ phổ quát ( https://en.wikipedia.org/wiki/Universal_approimumation_theorem ), bạn thường có thể có bất kỳ chức năng dự đoán nào (mặc dù nó phải hoạt động tốt), được cung cấp đủ các nơ-ron.

(2) Điều tương tự cũng đúng với hồi quy tuyến tính, bằng cách lấy đa thức của các giá trị đầu vào làm giá trị đầu vào bổ sung, vì bạn có thể tính gần đúng (so sánh khai triển Taylor) từng hàm theo các đa thức.

(3) Điều này có nghĩa là (theo một nghĩa nào đó, liên quan đến kết quả tốt nhất có thể), 2 phương pháp đó là tương đương.

(4) Do đó, sự khác biệt chính của chúng nằm ở chỗ phương thức cho vay để thực hiện tính toán tốt hơn. Nói cách khác, với phương pháp nào bạn có thể tìm thấy, dựa trên các ví dụ đào tạo, các giá trị tốt nhanh hơn cho các tham số xác định hàm dự đoán.

Tôi hoan nghênh mọi suy nghĩ, bình luận và đề xuất cho các liên kết hoặc sách khác để cải thiện suy nghĩ của tôi.


2
Nên được chuyển đến math.stackexchange.com Mạng nơ-ron với kích hoạt tùy ý xấp xỉ tốt bất kỳ chức năng trơn tru nhưng họ có một tính năng hơn: êm ái (mở rộng quy mô của các trọng) phụ thuộc vào thời điểm, đây là chìa khóa cho một tốt toàn cầu xấp xỉ. Bạn không thể đạt được điều đó với phép tính gần đúng đa thức (được cung cấp một hàm liên tục, thực hiện phép tích chập của nó với và sử dụng một vài thuật ngữ đầu tiên của khai triển Taylor xung quanh một số điểm, chỉ cho một xấp xỉ cục bộ tốt )n d e - π | n x | 2tanhndeπ|nx|2
user1952009

@ user1952009 - không Stone-Weierstrass ngụ ý xấp xỉ toàn cầu tốt tùy ý, do tính đồng nhất của xấp xỉ trong định lý?
jbowman

@jbowman Nó thực hiện một xấp xỉ cục bộ tốt: đối với bất kỳ liên tục, và tồn tại một hàm trơn, phân tích hoặc đa thức (như bạn muốn) sao cho . Mạng nơ-ron cũng vậy, nhưng tính năng là nó có thể lấy nhiều xấp xỉ cục bộ khác nhau (xung quanh khác nhau ) và trộn chúng để có được một loại xấp xỉ toàn cầu. frϵfr,ϵsup|x|r|f(x)fr,ϵ(x)|ϵx0
dùng1952009

1
Đây có khả năng là một bản sao của stats.stackexchange.com/questions/41289/ cấp Tôi đánh dấu câu hỏi này, nhưng với tiền thưởng trên đó, tôi đoán tôi sẽ chỉ bình luận ở đây thay vào đó :)
Hugh Perkins

1
+1 @HughPerkins cho liên kết đến một câu hỏi có liên quan sâu sắc Q. Nhưng, mặc dù các câu trả lời trong câu hỏi liên quan cung cấp cái nhìn sâu sắc về câu hỏi ở đây (ví dụ như Stephan Kolassa giải thích aNN coi tính phi tuyến tính là mặc định trong khi hồi quy chỉ làm như vậy khi được mô hình hóa cụ thể thông qua các kỹ thuật bổ sung) tôi sẽ không gắn cờ cho trùng lặp . Bạn đã hỏi loại mô hình nào có thể cho kết quả tốt hơn, trong khi câu hỏi này đặc biệt yêu cầu giải thích liệu hai phương pháp có giống nhau trong kết quả và tính tổng quát của chúng hay không.
IWS

Câu trả lời:


7

Đây là thỏa thuận:

Về mặt kỹ thuật, bạn đã viết các câu đúng (cả hai mô hình có thể xấp xỉ bất kỳ hàm 'không quá điên rồ' nào được cung cấp đủ các tham số), nhưng những câu đó không đưa bạn đến đâu cả!

Tại sao vậy? Chà, xem xét kỹ hơn về lý thuyết gần đúng phổ quát, hoặc bất kỳ bằng chứng chính thức nào khác về việc mạng lưới thần kinh có thể tính toán bất kỳ f (x) nào nếu có các nơ-ron ENOUGH.

Tất cả các loại bằng chứng mà tôi đã thấy chỉ sử dụng một lớp ẩn.

Hãy xem nhanh tại đây http://neuralnetworksanddeeplearning.com/chap5.html để biết một số trực giác. Có những công trình cho thấy rằng trong một nghĩa nào đó, số lượng tế bào thần kinh cần thiết tăng theo cấp số nhân nếu bạn chỉ sử dụng một lớp.

Vì vậy, trong lý thuyết bạn đúng, trong thực tế, bạn không có bộ nhớ vô hạn, vì vậy bạn không thực sự muốn đào tạo một mạng lưới thần kinh 2 ^ 1000, phải không? Ngay cả khi bạn đã có dung lượng bộ nhớ vô hạn, chắc chắn mạng đó sẽ vượt quá mức chắc chắn.

Theo tôi, điểm quan trọng nhất của ML là điểm thực tế! Hãy mở rộng một chút về điều đó. Vấn đề lớn thực sự ở đây không chỉ là làm thế nào đa thức tăng / giảm rất nhanh ngoài tập huấn luyện. Không có gì. Ví dụ nhanh, bất kỳ pixel nào của ảnh đều nằm trong một phạm vi rất cụ thể ([0,255] cho mỗi màu RGB), do đó bạn có thể yên tâm rằng mọi mẫu mới sẽ nằm trong phạm vi giá trị tập huấn luyện của bạn. Không. Vấn đề lớn là: Sự so sánh này không hữu ích khi bắt đầu bằng (!).

Tôi đề nghị bạn sẽ thử nghiệm một chút với MNIST và thử xem kết quả thực tế bạn có thể đưa ra bằng cách chỉ sử dụng một lớp duy nhất.

Các mạng thực tế sử dụng nhiều hơn một lớp ẩn, đôi khi hàng chục (tốt, Resnet thậm chí nhiều hơn ...) các lớp. Vì một lý do. Lý do đó không được chứng minh, và nói chung, việc chọn một kiến ​​trúc cho mạng lưới thần kinh là một lĩnh vực nghiên cứu nóng. Nói cách khác, trong khi chúng ta vẫn cần biết thêm, cả hai mô hình mà bạn đã so sánh (hồi quy tuyến tính và NN chỉ với một lớp ẩn), đối với nhiều bộ dữ liệu, không có ích gì!

Nhân tiện, trong trường hợp bạn sẽ vào ML, có một định lý vô dụng khác thực sự là một 'lĩnh vực nghiên cứu' hiện tại (có lẽ gần đúng) / chiều VC. Tôi sẽ mở rộng trên đó như một phần thưởng:

Nếu về cơ bản gần đúng phổ quát nói rằng với số lượng nơ-ron vô hạn, chúng ta có thể tính gần đúng bất kỳ chức năng nào (cảm ơn rất nhiều?), Thì PAC nói theo thuật ngữ thực tế là, đưa ra (thực tế!) Số lượng ví dụ được dán nhãn mà chúng ta có thể đạt được gần như chúng ta muốn giả thuyết tốt nhất trong mô hình của chúng tôi. Thật là vui nhộn khi tôi tính toán số lượng ví dụ thực tế cần thiết cho một mạng thực tế nằm trong một số tỷ lệ lỗi mong muốn thực tế với một số xác suất okish :) Nó nhiều hơn số lượng điện tử trong vũ trụ. PS để tăng cường cũng giả định rằng các mẫu là IID (điều đó không bao giờ đúng!).


Vậy, mạng nơ ron nhân tạo có tương đương với hồi quy tuyến tính với các tính năng đa thức hay không? Câu trả lời của bạn dường như tập trung vào số lượng lớp và tế bào thần kinh cần thiết, nhưng không giải thích tại sao hai phân tích này nên / có thể tương đương nhau. Việc thêm nhiều lớp (ẩn) có làm cho một mạng nơ ron có thể xử lý (thậm chí) nhiều chức năng hơn là hồi quy với đa thức không? Và, như OP đã tự hỏi trong câu trả lời của mình, làm thế nào về hiệu lực bên ngoài / hiệu suất ngoài mẫu của các mô hình này (và sự đánh đổi giữa việc sử dụng các tùy chọn và hiệu suất mô hình phức tạp hơn)?
IWS

Tôi giới thiệu bạn với câu đầu tiên của tôi: "Về mặt kỹ thuật bạn đã viết câu đúng".
Yoni Keren

Chà, tôi đã hỏi bởi vì lý do cho câu nói của bạn rằng 'OP đã viết câu đúng' đối với tôi không rõ ràng dựa trên câu trả lời của bạn. Bạn sẽ rất tử tế để giải thích về điều này?
IWS

Chắc chắn. Điều này tốt hơn, hay bạn tìm thấy bất cứ điều gì khác vẫn chưa rõ ràng?
Yoni Keren

7

Đúng là bất kỳ chức năng nào cũng có thể được xấp xỉ tùy ý đóng cả hai bởi một cái gì đó được coi là một mạng thần kinh và một cái gì đó được tính là một đa thức.

Trước hết, hãy nhớ rằng điều này đúng với rất nhiều cấu trúc. Bạn có thể tính gần đúng bất kỳ chức năng nào bằng cách kết hợp các sin và cosin (biến đổi Fourier) hoặc đơn giản bằng cách thêm nhiều "hình chữ nhật" (không thực sự là một định nghĩa chính xác, nhưng tôi hy vọng bạn có được điểm).

Thứ hai, giống như câu trả lời của Yoni, bất cứ khi nào bạn đang đào tạo một mạng lưới hoặc điều chỉnh hồi quy với rất nhiều sức mạnh, số lượng tế bào thần kinh hoặc số lượng sức mạnh đều được cố định. Sau đó, bạn áp dụng một số thuật toán, có thể giảm độ dốc hoặc một cái gì đó, và tìm các tham số tốt nhất với điều đó. Các tham số là các trọng số trong một mạng và các hệ số cho một đa thức lớn. Sức mạnh tối đa bạn có trong một đa thức, hoặc số lượng tế bào thần kinh được sử dụng, được gọi là siêu đường kính. Trong thực tế, bạn sẽ thử một vài trong số đó. Bạn có thể tạo ra một trường hợp rằng một tham số là một tham số, chắc chắn, nhưng đó không phải là cách nó được thực hiện trong thực tế.

Mặc dù vậy, với vấn đề học máy, bạn không thực sự muốn một chức năng phù hợp với dữ liệu của mình một cách hoàn hảo. Điều đó sẽ không quá khó để đạt được thực sự. Bạn muốn một cái gì đó phù hợp, nhưng cũng có thể hoạt động cho các điểm mà bạn chưa thấy. Xem hình ảnh này ví dụ, lấy từ tài liệu cho scikit-learn.

Một dòng quá đơn giản, nhưng xấp xỉ tốt nhất không nằm ở bên phải, nó nằm ở giữa, mặc dù chức năng bên phải phù hợp nhất. Hàm bên phải sẽ đưa ra một số dự đoán khá kỳ lạ (và có thể là tối ưu) cho các điểm dữ liệu mới, đặc biệt là nếu chúng nằm gần các bit uốn lượn bên trái.

Lý do cuối cùng cho các mạng thần kinh với một vài tham số hoạt động rất tốt, là chúng có thể phù hợp với một cái gì đó nhưng không thực sự phù hợp với nó. Điều này cũng có liên quan nhiều đến cách họ được đào tạo, với một số hình thức giảm dần độ dốc ngẫu nhiên.


2

Vì chưa có câu trả lời nào được cung cấp (mặc dù tôi sẽ chấp nhận nhận xét của người dùng1952009 nên nó đã được đăng dưới dạng câu trả lời), hãy để tôi chia sẻ những gì tôi đã học được trong lúc này:

(1) Dường như với tôi rằng sự hiểu biết của tôi nói chung là đúng, nhưng ma quỷ nằm trong các chi tiết.

(2) Một điều bị bỏ lỡ trong "sự hiểu biết của tôi": giả thuyết tham số hóa sẽ tốt đến mức nào để tổng hợp dữ liệu ngoài tập huấn luyện? Bản chất không đa thức của các dự đoán mạng thần kinh có thể tốt hơn ở đó so với hồi quy tuyến tính / đa thức đơn giản (hãy nhớ làm thế nào đa thức tăng / giảm rất nhanh bên ngoài tập huấn luyện).

(3) Một liên kết giải thích thêm về tầm quan trọng của việc có thể tính toán các tham số một cách nhanh chóng: http://www.heatonresearch.com/2017/06/01/hidden-layers.html


2

Có lẽ bài báo này có thể giúp bạn:

Hồi quy đa thức thay thế cho mạng lưới thần kinh

Bản tóm tắt nói:

Mặc dù thành công của mạng lưới thần kinh (NN), vẫn có một mối quan tâm của nhiều người về bản chất "hộp đen" của họ. Tại sao họ làm việc? Ở đây chúng tôi trình bày một lập luận phân tích đơn giản rằng NN thực chất là mô hình hồi quy đa thức. Quan điểm này sẽ có ý nghĩa khác nhau đối với các NN, ví dụ như đưa ra lời giải thích cho lý do tại sao các vấn đề hội tụ phát sinh trong NN và nó đưa ra hướng dẫn sơ bộ về việc tránh quá mức. Ngoài ra, chúng tôi sử dụng hiện tượng này để dự đoán và xác nhận tính chất đa cộng đồng của các NN không được báo cáo trước đây trong tài liệu. Quan trọng nhất, với sự tương ứng lỏng lẻo này, người ta có thể chọn sử dụng thường xuyên các mô hình đa thức thay vì NN, do đó tránh được một số vấn đề lớn về sau, như phải đặt nhiều tham số điều chỉnh và xử lý các vấn đề hội tụ. Chúng tôi trình bày một số kết quả thực nghiệm; trong mỗi trường hợp, độ chính xác của phương pháp đa thức khớp hoặc vượt quá so với phương pháp NN. Một gói phần mềm mã nguồn mở, nhiều tính năng, có sẵn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.