Các mạng thần kinh có học một hàm hoặc một hàm mật độ xác suất


17

Câu hỏi nghe có vẻ hơi lạ vì tôi chưa quen với suy luận thống kê và mạng lưới thần kinh.

Khi gặp vấn đề về phân loại khi sử dụng mạng nơ ron, chúng tôi nói rằng chúng tôi muốn tìm hiểu một hàm ánh xạ không gian của đầu vào , sang không gian của đầu ra :fxy

f(x;θ)=y

Chúng ta có phù hợp với các tham số ( θ ) để mô hình hóa một hàm phi tuyến tính hay để mô hình hóa một hàm mật độ xác suất không?

Tôi thực sự không biết làm thế nào để viết câu hỏi theo cách tốt hơn. Tôi đã đọc nhiều lần cả hai thứ (hàm mật độ xác suất, hoặc hàm giống như vậy) vì vậy tôi rất bối rối.

Câu trả lời:


14

Nói đúng ra, mạng lưới thần kinh đang phù hợp với chức năng phi tuyến tính.

Chúng có thể được hiểu là phù hợp với hàm mật độ xác suất nếu các chức năng kích hoạt phù hợp được chọn và các điều kiện nhất định được tôn trọng (Giá trị phải dương và 1, v.v ...). Nhưng đó là một câu hỏi về cách bạn chọn để giải thích đầu ra của họ, không phải về những gì họ đang thực sự làm. Trong khuôn khổ, chúng vẫn là các công cụ ước tính chức năng phi tuyến tính mà bạn đang chọn áp dụng cho vấn đề cụ thể của ước tính PDF.


3
@sdiabr thực sự bạn sẽ không sử dụng ngưỡng nếu bạn muốn mạng mô phỏng pdf - vì pdf có thể có các giá trị khác ngoài 1 và 0. Với ngưỡng đó, nó trở thành một phân loại đơn giản.
Skander H. - Phục hồi Monica

2
Cách thích hợp để xem xét điều này là ngưỡng là một vấn đề bên ngoài đối với những gì học được từ mạng. Không tôn trọng sự khác biệt này gây ra nhiều vấn đề trong các ứng dụng của ML đối với các vấn đề trong thế giới thực.
Matthew Drury

1
Vâng okey, tôi hiểu. Vì vậy, quên aabout các ngưỡng, sau đó tôi sẽ làm mô hình pdf? Tôi nghĩ rằng tôi đã nhầm lẫn với ngưỡng này bởi vì tôi đã đọc một cái gì đó về mô hình phân phối Bernouilli. Tuy nhiên, không có ngưỡng, đó đã là Bernoilli phải không? Trong trường hợp chúng ta chỉ có một nút đầu ra có chức năng kích hoạt sigmoid, sẽ xuất 0 hoặc 1 với xác suất p hoặc (1-p)
sdiabr

1
Vâng, tôi đã nhầm lẫn một lần nữa, cảm ơn @CagdasOzgenc. Hãy thử lại: Bằng cách sử dụng hàm sigmoid trong lớp đầu ra, chúng ta sẽ trực tiếp tạo mô hình pdf, phải không? theo bất kỳ phân phối nào nó có thể học theo.
sdiabr

2
Tuy nhiên, bạn không học về phân phối xác suất của các hệ số chưa biết, do đó bạn không học về phân phối dự báo sau.
Cân bằng Brash

10

Nói chung, Mạng nơ-ron không được sử dụng để mô hình hóa mật độ xác suất hoàn thành. Trọng tâm của họ là chỉ mô hình hóa giá trị trung bình của phân phối (hoặc trong tình huống xác định đơn giản là hàm phi tuyến tính). Tuy nhiên, rất có thể mô hình hóa mật độ xác suất hoàn thành thông qua Mạng thần kinh.

Một cách dễ dàng để làm điều này là ví dụ cho trường hợp Gaussian là phát ra giá trị trung bình từ một đầu ra và phương sai từ một đầu ra khác của mạng và sau đó thu nhỏ hàm như một phần của quá trình đào tạo thay vì lỗi bình phương phổ biến. Đây là thủ tục khả năng tối đa cho Mạng thần kinh.logN(y|x;μ,σ)

Khi bạn huấn luyện mạng này mỗi khi bạn cắm một giá trị làm đầu vào, nó sẽ cung cấp cho bạn và , sau đó bạn có thể cắm toàn bộ bộ ba vào mật độ để lấy giá trị mật độ cho bất kỳ nào bạn thích. Ở giai đoạn này, bạn có thể chọn giá trị sẽ sử dụng dựa trên hàm mất tên miền thực. Một lưu ý là đối với , kích hoạt đầu ra không bị hạn chế để bạn có thể phát ra thành trong khi chỉ là kích hoạt tích cực.xμσy,μ,σf(y|x)N(μ,σ)yyμinf+infσ

Nói chung, trừ khi đó là một hàm xác định mà chúng ta đang theo đuổi, đào tạo mất bình phương tiêu chuẩn được sử dụng trong các mạng thần kinh là khá nhiều quy trình tôi đã mô tả ở trên. Dưới vỏ phân phối được giả định hoàn toàn mà không quan tâm đến và nếu bạn kiểm tra cẩn thận sẽ cho bạn một biểu thức cho mất bình phương ( Hàm mất của khả năng tối đa của Gaussian người ước tính ). Tuy nhiên, trong trường hợp này, thay vì giá trị theo ý thích của bạn, bạn bị mắc kẹt với việc phát ra mọi lúc khi được cung cấp một giá trị mới .GaussianσlogN(y|x;μ,σ)yμx

Để phân loại, đầu ra sẽ là phân phối thay vì , có một tham số duy nhất để phát ra. Như được chỉ định trong câu trả lời khác, tham số này nằm trong khoảng từ đến để kích hoạt đầu ra phải phù hợp. Nó có thể là một chức năng logistic hoặc một cái gì đó khác đạt được cùng một mục đích.BernoulliGaussian01

Một cách tiếp cận tinh vi hơn là Mạng mật độ hỗn hợp của Giám mục. Bạn có thể đọc về nó trong bài báo được tham khảo thường xuyên ở đây:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf


Ouch bạn đã đánh bại tôi Tôi muốn trích dẫn MDN của Giám mục ... đó cũng là một cách khác để đưa Mạng nơ-ron tạo ra pdf, tất nhiên đó là mô hình Bayes. Tôi sẽ viết một câu trả lời về điều đó.
DeltaIV

Một bài báo thú vị khác về các mạng mật độ hỗn hợp, được sử dụng để dự đoán các điều kiện lướt web: icml.cc/Conferences/2005/proceedings/ con / trộm
Matthew Drury

Có nên thay đổi "toàn bộ bộ ba y, μ," thành "toàn bộ bộ ba x, μ," không?
moh

@moh không. x được cho và sẽ không xuất hiện trong mật độ.
Cagdas Ozgenc

1

Câu trả lời không đồng tình của tôi là trong hầu hết các ứng dụng thực tế ấn tượng (ví dụ như những ứng dụng được phủ sóng nhiều nhất trên phương tiện truyền thông), đó không phải là chức năng cũng không phải là xác suất. Họ thực hiện quyết định ngẫu nhiên.

Nhìn bề ngoài, có vẻ như NN chỉ đang khớp chức năng, xếp hàng tham chiếu xấp xỉ phổ quát . Trong một số trường hợp, khi các chức năng kích hoạt nhất định và các giả định cụ thể như lỗi Gaussian được sử dụng hoặc khi bạn đọc các bài báo trên mạng Bayes, có vẻ như NN có thể tạo ra các phân phối xác suất.

Tuy nhiên, đây chỉ là tất cả. Những gì NN dự định làm là mô hình hóa việc ra quyết định. Khi một chiếc xe được điều khiển bởi AI, NN của nó không cố gắng tính xác suất để nó có một vật thể ở phía trước, sau đó cho rằng có một vật thể để tính xác suất đó là con người. Không phải là tính toán ánh xạ của đầu vào cảm biến đến các loại đối tượng khác nhau. Không, NN được cho là đưa ra quyết định dựa trên tất cả các yếu tố đầu vào để lèo lái hoặc tiếp tục lái xe qua. Đó không phải là tính toán xác suất, nó đang nói cho chiếc xe biết phải làm gì.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.