Hyperplanes phân loại tối ưu dữ liệu khi đầu vào độc lập có điều kiện - Tại sao?


9

Trong bài báo có tên Deep Learning và Thông tin về tắc nghẽn thông tin, các tác giả nêu trong phần II A) như sau:

Các nơ-ron đơn chỉ phân loại các đầu vào có thể phân tách tuyến tính, vì chúng chỉ có thể thực hiện các siêu phẳng trong không gian đầu vào của chúng . Hyperplanes có thể phân loại tối ưu dữ liệu khi các đầu vào là độc lập conditioanlly.u=wh+b

Để hiển thị điều này, họ rút ra những điều sau đây. Sử dụng định lý Bayes, họ nhận được:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

Trong đó là đầu vào, là lớp và là lớp dự đoán (tôi giả sử, không được xác định). Tiếp tục, họ nói rằng:xyyy

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

Trong đó là kích thước đầu vào và Tôi không chắc chắn (một lần nữa, cả hai đều không xác định). Xem xét một tế bào thần kinh sigmoidal, với chức năng kích hoạt sigmoid và vô hiệu hóa , sau khi chèn (2) vào (1), chúng ta sẽ nhận được các giá trị trọng lượng tối ưu và , khi các giá trị đầu vào .Nnσ(u)=11+exp(u)uwj=logp(xj|y)p(xj|y)b=logp(y)p(y)hj=np(xj)

Bây giờ đến câu hỏi của tôi. Tôi hiểu cách chèn (2) vào (1) dẫn đến trọng số tối ưu và giá trị đầu vào . Tuy nhiên, điều tôi không hiểu là như sau:w,b,h

  1. Làm thế nào (1) dẫn xuất bằng định lý Bayes?
  2. (2) có nguồn gốc như thế nào? là gì Ý nghĩa của nó là gì? Tôi cho rằng nó có liên quan đến sự độc lập có điều kiệnn
  3. Ngay cả khi kích thước của x là độc lập có điều kiện, làm thế nào người ta có thể nói rằng nó bằng với xác suất tỷ lệ của nó? (tức là làm thế nào bạn có thể nói ?)hj=np(xj)

EDIT: Biến là biến nhị phân. Từ đây tôi giả sử rằng là lớp "khác". Điều này sẽ giải quyết câu hỏi 1. Bạn có đồng ý không?yy


Tôi đang đấu tranh để hiểu eq 2 đến từ đâu, mặc dù các gợi ý trong câu trả lời của tác giả của bài báo (Giáo sư Tishby). Tôi hiểu phần xuất phát từ giả định độc lập có điều kiện. Tuy nhiên, tôi không chắc chắn về số mũ - tại sao nó lại ở đó? np(xj)
IcannotFix This

Câu trả lời:


5

Xin lỗi về các chi tiết còn thiếu trong bài báo ngắn của chúng tôi, nhưng những mối quan hệ và mối liên hệ giữa bài kiểm tra Tỷ lệ khả năng và tế bào thần kinh sigmoidal chắc chắn không phải là mới, và có thể được tìm thấy trong sách giáo khoa (ví dụ: Giám mục 2006). Trong bài báo của chúng tôi, 'N' là kích thước đầu vào và 'n' là kích thước mẫu thử nghiệm (thực sự được dịch sang SNR đầu vào theo giả định rằng SNR phát triển như sqrt (n)). Việc kết nối với hàm sigmoidal được thực hiện thông qua quy tắc Bayes, như là phần sau của lớp. Không có gì trong phần còn lại của bài báo và bài báo mới hơn và quan trọng hơn của chúng tôi từ năm 2017 thực sự phụ thuộc vào điều này.

Naftali Tishby


2
Cảm ơn bạn đã làm rõ điều này ở đây. Đó là thông lệ tiêu chuẩn trong cộng đồng này để viết các trích dẫn đầy đủ để độc giả quan tâm có thể tìm kiếm các nguồn. Bạn có thể vui lòng làm điều này cho Giám mục (2006)?
mkt - Phục hồi Monica

4

Cho 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

Bây giờ vì là nhị phân, điều này trở thành:yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

và từ đó nó chỉ là thuộc tính của logarit để đi đến hình thức cuối cùng (cần phải đủ rõ ràng vào thời điểm này, cho tôi biết nếu không).


4

Đây là một thiết lập mô hình trong đó các tác giả đang sử dụng một dạng định lý Bayes đặc biệt áp dụng khi bạn có một biến nhị phân quan tâm. Đầu tiên họ lấy dạng định lý Bayes đặc biệt này là phương trình (1), và sau đó họ chỉ ra rằng điều kiện trong phương trình (2) dẫn họ đến dạng tuyến tính được chỉ định cho mạng của họ. Điều quan trọng cần lưu ý là phương trình sau không xuất phát từ các điều kiện trước --- thay vào đó, nó là điều kiện cho dạng tuyến tính mà chúng đang sử dụng cho mạng của chúng.


Xuất phát phương trình thứ nhất: Phương trình (1) trong bài báo chỉ là một dạng của định lý Bayes định khung xác suất quan tâm có điều kiện theo hàm logistic (sigmoid) hoạt động trên các hàm của khả năng và trước đó. Lấy và là hai kết quả nhị phân của biến ngẫu nhiên và áp dụng định lý Bayes, sẽ cho:yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

Sử dụng phương trình (2) làm điều kiện cho hình thức liên kết của mạng: Như đã nêu ở trên, phương trình này không phải là một cái gì đó có nguồn gốc từ các kết quả trước đó. Thay vào đó, đó là một điều kiện đủ dẫn đến dạng tuyến tính mà các tác giả sử dụng trong mô hình của họ --- tức là, các tác giả đang nói rằng nếu phương trình này giữ, thì một số kết quả tiếp theo sẽ xảy ra. Để vectơ đầu vào có độ dài , nếu phương trình (2) giữ, sau đó lấy logarit của cả hai bên sẽ cho:x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

Do đó, trong điều kiện này, chúng tôi có được hình thức sau:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

đó là hình thức mà các tác giả đang sử dụng trong mạng của họ. Đây là mẫu mô hình được các tác giả đưa ra trong phần nền, trước khi chỉ định phương trình (1) - (2). Bài báo không định nghĩa là trong thiết lập mô hình này, nhưng như bạn chỉ ra, câu trả lời của Giáo sư Tishby nói rằng đây là cỡ mẫu thử nghiệm. Liên quan đến câu hỏi thứ ba của bạn, dường như các yêu cầu của phương trình (2) có nghĩa rằng các giá trị trong là không có điều kiện độc lập cho .nx yy


Giáo sư Tishby (tác giả) cho biết, trong câu trả lời của riêng mình, là cỡ mẫu thử nghiệm. Đây là lý do tại sao tôi cảm thấy rằng eq (2) có cách hiểu phong phú hơn nhiều so với chỉ một điều kiện tùy ý đối với dạng tuyến tính của mạng. n
IcannotFix This

Cảm ơn - Tôi đã chỉnh sửa câu trả lời của mình để phản ánh thông tin bổ sung này.
Ben - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.