Trong phân loại nhị phân Gaussian Process, tại sao các hàm sigmoid được ưa thích hơn các hàm Gaussian?


7

Tôi hiện đang nghiên cứu "Các quy trình Gaussian cho học máy" và trong chương 3, họ nói rằng hậu thếp(y|X,y,x)(eq. 3.10) và biến sau tiềm ẩn (eq. 3.9) nói chung không thể giải quyết bằng phương pháp phân tích, do khả năng sigmoid trong (3.9 ) và hàm sigmoid trong (3.10). Để cứu mọi người khỏi phải tìm các phương trình, chúng như sau: p(f|X,y,x)

p(y=+1|X,y,x)=σ(f)p(f|X,y,x)df(3.10)p(f|X,y,x)=p(f|X,x,f)p(f|X,y)df(3.9)

Câu hỏi chính của tôi là: để phân loại nhị phân với được mô hình hóa như một Quá trình Gaussian, tại sao lại sử dụng các hàm sigmoid (trong cả hai phương trình) thay vì hàm Gaussian Điều này sẽ dẫn đến các giải pháp dạng đóng cho cả hai tích phân. Hàm Gaussian không đơn điệu, giống như các hàm sigmoid, nhưng GP có thể tạo ra các hàm với nhiều bước ngoặt, do đó tính đơn điệu có vẻ không cần thiết. Để đảm bảo rằng (3.10) hội tụ để khi là xa dữ liệu huấn luyện, nó có lẽ sẽ đủ để cung cấp cho các trước trung bình : f

p(y=+1|f(x))=g(f(x))exp{f2(x)2}?
12xp(f|X)
E[f|X]=ω1nω=2ln12,
trong đó 1n là một vectơ của n 1 's và n là số lượng mẫu đào tạo, vì:
g(ω)=12.

Trái ngược với hành vi của khả năng sigmoid, khả năng Gaussian sẽ ưu tiên các mục lớn (dương hoặc âm) trong f cho các điểm đầu vào được gắn nhãn âm và các mục nhỏ trong f cho các điểm được gắn nhãn tích cực.

Các hàm Gaussian sẽ dẫn đến các vấn đề không xảy ra với sigmoids? Có bất kỳ giấy tờ nào trong đó các hàm Gaussian đã được sử dụng trong phân loại GP nhị phân thay vì sigmoids không?

Cập nhật, ngày 25 tháng 5 năm 2017

Khi phản ánh thêm, giá trị trung bình trước không được đề xuất ở trên cũng giúp giải quyết sự mơ hồ về dấu hiệu của nên là gì ( không ủng hộ một trong hai dấu hiệu; ). Giải quyết sự mơ hồ này dường như rất quan trọng, bởi vì nếu giá trị trung bình của trước, , bằng 0, thì giá trị trung bình của cũng sẽ bằng 0 theo khả năng được xác định bởi , vì trước đó và khả năng cả hai sẽ là các hàm chẵn của . I E: fgg(f(x))=g(f(x))p(f|X)p(f|X,y)gf

p(y|f)=i=1np(yi|fi)p(yi|fi)={g(fi),yi=+11g(fi),yi=1E[f|X]=0p(f|X,y)=p(y|f)p(f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).

Nếu giá trị trung bình của bằng 0, nhãn tập huấn luyện sẽ không cung cấp bất kỳ thông tin nào về nhãn điểm truy vấn , vì vậy rõ ràng chúng ta không được cho phép việc này. Vì vậy, ngoài việc định nghĩa , có lẽ chúng ta nên tiếp tục thiên vị hướng tới tích cực bằng cách đưa ra độ lệch chuẩn tương đối nhỏ , ví dụ , trong đó là hàm hiệp phương sai và . Nếu chúng ta làm điều này, có lẽ chúng ta cũng nên tăng quy môp(f|X,y)yyE[f|X]=ω1np(f|X,y)fp(f|X)k(x,x)=ωβkβ[2,3]gĐối số của nó, do đó sẽ không phải cách xa trung bình trước đó để tạo ra các giá trị nhỏ của : trong đó .fg

g(f(x);s)=exp{f2(x)2s2},
s<1

Đây sẽ là một cách hợp lý để khắc phục vấn đề mơ hồ dấu hiệu ?f

Câu trả lời:


3

Tôi tin rằng họ đề cập đến điều này trong phần chú thích cho chương 3 (trang đầu tiên)

Người ta có thể chọn bỏ qua sự không thống nhất của các giá trị đích và sử dụng phương pháp điều trị hồi quy, trong đó tất cả các mục tiêu xảy ra được nói là 1 cho phân loại nhị phân. Điều này được gọi là phân loại bình phương nhỏ nhất, xem phần 6.5.

Nhìn vào 6.5 http: //www.gaussian process.org/gpml/ch chương / RW6.pdf họ đề cập đến lợi thế của việc sử dụng các hàm sigmoid là các đầu ra có thể được giải thích theo xác suất (nghĩa là xác suất mà một ví dụ có phản hồi tích cực) .


1
Phân loại bình phương nhỏ nhất không phải là điều tôi nghĩ, mặc dù đây là một cách thay thế thú vị khác để xem xét phân loại nhị phân. Những gì tôi đã nghĩ là thực hiện phân loại nhị phân GP chính xác như được mô tả trong chương 3, ngoại trừ mọi lần xuất hiện của đều được thay thế bằng hàm Gaussian ở trên (lưu ý rằng tối đa của là 1; nó không phải là Gaussian PDF bình thường) và trước được cho là giá trị trung bình được mô tả trong câu hỏi của tôi. σggp(f|X)
Ose

0

Vấn đề với cách tiếp cận này là số lượng thuật ngữ trong sẽ tăng theo cấp số nhân với số điểm được gắn nhãn tiêu cực trong tập huấn luyện, do đó, giải pháp dạng đóng cho (3.9) sẽ có độ phức tạp theo thời gian theo cấp số nhân. Cụ thể hơn, nếu chúng ta giả sử, không mất tính tổng quát, thì sau đó Để có được một giải pháp dạng đóng cho (3.9), chúng ta phải mở rộng sản phẩm đầu tiên thành một tổng số các hàm Gaussian (không chuẩn hóa), để chúng ta có thể tích hợp từng cái một cách riêng biệt: p(y|f)

y1==ya=1,ya+1==yn=+1,
p(y|f)=(i=1a(1g(fi)))i=a+1ng(fi).
i=1a(1g(fi))=IP{1,,a}(1)|I|exp{12iIfi2}.
Có bộ trong tập hợp sức mạnh của các chỉ số điểm được gắn nhãn âm , vì vậy việc giải quyết (3.9) sẽ liên quan đến tính toán tích phân Gaussian.2aP{1,,a}{1,,a}2a

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.