Về cơ bản, bạn đang hỏi một câu hỏi rất thú vị: tôi nên dự đoán bằng cách sử dụng "MAP Bayesian" Tối đa một ước tính posteriori hoặc "Real Bayesian".
Giả sử bạn biết phân phối thực sự rằng , sau đó sử dụng ước tính MAP, giả sử bạn muốn đưa ra 100 dự đoán về 100 kết quả lật tiếp theo. Bạn nên luôn luôn đoán lật là đuôi , KHÔNG đoán 20 đầu và 80 đuôi. Đây được gọi là "MAP Bayesian", về cơ bản bạn đang làmP(H)=0.22080
argmaxθf(x|θ)
Không khó để chứng minh rằng bằng cách làm như vậy, bạn có thể giảm thiểu lỗi dự đoán (mất 0-1). Bằng chứng có thể được tìm thấy trong ~ trang 53 của Giới thiệu về Học thống kê .
Có một cách khác để làm điều này được gọi là phương pháp "Real Bayesian". Về cơ bản, bạn không cố gắng "chọn kết quả với xác suất cao nhất, nhưng hãy xem xét tất cả các trường hợp theo cách thực tế" Vì vậy, nếu ai đó yêu cầu bạn "dự đoán 100 lần lật" tiếp theo, bạn nên tạm dừng anh ấy / cô ấy, bởi vì khi bạn đưa ra 100 kết quả nhị phân, thông tin xác suất cho mỗi kết quả biến mất. Thay vào đó, bạn nên hỏi, những gì bạn muốn làm SAU khi biết kết quả.
Giả sử anh ấy / cô ấy có một số Chức năng mất (không cần thiết để mất 0-1, ví dụ, chức năng mất có thể, nếu bạn bỏ lỡ một cái đầu, bạn cần phải trả $ 1, nhưng nếu bạn bỏ lỡ một cái đuôi, bạn cần phải trả $ 5, tức là mất cân bằng) theo dự đoán của bạn, sau đó bạn nên sử dụng kiến thức của mình về phân phối kết quả để giảm thiểu tổn thất trên toàn bộ phân phối
∑x∑yp(x,y)L(f(x),y)
, nghĩa là kết hợp kiến thức của bạn về phân phối vào mất mát, thay vì "cách thức theo giai đoạn", nhận dự đoán và thực hiện các bước tiếp theo.
Hơn nữa, bạn có một trực giác rất tốt về những gì sẽ có khi có nhiều kết quả có thể xảy ra. Ước tính MAP sẽ không hoạt động tốt nếu số lượng kết quả lớn và khối lượng xác suất được lan truyền rộng rãi. Hãy nghĩ về bạn có một con xúc xắc 100 mặt, và bạn biết phân phối thực sự. Trong đó và P ( S 2 ) = P ( S 3 ) = P ( S 100 ) = 0,9 / 99 = 0,009090P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%