Tại sao với trình phân loại Bayes, chúng tôi đạt được hiệu suất tốt nhất có thể đạt được? Bằng chứng / giải thích chính thức cho điều này là gì?
Thông thường, tập dữ liệu D được coi là bao gồm n iid mẫu xi của phân phối tạo dữ liệu của bạn. Sau đó, bạn xây dựng một mô hình tiên đoán từ các dữ liệu đưa ra: cho một mẫu xi , bạn dự đoán lớp f ( x i ) , trong khi các lớp học thực tế của mẫu là f ( x i ) .f^(xi)f(xi)
Tuy nhiên, về mặt lý thuyết, bạn có thể quyết định không chọn một mô hình cụ thể e chọn , nhưng thay vì xem xét tất cả các mô hình có thể f cùng một lúc và kết hợp chúng bằng cách nào đó vào một lớn mô hình F .f^đã chọnf^F^
Tất nhiên, được cung cấp dữ liệu, nhiều mô- đun nhỏ hơn có thể không khả thi hoặc không phù hợp (ví dụ: các mô hình chỉ dự đoán một giá trị của mục tiêu, mặc dù có nhiều giá trị của mục tiêu trong tập dữ liệu D của bạn ).
Trong mọi trường hợp, bạn muốn dự đoán giá trị đích của các mẫu mới, được rút ra từ cùng phân phối với xTôi s. Một biện pháp tốt e của việc thực hiện các mô hình của bạn sẽ
e ( mô hình ) = P[ f( X) = mô hình ( X) ] ,
ví dụ, xác suất mà bạn dự đoán giá trị mục tiêu đúng đối với một mẫu ngẫu nhiên X .
Sử dụng công thức Bayes, bạn có thể tính toán, xác suất mà mẫu x có giá trị đích v , dựa trên dữ liệu D :
P( V | D ) = Σf^P( v ∣ f^) P( f^∣ D ) .
- P( v ∣ f^)01f^x
- P( f^∣ D )
- f^
P( v ∣ D )
xv^= argmaxvΣf^P( v ∣ f^) P( f^∣ D ) .
ve ( f^)
Vì chúng tôi luôn sử dụng trình phân loại Bayes làm điểm chuẩn để so sánh hiệu suất của tất cả các trình phân loại khác.
P( v ∣ D )