Trên thực tế điều này là khá đơn giản: Bayes phân loại chọn lớp mà có vĩ đại nhất một hậu Khả năng xảy ra (cái gọi là tối đa một ước lượng hậu ). Hàm mất 0-1 sẽ phạt phân loại sai, tức là nó chỉ định tổn thất nhỏ nhất cho giải pháp có số lượng phân loại chính xác lớn nhất. Vì vậy, trong cả hai trường hợp, chúng ta đang nói về chế độ ước tính . Hãy nhớ lại chế độ đó là giá trị phổ biến nhất trong tập dữ liệu hoặc giá trị có thể xảy ra nhất , vì vậy cả hai đều tối đa hóa xác suất sau và giảm thiểu tổn thất 0-1 dẫn đến ước tính chế độ.
Nếu bạn cần một bằng chứng chính thức, một trong số đó được đưa ra trong bài giới thiệu về lý thuyết quyết định Bayes của Angela J. Yu:
Hàm mất nhị phân 0-1 có dạng sau:
lx(s^,s∗)=1−δs^s∗={10ifs^≠s∗otherwise
δ
Lx(s^)=∑s∗lx(s^,s∗)P(s=s∗∣x)=∑s∗(1−δs^s∗)P(s=s∗∣x)=∑s∗P(s=s∗∣x)ds∗−∑s∗δs^s∗P(s=s∗∣x)=1−P(s=s∗∣x)
Điều này đúng cho ước tính posteriori tối đa nói chung. Vì vậy, nếu bạn biết phân phối sau, sau đó giả sử mất 0-1, quy tắc phân loại tối ưu nhất là sử dụng chế độ phân phối sau, chúng tôi gọi đây là phân loại Bayes tối ưu . Trong cuộc sống thực, chúng ta thường không biết phân phối sau, mà chúng ta ước tính nó. Phân loại Naive Bayes xấp xỉ phân loại tối ưu bằng cách xem xét phân phối theo kinh nghiệm và bằng cách giả định tính độc lập của các yếu tố dự đoán. Vì vậy, trình phân loại Bayes ngây thơ không phải là tối ưu, nhưng nó gần đúng với giải pháp tối ưu. Trong câu hỏi của bạn, bạn dường như nhầm lẫn hai điều đó.