Tại sao bộ phân loại vịnh ngây thơ tối ưu cho mất 0-1?


13

Trình phân loại Naive Bayes là trình phân loại gán các mục x cho một lớp C dựa trên việc tối đa hóa P(C|x) cho thành viên lớp và giả định rằng các tính năng của các mục là độc lập.

Mất 0-1 là tổn thất chỉ định cho bất kỳ phân loại sai nào là mất "1" và mất "0" cho bất kỳ phân loại chính xác nào.

Tôi thường đọc (1) rằng Trình phân loại "Naive Bayes", là tối ưu cho mất 0-1. Tại sao điều này lại đúng?

(1) Một nguồn mẫu: lỗi phân loại Bayes và lỗi Bayes


2
Bạn có thể cung cấp một tài liệu tham khảo cho tuyên bố của mình, " Tôi thường đọc rằng Trình phân loại" Naive Bayes ", là tối ưu cho mất 0-1 "? Giống như, nơi bạn có thể đọc loại tuyên bố này trong quá khứ
Jon

1
đã chỉnh sửa, thêm một nguồn

Câu trả lời:


16

Trên thực tế điều này là khá đơn giản: Bayes phân loại chọn lớp mà có vĩ đại nhất một hậu Khả năng xảy ra (cái gọi là tối đa một ước lượng hậu ). Hàm mất 0-1 sẽ phạt phân loại sai, tức là nó chỉ định tổn thất nhỏ nhất cho giải pháp có số lượng phân loại chính xác lớn nhất. Vì vậy, trong cả hai trường hợp, chúng ta đang nói về chế độ ước tính . Hãy nhớ lại chế độ đó là giá trị phổ biến nhất trong tập dữ liệu hoặc giá trị có thể xảy ra nhất , vì vậy cả hai đều tối đa hóa xác suất sau và giảm thiểu tổn thất 0-1 dẫn đến ước tính chế độ.

Nếu bạn cần một bằng chứng chính thức, một trong số đó được đưa ra trong bài giới thiệu về lý thuyết quyết định Bayes của Angela J. Yu:

Hàm mất nhị phân 0-1 có dạng sau:

lx(s^,s)=1δs^s={1ifs^s0otherwise

δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Điều này đúng cho ước tính posteriori tối đa nói chung. Vì vậy, nếu bạn biết phân phối sau, sau đó giả sử mất 0-1, quy tắc phân loại tối ưu nhất là sử dụng chế độ phân phối sau, chúng tôi gọi đây là phân loại Bayes tối ưu . Trong cuộc sống thực, chúng ta thường không biết phân phối sau, mà chúng ta ước tính nó. Phân loại Naive Bayes xấp xỉ phân loại tối ưu bằng cách xem xét phân phối theo kinh nghiệm và bằng cách giả định tính độc lập của các yếu tố dự đoán. Vì vậy, trình phân loại Bayes ngây thơ không phải là tối ưu, nhưng nó gần đúng với giải pháp tối ưu. Trong câu hỏi của bạn, bạn dường như nhầm lẫn hai điều đó.


Tôi nghĩ rằng tôi hiểu: Vì vậy, bằng chứng chính thức sẽ là thứ gì đó dọc theo dòng Mất (hành động_1) = 1-P (hành động_2 | dữ liệu) <--- chúng tôi muốn giảm thiểu điều này. Tối thiểu hóa điều này sau đó một lần nữa bằng với tối đa hóa trước lớp chính xác (nghĩa là tối đa hóa P (hành động_2 | dữ liệu). Tuy nhiên, điều khiến tôi bối rối là tại sao không phải mọi phân loại đều tối ưu với vấn đề này - vì đây dường như là yêu cầu cơ bản nhất để gán mẫu dữ liệu cho một lớp. Vì vậy, nếu chúng ta luôn chọn gán mẫu dữ liệu của mình cho lớp có độ sau cao hơn, chúng ta không tự động điền đầy đủ sự tối ưu này phải không?

@TestGuest kiểm tra chỉnh sửa của tôi để có bằng chứng chính thức.
Tim

Đó là chủ nghĩa hình thức phức tạp nhất mà tôi đã thấy cho một bằng chứng như vậy :)) cảm ơn bạn tuy nhiên, tôi hy vọng nó cũng giúp ích cho người khác.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.