Câu trả lời:
Như các câu trả lời khác nêu chính xác, các xác suất được báo cáo từ các mô hình như hồi quy logistic và Bayes ngây thơ là ước tính của xác suất lớp. Nếu mô hình là đúng, xác suất thực sự sẽ là xác suất phân loại chính xác.
Tuy nhiên, điều khá quan trọng để hiểu rằng điều này có thể gây hiểu nhầm bởi vì mô hình được ước tính và do đó không phải là một mô hình chính xác. Có ít nhất ba vấn đề.
Sự không chắc chắn chỉ là sự thật hiện tại ở khắp mọi nơi rằng xác suất chỉ là ước tính. Một khoảng tin cậy của xác suất lớp ước tính có thể cung cấp một số ý tưởng về độ không đảm bảo (của xác suất lớp, không phải phân loại).
Nếu thủ tục ước tính (cố ý) cung cấp ước tính sai lệch , xác suất lớp là sai. Đây là một cái gì đó tôi thấy với các phương pháp chính quy hóa như lasso và sườn cho hồi quy logistic. Trong khi sự lựa chọn hợp lệ hóa chính xác dẫn đến một mô hình có hiệu suất tốt về mặt phân loại, thì xác suất của lớp kết quả được đánh giá thấp rõ ràng (quá gần 0,5) trong các trường hợp thử nghiệm. Điều này không hẳn là xấu, nhưng quan trọng là phải nhận thức được.
Đối với trường hợp thử nghiệm (đầu vào cụ thể), lớp của nó (giả sử nhãn 1 cho đầu ra nhị phân) xác suất dự đoán là cơ hội ví dụ thử nghiệm thuộc về lớp đó. Trong nhiều trường hợp thử nghiệm như vậy, tỷ lệ thuộc về lớp 1 sẽ có xu hướng xác suất dự đoán. Sự tự tin có ý nghĩa về khoảng tin cậy, đó là một điều gì đó khá khác biệt.
Nếu một bộ phân loại dự đoán một lớp nhất định có xác suất, thì số đó có thể được sử dụng như một proxy cho mức độ tin cậy trong phân loại đó. Không được nhầm lẫn với khoảng tin cậy. Ví dụ: nếu phân loại P dự đoán hai trường hợp là +1 & -1 với xác suất 80% & 60% thì có thể nói rằng nó chắc chắn hơn về phân loại +1 so với phân loại -1. Phương sai được đo bằng p (1-p) cũng là một thước đo tốt về độ không đảm bảo. Lưu ý, độ tin cậy cơ bản là 50% chứ không phải 0.
Đưa ra một bộ phân loại có 2 lớp (ví dụ: phân loại hồi quy tuyến tính hoặc phân loại hồi quy tuyến tính 2 lớp), giá trị phân biệt cho cả hai lớp có thể được áp dụng cho hàm softmax để đưa ra ước tính xác suất sau cho lớp đó:
P1 = exp (d1) / (exp (d1) + exp (d2))
Trong đó P1 là ước tính xác suất sau cho lớp 1, d1 và d2 lần lượt là các giá trị phân biệt đối với lớp 1 và 2. Trong trường hợp này, xác suất hậu nghiệm ước tính cho một lớp nhất định có thể được lấy là mức độ tin cậy của lớp, đối với trường hợp cụ thể vì P1 sẽ bằng 1 - P2.