Xác suất dự đoán của hồi quy logistic có thể được hiểu là sự tin cậy trong phân loại


12

Chúng ta có thể giải thích xác suất sau thu được từ một bộ phân loại đưa ra giá trị lớp dự đoán và xác suất (ví dụ: hồi quy logistic hoặc Naive Bayes) như một loại điểm tin cậy được gán cho giá trị lớp dự đoán đó không?

Câu trả lời:


8

Như các câu trả lời khác nêu chính xác, các xác suất được báo cáo từ các mô hình như hồi quy logistic và Bayes ngây thơ là ước tính của xác suất lớp. Nếu mô hình là đúng, xác suất thực sự sẽ là xác suất phân loại chính xác.

Tuy nhiên, điều khá quan trọng để hiểu rằng điều này có thể gây hiểu nhầm bởi vì mô hình được ước tính và do đó không phải là một mô hình chính xác. Có ít nhất ba vấn đề.

  • Sự không chắc chắn của các ước tính.
  • Mô hình sai chính tả.
  • Thiên kiến.

Sự không chắc chắn chỉ là sự thật hiện tại ở khắp mọi nơi rằng xác suất chỉ là ước tính. Một khoảng tin cậy của xác suất lớp ước tính có thể cung cấp một số ý tưởng về độ không đảm bảo (của xác suất lớp, không phải phân loại).

--

Nếu thủ tục ước tính (cố ý) cung cấp ước tính sai lệch , xác suất lớp là sai. Đây là một cái gì đó tôi thấy với các phương pháp chính quy hóa như lasso và sườn cho hồi quy logistic. Trong khi sự lựa chọn hợp lệ hóa chính xác dẫn đến một mô hình có hiệu suất tốt về mặt phân loại, thì xác suất của lớp kết quả được đánh giá thấp rõ ràng (quá gần 0,5) trong các trường hợp thử nghiệm. Điều này không hẳn là xấu, nhưng quan trọng là phải nhận thức được.


2

Đối với trường hợp thử nghiệm (đầu vào cụ thể), lớp của nó (giả sử nhãn 1 cho đầu ra nhị phân) xác suất dự đoán là cơ hội ví dụ thử nghiệm thuộc về lớp đó. Trong nhiều trường hợp thử nghiệm như vậy, tỷ lệ thuộc về lớp 1 sẽ có xu hướng xác suất dự đoán. Sự tự tin có ý nghĩa về khoảng tin cậy, đó là một điều gì đó khá khác biệt.


1

Nếu một bộ phân loại dự đoán một lớp nhất định có xác suất, thì số đó có thể được sử dụng như một proxy cho mức độ tin cậy trong phân loại đó. Không được nhầm lẫn với khoảng tin cậy. Ví dụ: nếu phân loại P dự đoán hai trường hợp là +1 & -1 với xác suất 80% & 60% thì có thể nói rằng nó chắc chắn hơn về phân loại +1 so với phân loại -1. Phương sai được đo bằng p (1-p) cũng là một thước đo tốt về độ không đảm bảo. Lưu ý, độ tin cậy cơ bản là 50% chứ không phải 0.


1

Đưa ra một bộ phân loại có 2 lớp (ví dụ: phân loại hồi quy tuyến tính hoặc phân loại hồi quy tuyến tính 2 lớp), giá trị phân biệt cho cả hai lớp có thể được áp dụng cho hàm softmax để đưa ra ước tính xác suất sau cho lớp đó:

P1 = exp (d1) / (exp (d1) + exp (d2))

Trong đó P1 là ước tính xác suất sau cho lớp 1, d1 và d2 lần lượt là các giá trị phân biệt đối với lớp 1 và 2. Trong trường hợp này, xác suất hậu nghiệm ước tính cho một lớp nhất định có thể được lấy là mức độ tin cậy của lớp, đối với trường hợp cụ thể vì P1 sẽ bằng 1 - P2.


1
Câu trả lời này dường như đánh đồng "xác suất" với "sự tự tin" trong khi câu trả lời của @ Yoda (chính xác) phân biệt hai điều này.
whuber

@whuber Tôi nghĩ về mặt chung, sự tự tin có thể được xem là sức mạnh của niềm tin. Theo cách đó nó giống như một xác suất. Sự tự tin và khoảng tin cậy là hai điều khác nhau. Tuy nhiên, ngay cả đối với khoảng tin cậy có kỳ hạn, mức độ tin cậy là xác suất bảo hiểm cho khoảng ngẫu nhiên.
Michael R. Chernick

Tôi không đồng ý với nhận xét của bạn, @Michael, theo nghĩa là một thuật ngữ như "điểm tự tin" có thể có nghĩa là hầu hết mọi thứ (nhưng có lẽ việc sử dụng nó nên bị từ chối vì chính xác lý do đó). Tuy nhiên, theo nghĩa nào thì giá trị phù hợp bằng hồi quy logistic là "xác suất bao phủ"? Có phải đề xuất của bạn sử dụng "sự tự tin" như sức mạnh của niềm tin làm cho nó đồng nghĩa với "xác suất" chủ quan, hay một sự khác biệt vẫn còn được duy trì? (Nếu vậy, cái gì?)
whuber

1
@whuber Tôi nghĩ bạn đang đi sâu vào vấn đề này hơn tôi dự định với nhận xét của tôi. Tôi chỉ muốn nói rằng chỉ vì chúng ta thường kết nối từ "độ tin cậy" với khoảng tin cậy, điều đó không có nghĩa là điểm tin cậy của thuật ngữ OP không thể được sử dụng để xác định một xác suất (có thể như quan điểm xác suất của Bayes là mức độ chủ quan niềm tin nhưng không nhất thiết).
Michael R. Chernick

1
@whuber, tôi thực sự đã đề cập đến niềm tin vào nhãn lớp theo nghĩa 'sức mạnh của niềm tin', tức là giá trị xác suất sau của một lớp nhất định càng lớn, bạn càng tin tưởng vào nhãn lớp dự đoán. Rất vui khi loại bỏ câu trả lời này.
BGreene
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.