Tại sao P> 0,5 cutoff không phải là tối ưu tối ưu cho hồi quy logistic?


13

LỜI MỞ ĐẦU: Tôi không quan tâm đến giá trị của việc sử dụng điểm cắt hay không, hoặc cách người ta nên chọn điểm cắt. Câu hỏi của tôi hoàn toàn là toán học và do tò mò.

Hồi quy logistic mô hình xác suất có điều kiện sau của lớp A so với lớp B và nó phù hợp với một siêu phẳng trong đó xác suất có điều kiện sau là bằng nhau. Vì vậy, về lý thuyết, tôi hiểu rằng điểm phân loại 0,5 sẽ giảm thiểu tổng số lỗi bất kể cân bằng đã đặt, vì nó mô hình xác suất sau (giả sử bạn luôn gặp tỷ lệ lớp giống nhau).

Trong ví dụ thực tế của tôi, tôi thu được độ chính xác rất kém khi sử dụng P> 0,5 làm điểm cắt phân loại của tôi (độ chính xác khoảng 51%). Tuy nhiên, khi tôi nhìn vào AUC, nó cao hơn 0,99. Vì vậy, tôi đã xem xét một số giá trị ngưỡng khác nhau và thấy rằng P> 0,6 cho tôi độ chính xác 98% (90% cho lớp nhỏ hơn và 99% cho lớp lớn hơn) - chỉ có 2% trường hợp bị phân loại sai.

Các lớp rất mất cân bằng (1: 9) và đó là một vấn đề chiều cao. Tuy nhiên, tôi đã phân bổ các lớp bằng nhau cho mỗi bộ xác thực chéo để không có sự khác biệt giữa sự cân bằng của các lớp giữa sự phù hợp của mô hình và sau đó là dự đoán. Tôi cũng đã thử sử dụng cùng một dữ liệu từ mô hình phù hợp và trong các dự đoán và vấn đề tương tự xảy ra.

Tôi quan tâm đến lý do tại sao 0,5 sẽ không giảm thiểu lỗi, tôi nghĩ rằng đây sẽ là do thiết kế nếu mô hình phù hợp bằng cách giảm thiểu tổn thất entropy chéo.

Có ai có bất kỳ thông tin phản hồi về lý do tại sao điều này xảy ra? Có phải do thêm hình phạt, ai đó có thể giải thích những gì đang xảy ra nếu vậy?



Scortchi, bạn có thể cụ thể hơn một chút về câu hỏi nào về việc cắt mà bạn nghĩ là có liên quan không? Tôi đã không nhìn thấy câu hỏi hoặc câu trả lời có liên quan trước khi tôi đăng, cũng không phải bây giờ.
felix000

Xin lỗi, tôi không có nghĩa là tất cả họ đã trả lời q của bạn, nhưng tôi nghĩ rằng tất cả họ đều có liên quan trong việc đề nghị không sử dụng độ chính xác ở bất kỳ số liệu nào như một chỉ số hiệu suất, hoặc ít nhất không phải là một mức cắt tùy ý không được tính từ một tiện ích chức năng.
Scortchi - Phục hồi Monica

Câu trả lời:


16

Bạn không phải nhận các danh mục dự đoán từ mô hình hồi quy logistic. Nó có thể là tốt ở lại với xác suất dự đoán. Nếu bạn nhận được các danh mục dự đoán, bạn không nên sử dụng thông tin đó để làm bất cứ điều gì khác ngoài việc nói 'quan sát này được phân loại tốt nhất vào danh mục này'. Ví dụ: bạn không nên sử dụng 'độ chính xác' / phần trăm chính xác để chọn một mô hình.

.50N=1009949.50199%

.5050%.50


Xin chào, cảm ơn bạn đã giải thích, tuy nhiên tôi không lấy ví dụ với mô hình chỉ chặn. Với mô hình chỉ chặn, bạn sẽ có 0,99 cho bất kỳ ví dụ nào và do đó, bạn sẽ có độ chính xác 99% bằng cách lấy bất kỳ giá trị ngưỡng nào.
abcdaire

0

Tôi nghĩ rằng, nó có thể là vì nhiều lý do:

  1. Có thể có sự không tuyến tính trong dữ liệu của bạn, do đó, việc thêm trọng số một cách tuyến tính, có thể không phải lúc nào cũng dẫn đến xác suất chính xác
  2. Các biến là sự pha trộn giữa các yếu tố dự đoán tốt và các yếu tố dự đoán yếu, do đó, dân số được ghi ở khoảng 0,5 là do các yếu tố dự đoán yếu hoặc ít ảnh hưởng của các yếu tố dự báo mạnh. Khi bạn đi ở trên, bạn có được những người, mà tác dụng của những người dự đoán là mạnh mẽ

Vì vậy, đôi khi bạn có thể phải chơi xung quanh với giá trị giới hạn, để tối đa hóa đầu ra mong muốn của bạn như độ chính xác, độ chính xác, v.v. Bởi vì hầu hết dân số thời gian không đồng nhất lắm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.