LỜI MỞ ĐẦU: Tôi không quan tâm đến giá trị của việc sử dụng điểm cắt hay không, hoặc cách người ta nên chọn điểm cắt. Câu hỏi của tôi hoàn toàn là toán học và do tò mò.
Hồi quy logistic mô hình xác suất có điều kiện sau của lớp A so với lớp B và nó phù hợp với một siêu phẳng trong đó xác suất có điều kiện sau là bằng nhau. Vì vậy, về lý thuyết, tôi hiểu rằng điểm phân loại 0,5 sẽ giảm thiểu tổng số lỗi bất kể cân bằng đã đặt, vì nó mô hình xác suất sau (giả sử bạn luôn gặp tỷ lệ lớp giống nhau).
Trong ví dụ thực tế của tôi, tôi thu được độ chính xác rất kém khi sử dụng P> 0,5 làm điểm cắt phân loại của tôi (độ chính xác khoảng 51%). Tuy nhiên, khi tôi nhìn vào AUC, nó cao hơn 0,99. Vì vậy, tôi đã xem xét một số giá trị ngưỡng khác nhau và thấy rằng P> 0,6 cho tôi độ chính xác 98% (90% cho lớp nhỏ hơn và 99% cho lớp lớn hơn) - chỉ có 2% trường hợp bị phân loại sai.
Các lớp rất mất cân bằng (1: 9) và đó là một vấn đề chiều cao. Tuy nhiên, tôi đã phân bổ các lớp bằng nhau cho mỗi bộ xác thực chéo để không có sự khác biệt giữa sự cân bằng của các lớp giữa sự phù hợp của mô hình và sau đó là dự đoán. Tôi cũng đã thử sử dụng cùng một dữ liệu từ mô hình phù hợp và trong các dự đoán và vấn đề tương tự xảy ra.
Tôi quan tâm đến lý do tại sao 0,5 sẽ không giảm thiểu lỗi, tôi nghĩ rằng đây sẽ là do thiết kế nếu mô hình phù hợp bằng cách giảm thiểu tổn thất entropy chéo.
Có ai có bất kỳ thông tin phản hồi về lý do tại sao điều này xảy ra? Có phải do thêm hình phạt, ai đó có thể giải thích những gì đang xảy ra nếu vậy?