Tôi có 100.000 quan sát (9 biến chỉ số giả) với 1000 dương. Hồi quy logistic sẽ hoạt động tốt trong trường hợp này nhưng xác suất cắt bỏ đánh đố tôi.
Trong tài liệu phổ biến, chúng tôi chọn mức cắt 50% để dự đoán 1s và 0. Tôi không thể làm điều này vì mô hình của tôi cho giá trị tối đa ~ 1%. Vì vậy, một ngưỡng có thể ở mức 0,007 hoặc một nơi nào đó xung quanh nó.
Tôi hiểu ROC
đường cong và cách khu vực dưới đường cong có thể giúp tôi chọn giữa hai mô hình LR cho cùng một tập dữ liệu. Tuy nhiên, ROC không giúp tôi chọn xác suất cắt tối ưu có thể được sử dụng để kiểm tra mô hình trên dữ liệu ngoài mẫu.
Tôi có nên đơn giản sử dụng một giá trị ngưỡng để giảm thiểu misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Đã thêm -> Đối với tỷ lệ sự kiện thấp như vậy, tỷ lệ phân loại sai của tôi bị ảnh hưởng bởi một số lượng lớn các kết quả dương tính giả. Mặc dù tỷ lệ trên tất cả có vẻ tốt vì tổng kích thước vũ trụ cũng lớn, nhưng mô hình của tôi không nên có quá nhiều kết quả sai (vì đây là mô hình hoàn vốn đầu tư). 5/10 coeff rất đáng kể.