Cách chọn xác suất cắt cho một sự kiện hiếm gặp Hồi quy logistic


11

Tôi có 100.000 quan sát (9 biến chỉ số giả) với 1000 dương. Hồi quy logistic sẽ hoạt động tốt trong trường hợp này nhưng xác suất cắt bỏ đánh đố tôi.

Trong tài liệu phổ biến, chúng tôi chọn mức cắt 50% để dự đoán 1s và 0. Tôi không thể làm điều này vì mô hình của tôi cho giá trị tối đa ~ 1%. Vì vậy, một ngưỡng có thể ở mức 0,007 hoặc một nơi nào đó xung quanh nó.

Tôi hiểu ROCđường cong và cách khu vực dưới đường cong có thể giúp tôi chọn giữa hai mô hình LR cho cùng một tập dữ liệu. Tuy nhiên, ROC không giúp tôi chọn xác suất cắt tối ưu có thể được sử dụng để kiểm tra mô hình trên dữ liệu ngoài mẫu.

Tôi có nên đơn giản sử dụng một giá trị ngưỡng để giảm thiểu misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Đã thêm -> Đối với tỷ lệ sự kiện thấp như vậy, tỷ lệ phân loại sai của tôi bị ảnh hưởng bởi một số lượng lớn các kết quả dương tính giả. Mặc dù tỷ lệ trên tất cả có vẻ tốt vì tổng kích thước vũ trụ cũng lớn, nhưng mô hình của tôi không nên có quá nhiều kết quả sai (vì đây là mô hình hoàn vốn đầu tư). 5/10 coeff rất đáng kể.


3
Đó là chi phí tương đối của hai loại phân loại sai cùng với xác suất của chúng sẽ xác định mức cắt. Nếu bạn chỉ muốn xác thực mô hình xác suất, hãy tính điểm AUC hoặc Brier của nó khi áp dụng cho tập kiểm tra.
Scortchi - Phục hồi Monica

Đây có thể là một câu trả lời hay: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin

Cũng có câu trả lời có liên quan ở đây & đây .
Scortchi - Tái lập Monica

@ Tae-SungShin Cảm ơn liên kết. Nó rất hữu dụng. Tôi đoán không có câu trả lời chắc chắn cho Q. của tôi. Mô hình của tôi bị số lượng dương tính giả cao.
Maddy

@Scortchi Cảm ơn. Sử dụng AUC có thể hữu ích nếu tôi so sánh 2 mô hình hồi quy logistic khác nhau (có thêm các yếu tố dự đoán) nhưng tôi không chắc nó giúp tôi như thế nào trong trường hợp của tôi. Nó mang lại cho tôi tổng xác suất thành công của mô hình của tôi nhưng nó không giúp tôi chọn xác suất cắt.
Maddy

Câu trả lời:


5

Tôi không đồng ý rằng việc cắt giảm 50% vốn là hợp lệ hoặc được tài liệu hỗ trợ. Trường hợp duy nhất mà việc cắt bỏ như vậy có thể được biện minh là trong một thiết kế kiểm soát trường hợp trong đó tỷ lệ kết quả là chính xác 50%, nhưng ngay cả khi đó sự lựa chọn sẽ phải chịu một vài điều kiện. Tôi nghĩ rằng lý do chính cho việc lựa chọn cắt bỏ là đặc điểm hoạt động mong muốn của xét nghiệm chẩn đoán.

Một điểm cắt có thể được chọn để đạt được độ nhạy hoặc độ đặc hiệu mong muốn. Để có một ví dụ về điều này, tham khảo tài liệu thiết bị y tế. Độ nhạy thường được đặt ở một mức cố định: ví dụ bao gồm 80%, 90%, 95%, 99%, 99,9% hoặc 99,99%. Sự đánh đổi độ nhạy / độ đặc hiệu phải được so sánh với tác hại của lỗi Loại I và Loại II. Thông thường, như với kiểm tra thống kê, tác hại của lỗi loại I là lớn hơn và do đó chúng tôi kiểm soát rủi ro đó. Tuy nhiên, những tác hại này hiếm khi định lượng được. Do đó, tôi có những phản đối chính đối với các phương pháp lựa chọn dựa trên một thước đo duy nhất về độ chính xác dự đoán: chúng truyền đạt, không chính xác, những tác hại có thể và đã được định lượng.

Vấn đề của bạn về quá nhiều dương tính giả là một ví dụ ngược lại: lỗi loại II có thể có hại hơn. Sau đó, bạn có thể đặt ngưỡng để đạt được độ đặc hiệu mong muốn và báo cáo độ nhạy đạt được ở ngưỡng đó.

Nếu bạn thấy cả hai quá thấp để có thể chấp nhận thực hành, mô hình rủi ro của bạn không hoạt động và nó sẽ bị từ chối.

Độ nhạy và độ đặc hiệu có thể dễ dàng tính toán hoặc tra cứu từ một bảng trên toàn bộ phạm vi của các giá trị ngưỡng có thể có. Vấn đề với ROC là nó bỏ sót thông tin cắt cụ thể từ đồ họa. Do đó, ROC không liên quan để chọn giá trị ngưỡng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.