Tôi có một mô hình hồi quy logistic (phù hợp thông qua glmnet trong R với chính quy hóa mạng đàn hồi) và tôi muốn tối đa hóa sự khác biệt giữa dương tính thật và dương tính giả. Để làm điều này, các thủ tục sau đây đã xuất hiện:
- Phù hợp với mô hình hồi quy logistic tiêu chuẩn
- Sử dụng ngưỡng dự đoán là 0,5, xác định tất cả các dự đoán tích cực
- Gán trọng số 1 cho các quan sát dự đoán tích cực, 0 cho tất cả các quan sát khác
- Mô hình hồi quy logistic có trọng số
Điều gì sẽ là sai sót với phương pháp này? Điều gì sẽ là cách chính xác để tiến hành với vấn đề này?
Lý do muốn tối đa hóa sự khác biệt giữa số lượng dương tính thật và âm tính giả là do thiết kế ứng dụng của tôi. Là một phần của dự án đẳng cấp, tôi đang xây dựng một người tham gia tự chủ trong một thị trường trực tuyến - nếu mô hình của tôi dự đoán nó có thể mua một cái gì đó và bán nó sau đó với giá cao hơn, nó sẽ đặt giá thầu. Tôi muốn bám sát hồi quy logistic và kết quả nhị phân đầu ra (thắng, thua) dựa trên chi phí cố định và tăng đơn giá (tôi có được hoặc mất cùng số tiền trên mỗi giao dịch). Một dương tính giả làm tổn thương tôi vì điều đó có nghĩa là tôi mua một thứ gì đó và không thể bán nó với giá cao hơn. Tuy nhiên, một âm tính giả không làm tổn thương tôi (chỉ về chi phí cơ hội) bởi vì điều đó chỉ có nghĩa là nếu tôi không mua, nhưng nếu tôi có, tôi sẽ kiếm được tiền. Tương tự
Tôi đồng ý rằng mức cắt 0,5 là hoàn toàn tùy ý và khi tôi tối ưu hóa mô hình từ bước 1 trên ngưỡng dự đoán mang lại sự khác biệt cao nhất giữa dương tính thật / sai, hóa ra là gần hơn 0,4. Tôi nghĩ rằng điều này là do bản chất sai lệch của dữ liệu của tôi - tỷ lệ giữa tiêu cực và tích cực là khoảng 1: 3.
Ngay bây giờ, tôi đang làm theo các bước sau:
- Phân chia dữ liệu intto training / test
- Mô hình phù hợp về đào tạo, đưa ra dự đoán trong bộ kiểm tra và tính toán sự khác biệt giữa dương tính đúng / sai
- Điều chỉnh mô hình đầy đủ, đưa ra dự đoán trong tập kiểm tra và tính toán sự khác biệt giữa các kết quả dương tính / sai
Sự khác biệt giữa dương tính đúng / sai nhỏ hơn ở bước 3 so với bước 2, mặc dù tập huấn luyện là tập con của tập hợp đầy đủ. Vì tôi không quan tâm liệu mô hình trong # 3 có nhiều âm bản đúng hơn và ít âm tính giả hơn không, tôi có thể làm gì mà không làm thay đổi chức năng khả năng không?