Tôi muốn nghiên cứu các sự kiện hiếm trong một dân số hữu hạn. Vì tôi không chắc về chiến lược nào phù hợp nhất, tôi sẽ đánh giá cao các mẹo và tài liệu tham khảo liên quan đến vấn đề này, mặc dù tôi nhận thức rõ rằng nó đã được đề cập phần lớn. Tôi thực sự không biết bắt đầu từ đâu.
Vấn đề của tôi là một ngành khoa học chính trị và tôi có một dân số hữu hạn bao gồm 515.843 hồ sơ. Chúng được liên kết với một biến phụ thuộc nhị phân với 513.334 "0" s và 2.509 "1" s. Tôi có thể đồng xu số "1" của mình là những sự kiện hiếm vì chúng chỉ chiếm 0,49% dân số.
Tôi có một bộ gồm khoảng 10 biến độc lập mà tôi muốn xây dựng một mô hình để giải thích sự hiện diện của "1" s. Giống như nhiều người trong chúng ta, tôi đã đọc bài viết năm 2001 của King & Zeng về việc sửa chữa các sự kiện hiếm gặp. Cách tiếp cận của họ là sử dụng thiết kế kiểm soát trường hợp để giảm số lượng "0", sau đó áp dụng hiệu chỉnh cho phần chặn.
Tuy nhiên, bài đăng này nói rằng lập luận của King & Zeng là không cần thiết nếu tôi đã thu thập dữ liệu của mình trên toàn bộ dân số, đó là trường hợp của tôi. Do đó, tôi phải sử dụng mô hình logit cổ điển. Thật không may cho tôi, mặc dù tôi có được các hệ số có ý nghĩa tốt, mô hình của tôi hoàn toàn vô dụng về mặt dự đoán (không dự đoán được 99,48% số "1" của tôi).
Sau khi đọc bài viết của King & Zeng, tôi muốn thử thiết kế kiểm soát trường hợp và chỉ chọn 10% số "0" với tất cả số "1". Với các hệ số gần như giống nhau, mô hình có thể dự đoán gần một phần ba số "1" khi áp dụng cho toàn bộ dân số. Tất nhiên, có rất nhiều dương tính giả.
Vì vậy, tôi có ba câu hỏi tôi muốn hỏi bạn:
1) Nếu cách tiếp cận của King & Zeng là thành kiến khi bạn có kiến thức đầy đủ về dân số, tại sao họ sử dụng một tình huống mà họ biết dân số trong bài viết của họ để chứng minh quan điểm của họ?
2) Nếu tôi có hệ số tốt và có giá trị trong hồi quy logit, nhưng khả năng dự đoán rất kém, điều đó có nghĩa là biến thể được giải thích bởi các biến này là vô nghĩa?
3) Cách tiếp cận tốt nhất để đối phó với các sự kiện hiếm gặp là gì? Tôi đã đọc về mô hình quan hệ của nhà vua, cách tiếp cận của Firth, logit chính xác, v.v. Tôi phải thú nhận rằng tôi là một người lạc lối trong tất cả các giải pháp này.