Hậu quả của các sự kiện hiếm gặp trong hồi quy logistic là gì?


9

Tôi biết rằng cỡ mẫu ảnh hưởng đến sức mạnh trong bất kỳ phương pháp thống kê nào. Có các quy tắc là ngón tay cái cho bao nhiêu mẫu cần hồi quy cho mỗi dự đoán.

Tôi cũng thường nghe rằng số lượng mẫu trong mỗi loại trong biến phụ thuộc của hồi quy logistic là quan trọng. Tại sao lại thế này?

Những hậu quả thực tế đối với mô hình hồi quy logistic khi số lượng mẫu trong một trong các loại là nhỏ (các sự kiện hiếm)?

Có quy tắc ngón tay cái nào kết hợp cả số lượng dự đoán và số lượng mẫu trong mỗi cấp của biến phụ thuộc không?



Tôi nghĩ rằng tài liệu tham khảo này có thể giúp đỡ. Manel, S., Williams, HC, Ormerod, SJ, 2001. Đánh giá các mô hình vắng mặt trong sinh thái học: sự cần thiết phải tính đến tỷ lệ hiện mắc. J. Appl. Ecol. 38 (5), 921 trận931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Có nhiều hơn nữa về mô hình bộ dữ liệu không cân bằng.
Rafa_Mas

Câu trả lời:


11

Nguyên tắc chuẩn cho hồi quy tuyến tính (OLS) là bạn cần ít nhất dữ liệu cho mỗi biến hoặc bạn sẽ 'tiếp cận' bão hòa . Tuy nhiên, đối với hồi quy logistic, quy tắc tương ứng là bạn muốn 15 dữ liệu thuộc danh mục ít xảy ra cho mỗi biến. 1015

Vấn đề ở đây là dữ liệu nhị phân không chứa nhiều thông tin như dữ liệu liên tục. Hơn nữa, bạn có thể có những dự đoán hoàn hảo với nhiều dữ liệu, nếu bạn chỉ có một vài sự kiện thực tế. Để làm một ví dụ khá cực đoan, nhưng cần phải rõ ràng ngay lập tức, hãy xem xét trường hợp bạn có , và vì vậy đã cố gắng khớp một mô hình với 30 dự đoán, nhưng chỉ có 3 sự kiện. Bạn chỉ đơn giản là không thể ước tính sự liên kết giữa hầu hết các biến XY của bạn . N= =300303XY


2
+1 Ngoài ra, với các sự kiện hiếm gặp, bạn sẽ cần một số lượng lớn các trường hợp đáng ngạc nhiên để ước tính mức chặn thực sự ( Mitchell , trên trang 233, cho biết tổng cộng 96 trường hợp có độ tin cậy 95% về khả năng dự đoán trong vòng 0,1 giá trị thực khi đúng xác suất gần bằng 0 trong một mô hình chỉ chặn) và nếu có lấy mẫu không cân bằng, bạn có thể cần một sự điều chỉnh sự kiện hiếm gặp
EdM

1
Vì vậy, các sự kiện hiếm có thể thiên vị đánh chặn ước tính. Các sự kiện hiếm có gây ra các vấn đề cụ thể khác (sự không nhất quán, không ổn định, các vấn đề hội tụ khi tính toán MLE) không?
Great38

@ Great38 vấn đề "dự đoán hoàn hảo" trong câu trả lời này có thể dẫn đến các vấn đề về hội tụ và lỗi tiêu chuẩn rộng. Xem bài đăng này và những người khác về hiệu ứng Hauck-Donner hoặc sự tách biệt hoàn hảo.
EdM

10201060,0000000000000001
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.