Tôi đang chạy một hồi quy logistic nhị phân với 3 biến số. Tôi đang ngăn chặn việc chặn trong các mô hình của mình vì xác suất sẽ bằng 0 nếu tất cả các biến đầu vào bằng không.
Tôi nên sử dụng số lượng quan sát tối thiểu là bao nhiêu?
Tôi đang chạy một hồi quy logistic nhị phân với 3 biến số. Tôi đang ngăn chặn việc chặn trong các mô hình của mình vì xác suất sẽ bằng 0 nếu tất cả các biến đầu vào bằng không.
Tôi nên sử dụng số lượng quan sát tối thiểu là bao nhiêu?
Câu trả lời:
Có một cách để có được tại một điểm khởi đầu vững chắc. Giả sử không có hiệp phương sai, do đó tham số duy nhất trong mô hình là phần chặn. Cỡ mẫu cần thiết để cho phép ước tính của phần chặn là đủ chính xác sao cho xác suất dự đoán nằm trong 0,1 xác suất thực với độ tin cậy 95%, khi phần chặn thực sự nằm trong vùng lân cận bằng 0? Câu trả lời là n = 96. Điều gì xảy ra nếu có một hiệp phương sai và đó là nhị phân với tỷ lệ phổ biến là 0,5? Người ta sẽ cần 96 đối tượng có x = 0 và 96 với x = 1 để có giới hạn trên của lề lỗi để ước tính Prob [Y = 1 | X = x] không vượt quá 0,1. Công thức chung cho cỡ mẫu cần thiết để đạt được biên sai số khi ước tính xác suất thực của ở mức tin cậy 0,95 là . Đặt cho trường hợp xấu nhất.
glmnet
cho việc này để tìm dự đoán hữu ích nhất ở giai đoạn này không?
Thực sự không có một số lượng quan sát tối thiểu. Về cơ bản, càng có nhiều quan sát bạn càng có nhiều tham số của mô hình của bạn bị ràng buộc bởi dữ liệu và mô hình càng trở nên tự tin hơn. Bạn cần bao nhiêu quan sát tùy thuộc vào bản chất của vấn đề và mức độ tự tin của bạn trong mô hình của bạn. Tôi không nghĩ rằng nên dựa quá nhiều vào "quy tắc ngón tay cái" về loại điều này, nhưng sử dụng tất cả dữ liệu bạn có thể nhận được và kiểm tra khoảng tin cậy / độ tin cậy trên các thông số mô hình và dự đoán của bạn.
Cập nhật: Tôi không thấy nhận xét trên, bởi @David Harris, khá giống với nhận xét của tôi. Xin lỗi vì điều đó. Các bạn có thể xóa câu trả lời của tôi nếu nó quá giống nhau.
Tôi muốn đăng bài Dikran Marsupail thứ hai và thêm hai xu của tôi.
Hãy xem xét kiến thức trước đây của bạn về các hiệu ứng mà bạn mong đợi từ các biến độc lập của bạn. Nếu bạn mong đợi các hiệu ứng nhỏ, hơn bạn sẽ cần một mẫu rất lớn. Nếu các hiệu ứng được dự kiến là lớn, hơn một mẫu nhỏ có thể thực hiện công việc.
Như bạn có thể biết, lỗi tiêu chuẩn là một hàm của cỡ mẫu, do đó cỡ mẫu càng lớn thì sai số chuẩn càng nhỏ. Do đó, nếu các hiệu ứng nhỏ, tức là gần bằng 0, chỉ một lỗi tiêu chuẩn nhỏ sẽ có thể phát hiện hiệu ứng này, tức là, để cho thấy rằng nó khác biệt đáng kể so với không. Mặt khác, nếu hiệu ứng lớn (cách xa 0), thậm chí một lỗi tiêu chuẩn lớn sẽ tạo ra kết quả đáng kể.
Nếu bạn cần một số tài liệu tham khảo, hãy xem Blog của Andrew Gelmans.
Dường như để có được một ước tính chấp nhận được, chúng ta phải áp dụng các quy tắc đã được kiểm tra bởi các nhà nghiên cứu khác. Tôi đồng ý với hai quy tắc ngón tay cái ở trên (10 obs cho mỗi var và công thức của Harrell). Ở đây, có một câu hỏi khác là dữ liệu được tiết lộ hoặc ưu tiên nêu. Hosmer và Lemeshow trong cuốn sách của họ đã cung cấp một quy tắc cho tiết lộ và Louviere và Hensher trong cuốn sách của họ (Các phương pháp ưu tiên Stated) đã cung cấp một quy tắc cho dữ liệu ưu tiên đã nêu