Có một số vấn đề ở đây.
Thông thường, chúng tôi muốn xác định cỡ mẫu tối thiểu để đạt được mức công suất thống kê tối thiểu chấp nhận được . Cỡ mẫu được yêu cầu là một hàm của một số yếu tố, chủ yếu là cường độ của hiệu ứng bạn muốn có thể phân biệt từ 0 (hoặc bất kỳ giá trị null nào bạn đang sử dụng, nhưng 0 là phổ biến nhất) và xác suất bắt tối thiểu ảnh hưởng đến bạn muốn có. Làm việc theo quan điểm này, cỡ mẫu được xác định bằng phân tích công suất.
Một cân nhắc khác là sự ổn định của mô hình của bạn (như ghi chú @cbeleites). Về cơ bản, vì tỷ lệ của các tham số ước tính với số lượng dữ liệu gần bằng 1, mô hình của bạn sẽ trở nên bão hòa và nhất thiết phải là quá mức (thực tế, trừ khi không có sự ngẫu nhiên trong hệ thống). Quy tắc tỷ lệ 1 đến 10 của ngón tay cái xuất phát từ quan điểm này. Lưu ý rằng có sức mạnh đầy đủ thường sẽ giải quyết mối quan tâm này cho bạn, nhưng không phải ngược lại.
Tuy nhiên, quy tắc 1 đến 10 xuất phát từ thế giới hồi quy tuyến tính, và điều quan trọng là phải nhận ra rằng hồi quy logistic có các phức tạp bổ sung. Một vấn đề là hồi quy logistic hoạt động tốt nhất khi tỷ lệ phần trăm của 1 và 0 xấp xỉ 50% / 50% (như @andrea và @psj thảo luận trong các nhận xét ở trên). Một vấn đề khác cần quan tâm là sự tách biệt . Đó là, bạn không muốn tập hợp tất cả số 1 của mình vào một cực trị của một biến độc lập (hoặc một số kết hợp của chúng) và tất cả các số 0 ở cực khác. Mặc dù điều này có vẻ như là một tình huống tốt, bởi vì nó sẽ làm cho dự đoán hoàn hảo trở nên dễ dàng, nhưng nó thực sự làm cho quá trình ước tính tham số nổ tung. (@Scortchi có một cuộc thảo luận tuyệt vời về cách đối phó với sự phân tách trong hồi quy logistic tại đây:Làm thế nào để đối phó với sự tách biệt hoàn hảo trong hồi quy logistic? ) Với nhiều IV hơn, điều này sẽ trở nên có khả năng hơn, ngay cả khi cường độ thực sự của các hiệu ứng được giữ cố định và đặc biệt là nếu phản hồi của bạn không cân bằng. Do đó, bạn có thể dễ dàng cần nhiều hơn 10 dữ liệu mỗi IV.
Một vấn đề cuối cùng với quy tắc đó là nó cho rằng IV của bạn là trực giao . Điều này là hợp lý cho các thử nghiệm được thiết kế, nhưng với các nghiên cứu quan sát như của bạn, IV của bạn sẽ gần như không bao giờ trực giao. Có các chiến lược để xử lý tình huống này (ví dụ: kết hợp hoặc loại bỏ IV, tiến hành phân tích thành phần chính trước, v.v.), nhưng nếu nó không được giải quyết (phổ biến), bạn sẽ cần thêm dữ liệu.
Một câu hỏi hợp lý sau đó là N tối thiểu của bạn nên là bao nhiêu và / hoặc cỡ mẫu của bạn có đủ không? Để giải quyết vấn đề này, tôi khuyên bạn nên sử dụng các phương pháp mà @cbeleites thảo luận; dựa vào quy tắc 1 đến 10 sẽ không đủ.
1
) và 90 trường hợp không (trường hợp0
), thì quy tắc nói "chỉ bao gồm 1 người dự đoán". Nhưng điều gì sẽ xảy ra nếu tôi lập mô hình0
thay vì1
và sau đó tôi lấy tỷ lệ nghịch của tỷ lệ cược ước tính? Tôi có được phép bao gồm 9 người dự đoán không? Điều đó vô nghĩ với tôi.