Số lượng quan sát tối thiểu cho hồi quy logistic?


9

Tôi đang chạy một hồi quy logistic nhị phân với 3 biến số. Tôi đang ngăn chặn việc chặn trong các mô hình của mình vì xác suất sẽ bằng 0 nếu tất cả các biến đầu vào bằng không.

Tôi nên sử dụng số lượng quan sát tối thiểu là bao nhiêu?


10
Bạn sẽ cần một chương trình chặn để làm điều đó! Chặn 0 tương ứng với xác suất , không phải , khi tất cả các biến độc lập đều bằng không. 11+exp(0)=1/20
whuber

2
Có một cuộc thảo luận liên quan ở đây: mẫu-size-for-logistic-regression .
gung - Phục hồi Monica

Câu trả lời:


19

Có một cách để có được tại một điểm khởi đầu vững chắc. Giả sử không có hiệp phương sai, do đó tham số duy nhất trong mô hình là phần chặn. Cỡ mẫu cần thiết để cho phép ước tính của phần chặn là đủ chính xác sao cho xác suất dự đoán nằm trong 0,1 xác suất thực với độ tin cậy 95%, khi phần chặn thực sự nằm trong vùng lân cận bằng 0? Câu trả lời là n = 96. Điều gì xảy ra nếu có một hiệp phương sai và đó là nhị phân với tỷ lệ phổ biến là 0,5? Người ta sẽ cần 96 đối tượng có x = 0 và 96 với x = 1 để có giới hạn trên của lề lỗi để ước tính Prob [Y = 1 | X = x] không vượt quá 0,1. Công thức chung cho cỡ mẫu cần thiết để đạt được biên sai số khi ước tính xác suất thực của ở mức tin cậy 0,95 làδpn=(1.96δ)2×p(1p) . Đặt cho trường hợp xấu nhất.p=0.5


Tôi đánh giá cao sự giúp đỡ của bạn trong diễn đàn này. Tôi có ~ 90000 sự kiện và ~ 2000000 sự kiện. Tôi cần một mô hình logistic với 65 dự đoán. Bây giờ làm thế nào và bao nhiêu mẫu tôi có thể lấy. trong thực tế, câu hỏi của tôi có liên quan đến số liệu thống kê.stackexchange.com/questions/268201 / Mạnh
SIslam

2
Không có vấn đề với việc lắp 65 đồng thời với cỡ mẫu hiệu quả của bạn.
Frank Harrell

nhưng tôi đã đề xuất rằng quá nhiều mẫu có thể gây ra vấn đề vì tôi đã nhận được bình phương thấp.
SIslam

3
Bạn đang giỡn hả? Nếu thấp khi sử dụng một mẫu lớn, đó là ước tính chính xác nhất về và việc quan sát rơi sẽ không cải thiện hiệu suất của mô hình; nó sẽ chỉ làm cho nó tồi tệ hơn Bổ sung bằng các số liệu dễ hiểu khác như -index (xác suất phù hợp; diện tích ROC). Và trên hết, bỏ qua mọi lời khuyên để "cân bằng" tần số loại kết quả. R2R2R2c
Frank Mitchell

Tôi có cần sử dụng glmnet cho việc này để tìm dự đoán hữu ích nhất ở giai đoạn này không?
SIslam

9

Thực sự không có một số lượng quan sát tối thiểu. Về cơ bản, càng có nhiều quan sát bạn càng có nhiều tham số của mô hình của bạn bị ràng buộc bởi dữ liệu và mô hình càng trở nên tự tin hơn. Bạn cần bao nhiêu quan sát tùy thuộc vào bản chất của vấn đề và mức độ tự tin của bạn trong mô hình của bạn. Tôi không nghĩ rằng nên dựa quá nhiều vào "quy tắc ngón tay cái" về loại điều này, nhưng sử dụng tất cả dữ liệu bạn có thể nhận được và kiểm tra khoảng tin cậy / độ tin cậy trên các thông số mô hình và dự đoán của bạn.


không có số lượng tối thiểu! Tôi có ~ 90000 sự kiện và ~ 2000000 sự kiện. Tôi cần một mô hình logistic với 65 biến hồi quy. Tôi được biết rằng đây là quá nhiều mẫu, vì tôi đang lấy toàn bộ ~ 90000 sự kiện và ~ 90000 sự kiện không được chọn ngẫu nhiên từ ~ 2000000, hãy thử giảm mẫu trong khi các mẫu là đại diện. ở giai đoạn này tôi có thể lấy bao nhiêu mẫu và làm thế nào. Trong thực tế, tôi đang đề cập đến stats.stackexchange.com/questions/268201/ cấp
SIslam 22/03/2017

3
Không làm điều đó
Frank Harrell

1
Tôi đồng ý với @FrankHarrell (có thể vì một lý do khác?). Vấn đề "mất cân bằng lớp" có xu hướng biến mất càng nhiều dữ liệu bạn thu thập và nếu bạn cân bằng một cách giả tạo dữ liệu đào tạo, bạn đang nói với mô hình rằng tần số của lớp vận hành là 50-50, điều đó có thể không đúng và bạn sẽ vượt qua phân loại lớp thiểu số trong sử dụng hoạt động. Nếu bạn làm điều này, sau đó xử lý hậu kỳ xác suất đầu ra để điều chỉnh sự khác biệt về tần số của lớp đào tạo và hoạt động (tại thời điểm đó bạn có thể sẽ nhận được kết quả cơ bản giống như đào tạo với tất cả dữ liệu).
Dikran Marsupial

0

Cập nhật: Tôi không thấy nhận xét trên, bởi @David Harris, khá giống với nhận xét của tôi. Xin lỗi vì điều đó. Các bạn có thể xóa câu trả lời của tôi nếu nó quá giống nhau.

Tôi muốn đăng bài Dikran Marsupail thứ hai và thêm hai xu của tôi.

Hãy xem xét kiến ​​thức trước đây của bạn về các hiệu ứng mà bạn mong đợi từ các biến độc lập của bạn. Nếu bạn mong đợi các hiệu ứng nhỏ, hơn bạn sẽ cần một mẫu rất lớn. Nếu các hiệu ứng được dự kiến ​​là lớn, hơn một mẫu nhỏ có thể thực hiện công việc.

Như bạn có thể biết, lỗi tiêu chuẩn là một hàm của cỡ mẫu, do đó cỡ mẫu càng lớn thì sai số chuẩn càng nhỏ. Do đó, nếu các hiệu ứng nhỏ, tức là gần bằng 0, chỉ một lỗi tiêu chuẩn nhỏ sẽ có thể phát hiện hiệu ứng này, tức là, để cho thấy rằng nó khác biệt đáng kể so với không. Mặt khác, nếu hiệu ứng lớn (cách xa 0), thậm chí một lỗi tiêu chuẩn lớn sẽ tạo ra kết quả đáng kể.

Nếu bạn cần một số tài liệu tham khảo, hãy xem Blog của Andrew Gelmans.


1
Blog của Gelman đang trở nên khá lớn :-). Bạn có một bài đặc biệt trong tâm trí?
whuber

@Whuber, bạn nói đúng, tôi nên chỉ ra một cái gì đó cụ thể hơn. Anh ấy có một số bài thuyết trình gần đây về các hiệu ứng nhỏ và nhiều so sánh, nhưng tôi nghĩ rằng liên kết sau là đủ: stat.columbia.edu/~gelman/research/published/power4r.pdf
Manoel Galdino

1
liên kết trong các bình luận đã chết và không có tài liệu tham khảo nào cho một bài đăng cụ thể của blog được đề cập
baxx

0

Dường như để có được một ước tính chấp nhận được, chúng ta phải áp dụng các quy tắc đã được kiểm tra bởi các nhà nghiên cứu khác. Tôi đồng ý với hai quy tắc ngón tay cái ở trên (10 obs cho mỗi var và công thức của Harrell). Ở đây, có một câu hỏi khác là dữ liệu được tiết lộ hoặc ưu tiên nêu. Hosmer và Lemeshow trong cuốn sách của họ đã cung cấp một quy tắc cho tiết lộ và Louviere và Hensher trong cuốn sách của họ (Các phương pháp ưu tiên Stated) đã cung cấp một quy tắc cho dữ liệu ưu tiên đã nêu


2
Điều này sẽ được hưởng lợi từ một lời giải thích đầy đủ hơn và cũng tham khảo đầy đủ và chính xác.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.