Cỡ mẫu cho hồi quy logistic?


26

Tôi muốn tạo một mô hình logistic từ dữ liệu khảo sát của tôi. Đó là một cuộc khảo sát nhỏ về bốn thuộc địa dân cư trong đó chỉ có 154 người được phỏng vấn. Biến phụ thuộc của tôi là "chuyển đổi thỏa đáng để làm việc". Tôi thấy rằng, trong số 154 người được hỏi, 73 người nói rằng họ đã chuyển sang làm việc một cách thỏa đáng, trong khi những người còn lại thì không. Vì vậy, biến phụ thuộc là bản chất nhị phân và tôi quyết định sử dụng hồi quy logistic. Tôi có bảy biến độc lập (ba biến liên tục và bốn danh nghĩa). Một hướng dẫn cho thấy rằng nên có 10 trường hợp cho mỗi biến dự đoán / biến độc lập (Agresti, 2007). Dựa trên hướng dẫn này, tôi cảm thấy việc chạy hồi quy logistic là ổn.

Tôi có đúng không Nếu không xin vui lòng cho tôi biết làm thế nào để quyết định số lượng biến độc lập?


3
Tôi chưa bao giờ thực sự hiểu quy tắc ngón tay cái nói rằng "10 trường hợp cho mỗi người dự đoán" (và thật không may, tôi không có quyền truy cập vào cuốn sách được viết bởi Agresti). Ý tôi là: nếu tôi có 100 đối tượng trong đó 10 trường hợp (trường hợp 1) và 90 trường hợp không (trường hợp 0), thì quy tắc nói "chỉ bao gồm 1 người dự đoán". Nhưng điều gì sẽ xảy ra nếu tôi lập mô hình 0thay vì 1và sau đó tôi lấy tỷ lệ nghịch của tỷ lệ cược ước tính? Tôi có được phép bao gồm 9 người dự đoán không? Điều đó vô nghĩ với tôi.
boscovich

Andrea thân mến, tôi đã nói điều tương tự mà bạn muốn nói. Trong số 154 người được hỏi có 73 trường hợp (1 và 0 còn lại). Bạn có thể ném một số ánh sáng cho câu hỏi của tôi. Cảm ơn!
Braj-Stat

4
Trong một bài bình luận tôi đã đọc rằng người ta phải nhìn vào mức tối thiểu của số lượng sự kiện và sự kiện không. Vì vậy, trong ví dụ về 10/100, bạn kết thúc với một người dự đoán bất kể bạn viết mã như thế nào.
psj

@psj nghe có vẻ hợp lý. Bạn có lời khuyên nào chưa?
boscovich

1
Có một cuộc thảo luận liên quan ở đây: tối thiểu số lượng quan sát-cho-logistic-hồi quy .
gung - Phục hồi Monica

Câu trả lời:


25

Có một số vấn đề ở đây.

Thông thường, chúng tôi muốn xác định cỡ mẫu tối thiểu để đạt được mức công suất thống kê tối thiểu chấp nhận được . Cỡ mẫu được yêu cầu là một hàm của một số yếu tố, chủ yếu là cường độ của hiệu ứng bạn muốn có thể phân biệt từ 0 (hoặc bất kỳ giá trị null nào bạn đang sử dụng, nhưng 0 là phổ biến nhất) và xác suất bắt tối thiểu ảnh hưởng đến bạn muốn có. Làm việc theo quan điểm này, cỡ mẫu được xác định bằng phân tích công suất.

Một cân nhắc khác là sự ổn định của mô hình của bạn (như ghi chú @cbeleites). Về cơ bản, vì tỷ lệ của các tham số ước tính với số lượng dữ liệu gần bằng 1, mô hình của bạn sẽ trở nên bão hòa và nhất thiết phảiquá mức (thực tế, trừ khi không có sự ngẫu nhiên trong hệ thống). Quy tắc tỷ lệ 1 đến 10 của ngón tay cái xuất phát từ quan điểm này. Lưu ý rằng có sức mạnh đầy đủ thường sẽ giải quyết mối quan tâm này cho bạn, nhưng không phải ngược lại.

Tuy nhiên, quy tắc 1 đến 10 xuất phát từ thế giới hồi quy tuyến tính, và điều quan trọng là phải nhận ra rằng hồi quy logistic có các phức tạp bổ sung. Một vấn đề là hồi quy logistic hoạt động tốt nhất khi tỷ lệ phần trăm của 1 và 0 xấp xỉ 50% / 50% (như @andrea và @psj thảo luận trong các nhận xét ở trên). Một vấn đề khác cần quan tâm là sự tách biệt . Đó là, bạn không muốn tập hợp tất cả số 1 của mình vào một cực trị của một biến độc lập (hoặc một số kết hợp của chúng) và tất cả các số 0 ở cực khác. Mặc dù điều này có vẻ như là một tình huống tốt, bởi vì nó sẽ làm cho dự đoán hoàn hảo trở nên dễ dàng, nhưng nó thực sự làm cho quá trình ước tính tham số nổ tung. (@Scortchi có một cuộc thảo luận tuyệt vời về cách đối phó với sự phân tách trong hồi quy logistic tại đây:Làm thế nào để đối phó với sự tách biệt hoàn hảo trong hồi quy logistic? ) Với nhiều IV hơn, điều này sẽ trở nên có khả năng hơn, ngay cả khi cường độ thực sự của các hiệu ứng được giữ cố định và đặc biệt là nếu phản hồi của bạn không cân bằng. Do đó, bạn có thể dễ dàng cần nhiều hơn 10 dữ liệu mỗi IV.

Một vấn đề cuối cùng với quy tắc đó là nó cho rằng IV của bạn là trực giao . Điều này là hợp lý cho các thử nghiệm được thiết kế, nhưng với các nghiên cứu quan sát như của bạn, IV của bạn sẽ gần như không bao giờ trực giao. Có các chiến lược để xử lý tình huống này (ví dụ: kết hợp hoặc loại bỏ IV, tiến hành phân tích thành phần chính trước, v.v.), nhưng nếu nó không được giải quyết (phổ biến), bạn sẽ cần thêm dữ liệu.

Một câu hỏi hợp lý sau đó là N tối thiểu của bạn nên là bao nhiêu và / hoặc cỡ mẫu của bạn có đủ không? Để giải quyết vấn đề này, tôi khuyên bạn nên sử dụng các phương pháp mà @cbeleites thảo luận; dựa vào quy tắc 1 đến 10 sẽ không đủ.


6
Bạn có thể cung cấp tài liệu tham khảo cho tuyên bố "Một vấn đề là hồi quy logistic hoạt động tốt nhất khi tỷ lệ phần trăm của 1 và 0 xấp xỉ 50% / 50%"? Tôi đã tự hỏi về điều này bản thân mình, vì tôi có một bộ dữ liệu rất xa từ 50/50 và tôi đang tự hỏi những hàm ý này. (xin lỗi để hồi sinh chuỗi)
Trevor

3
Tôi không thấy bất kỳ vấn đề nào khi khôi phục một chủ đề cũ khi nó phù hợp, @Trevor. Tôi nghĩ rằng những gì bạn đang tìm kiếm là một cái gì đó dọc theo câu trả lời hay này bằng cách liên hợp trước: does-an-unbalbal-sample-problems-when-doing-logistic-regression .
gung - Tái lập Monica

2
+1 cho câu hỏi của Trevor. Tôi tin rằng hồi quy logistic sẽ tiếp tục được hưởng lợi từ dữ liệu mới, ngay cả khi dữ liệu đó thuộc cùng một trường hợp (mặc dù lợi nhuận giảm dần). Đó thực sự là điều khiến tôi bận tâm về các kỹ thuật học máy như rừng ngẫu nhiên - rằng chúng có thể trở nên tồi tệ hơn bằng cách thêm dữ liệu đào tạo phù hợp hơn. Có lẽ có một điểm mà tại đó hồi quy logistic sẽ bị phá vỡ do những cân nhắc về số nếu sự mất cân bằng trở nên quá nghiêm trọng. Sẽ quan tâm đến việc tìm hiểu thêm về điều này.
Ben Ogorek

+1, có lẽ điều này được ngụ ý bởi câu trả lời của bạn Tôi không chắc chắn, nhưng tôi tự hỏi làm thế nào điều này hoạt động cho các biến phân loại với các cấp độ khác nhau? Nó sẽ được đề nghị để có 10 quan sát cho mỗi cấp độ?
baxx

1
Đó là một quy tắc của ngón tay cái, @baxx, nhưng vâng, để làm nhiều hơn là chỉ ước tính tỷ lệ phần trăm, bạn sẽ cần ít nhất 45.
gung - Tái lập Monica

16

Tôi thường sử dụng quy tắc 15: 1 (tỷ lệ tối thiểu (sự kiện, không sự kiện) với số lượng tham số ứng cử viên trong mô hình). Nhiều công việc gần đây cho thấy để xác nhận chặt chẽ hơn 20: 1 là cần thiết. Thông tin thêm có thể được tìm thấy trong các tài liệu hướng dẫn khóa học của tôi được liên kết từ http://biostat.mc.vanderbilt.edu/rms , đặc biệt là một đối số cho cỡ mẫu tối thiểu 96 chỉ để ước tính đánh chặn. Nhưng yêu cầu kích thước mẫu là nhiều sắc thái hơn, và một bài báo gần đây thậm chí còn giải quyết vấn đề này một cách toàn diện hơn.


14

Thông thường, quá ít trường hợp wrt. độ phức tạp của mô hình (số lượng tham số) có nghĩa là các mô hình không ổn định . Vì vậy, nếu bạn muốn biết liệu độ phức tạp của mô hình / mô hình mẫu có ổn không, hãy kiểm tra xem bạn có đạt được mô hình ổn định hợp lý hay không.

Có (ít nhất) hai loại bất ổn khác nhau:

  1. Các tham số mô hình thay đổi rất nhiều chỉ với những thay đổi nhỏ trong dữ liệu đào tạo.

  2. Các dự đoán (cho cùng một trường hợp) của các mô hình được đào tạo với những thay đổi nhỏ trong dữ liệu đào tạo thay đổi rất nhiều.

Bạn có thể đo 1. bằng cách xem hệ số mô hình của bạn thay đổi bao nhiêu nếu dữ liệu huấn luyện hơi bị nhiễu. Một loạt các mô hình phù hợp có thể được tính toán, ví dụ như trong quá trình xác thực chéo bootstrap hoặc (lặp đi lặp lại).

Đối với một số loại mô hình hoặc sự cố, các tham số khác nhau không ngụ ý các dự đoán khác nhau. Bạn có thể trực tiếp kiểm tra tính không ổn định 2. bằng cách xem xét sự thay đổi của các dự đoán cho cùng một trường hợp (bất kể chúng có chính xác hay không) được tính toán trong quá trình xác thực chéo ngoài bootstrap hoặc lặp đi lặp lại.


5

Không có quy tắc nghiêm ngặt, nhưng bạn có thể bao gồm tất cả các biến độc lập miễn là các biến danh nghĩa không có quá nhiều danh mục. Bạn cần một "beta" cho tất cả ngoại trừ một trong các lớp cho mỗi biến danh nghĩa. Vì vậy, nếu một biến danh nghĩa là "khu vực làm việc" và bạn có 30 khu vực, thì bạn cần 29 betas.

Một cách để vượt qua điều này là thường xuyên hóa betas - hoặc phạt các hệ số lớn. Điều này giúp đảm bảo rằng mô hình của bạn không phù hợp với dữ liệu. Chính quy hóa L2 và L1 là những lựa chọn phổ biến.

Một vấn đề khác cần xem xét là làm thế nào đại diện mẫu của bạn. Dân số nào bạn muốn suy luận về? Bạn có tất cả các loại người khác nhau trong mẫu có trong dân số không? Sẽ rất khó để suy luận chính xác nếu mẫu của bạn có "lỗ hổng" (ví dụ: không có nữ ở độ tuổi 35-50 trong mẫu hoặc không có nhân viên thu nhập cao, v.v.)


4

Đây là câu trả lời thực tế từ trang web MedCalc user41466 đã viết về

http://www.medcalc.org/manual/logistic_regression.php

Cân nhắc cỡ mẫu

Tính toán kích thước mẫu cho hồi quy logistic là một vấn đề phức tạp, nhưng dựa trên công trình của Peduzzi et al. (1996) có thể đề xuất hướng dẫn sau đây cho số lượng trường hợp tối thiểu trong nghiên cứu của bạn. Đặt p là tỷ lệ nhỏ nhất của các trường hợp âm hoặc dương trong dân số và k số lượng đồng biến (số lượng biến độc lập), thì số trường hợp tối thiểu cần bao gồm là: N = 10 k / p Ví dụ: bạn có 3 đồng biến để đưa vào mô hình và tỷ lệ các trường hợp dương tính trong dân số là 0,20 (20%). Số lượng trường hợp tối thiểu được yêu cầu là N = 10 x 3 / 0,20 = 150 Nếu số kết quả nhỏ hơn 100, bạn nên tăng nó lên 100 theo đề xuất của Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Một nghiên cứu mô phỏng về số lượng sự kiện trên mỗi biến trong phân tích hồi quy logistic. Tạp chí Dịch tễ học lâm sàng 49: 1373-1379.


Vì vậy, nó là 10 cặp tương tự cho mỗi biến độc lập (có sàn)
seanv507

1

Kết quả từ bất kỳ mô hình logistic nào với số lượng quan sát trên mỗi biến độc lập từ ít nhất năm đến chín là đáng tin cậy, đặc biệt là nếu kết quả có ý nghĩa thống kê (Vitshoff & McCulloch, 2007).

Vitshoff, E., & McCulloch, CE 2007. Nới lỏng quy tắc mười sự kiện cho mỗi biến trong hồi quy logistic và Cox. Tạp chí Dịch tễ học Hoa Kỳ, 165 (6): 710 Từ718.


Lưu ý rằng đó không hoàn toàn là "số lượng quan sát trên mỗi biến độc lập", đó là số lượng "sự kiện". Đối với hồi quy logistic, số lượng "sự kiện" là số trường hợp ít gặp nhất trong hai lớp kết quả. Con số này sẽ không lớn hơn 1/2 tổng số quan sát và trong một số ứng dụng, mức giá thấp hơn mức đó.
EdM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.