Hồi quy logistic và lấy mẫu

13

Tôi đang điều chỉnh hồi quy logistic từng bước trên một tập hợp dữ liệu trong SPSS. Trong thủ tục, tôi điều chỉnh mô hình của mình thành một tập hợp con ngẫu nhiên có giá trị xấp xỉ. 60% tổng số mẫu, đó là khoảng 330 trường hợp.

Điều tôi cảm thấy thú vị là mỗi lần tôi lấy mẫu lại dữ liệu của mình, tôi lại nhận được các biến khác nhau xuất hiện trong mô hình cuối cùng. Một vài dự đoán luôn có mặt trong mô hình cuối cùng, nhưng một số khác xuất hiện tùy thuộc vào mẫu.

Câu hỏi của tôi là này. cách tốt nhất để xử lý này là gì? Tôi đã hy vọng nhìn thấy sự hội tụ của các biến dự đoán, nhưng đó không phải là trường hợp. Một số mô hình có ý nghĩa trực quan hơn nhiều từ góc nhìn hoạt động (và sẽ dễ giải thích hơn cho những người ra quyết định) và những mô hình khác phù hợp với dữ liệu tốt hơn một chút.

Nói tóm lại, vì các biến đang xáo trộn xung quanh, bạn sẽ khuyên bạn nên xử lý tình huống của tôi như thế nào?

Rất cám ơn trước.

logistic spss stepwise-regression

— Btibert3
nguồn

16

Nếu bạn sẽ sử dụng quy trình từng bước, đừng lấy mẫu lại. Tạo một mẫu phụ ngẫu nhiên một lần và cho tất cả. Thực hiện phân tích của bạn về nó. Xác nhận kết quả dựa trên dữ liệu được giữ. Có khả năng hầu hết các biến "đáng kể" sẽ không đáng kể.

( Chỉnh sửa 12/2015: Bạn thực sự có thể vượt xa cách tiếp cận đơn giản như vậy bằng cách lấy mẫu lại, lặp lại quy trình từng bước và xác thực lại: điều này sẽ dẫn bạn đến một hình thức xác thực chéo. Nhưng trong trường hợp như vậy, các phương pháp biến đổi phức tạp hơn lựa chọn, chẳng hạn như hồi quy sườn, Lasso và Mạng đàn hồi có khả năng thích hợp hơn với hồi quy từng bước.)

Tập trung vào các biến có ý nghĩa, không phải các biến phù hợp với dữ liệu tốt hơn một chút. Nếu bạn có nhiều hơn một số biến cho 330 bản ghi, bạn sẽ có nguy cơ quá cao ở vị trí đầu tiên. Xem xét sử dụng các tiêu chí nhập và để lại khá nghiêm trọng cho hồi quy từng bước. Dựa trên AIC hoặc thay vì ngưỡng cho kiểm tra hoặc kiểm tra . $C_p$ $F$ $t$

(Tôi cho rằng bạn đã thực hiện phân tích và thăm dò để xác định biểu thức lại thích hợp của các biến độc lập, rằng bạn đã xác định các tương tác có khả năng và bạn đã xác định rằng thực sự có mối quan hệ tuyến tính giữa logit của biến phụ thuộc và các biến hồi quy. Nếu không, hãy thực hiện công việc sơ bộ cần thiết này và chỉ sau đó quay lại hồi quy từng bước.)

Nhân tiện, hãy thận trọng khi làm theo lời khuyên chung chung như tôi vừa đưa ra :-). Cách tiếp cận của bạn nên phụ thuộc vào mục đích phân tích (dự đoán? Ngoại suy? Hiểu biết khoa học? Ra quyết định?) Cũng như bản chất của dữ liệu, số lượng biến, v.v.

— whuber
nguồn

2

+1 để làm nổi bật tầm quan trọng của giải thích mô hình. Tôi sẽ không thêm bất cứ điều gì về cách tiếp cận ML không được hiểu rõ (hoặc các phương thức đồng bộ) với các lược đồ xác thực chéo phức tạp hơn, bởi vì tôi cảm thấy bạn đã nói điều gì thực sự quan trọng ở đây: (1) lựa chọn tính năng thông qua việc lấy mẫu lại khó có thể hiểu được trong cách ly (nghĩa là bằng cách so sánh kết quả này với kết quả khác) và (2) tất cả phụ thuộc vào việc chúng ta đang tìm kiếm một mô hình dự đoán hay mô hình giải thích.

— chl

Cảm ơn sự sáng suốt của bạn. Tôi đã thực hiện một số sàng lọc trước để thu hẹp không gian tìm kiếm của mình và chỉ muốn tìm mô hình tốt nhất để dự đoán với ít biến nhất. Tôi chỉ ném 7 dự đoán vào mô hình, mà theo tôi hiểu thì sẽ ổn thôi. Tôi hiểu ý tưởng gắn bó với một mẫu, nhưng mặt trái, mô hình của tôi về cơ bản là khác nhau và cho thấy kết quả hoàn toàn phụ thuộc vào mẫu, khiến tôi phải dừng lại.

— Btibert3

@ Btibert3 Phải: khi kết quả khác nhau giữa các tập hợp con ngẫu nhiên của dữ liệu của bạn, bạn có thể lấy đó làm bằng chứng cho thấy các biến độc lập không phải là yếu tố dự báo mạnh hoặc nhất quán của biến độc lập.

— whuber

12

Một câu hỏi quan trọng là "tại sao bạn muốn một mô hình có ít biến nhất có thể?". Nếu bạn muốn có càng ít biến càng tốt để giảm thiểu chi phí thu thập dữ liệu cho việc sử dụng mô hình của bạn, thì câu trả lời được đưa ra bởi whuber và mbq là một khởi đầu tuyệt vời.

Nếu hiệu suất dự đoán là điều thực sự quan trọng, thì có lẽ tốt hơn hết bạn không nên thực hiện bất kỳ lựa chọn tính năng nào và sử dụng hồi quy logistic thường xuyên thay thế (hồi quy cf). Trong thực tế nếu hiệu suất dự đoán là điều quan trọng hàng đầu, tôi sẽ sử dụng hồi quy logistic được đóng gói thường xuyên như một loại chiến lược "vành đai và niềng răng" để tránh phù hợp với một tập dữ liệu nhỏ. Millar trong cuốn sách về lựa chọn tập hợp con trong hồi quy đưa ra khá nhiều lời khuyên trong phần phụ lục, và tôi đã thấy đó là lời khuyên tuyệt vời cho các vấn đề với nhiều tính năng và không có nhiều quan sát.

Nếu việc hiểu dữ liệu là quan trọng, thì không cần mô hình được sử dụng để hiểu dữ liệu giống với dữ liệu được sử dụng để đưa ra dự đoán. Trong trường hợp đó, tôi sẽ lấy mẫu lại dữ liệu nhiều lần và xem xét các mẫu của các biến được chọn trên các mẫu để tìm biến nào là thông tin (như mbq gợi ý, nếu lựa chọn tính năng không ổn định, một mẫu sẽ không đưa ra hình ảnh đầy đủ), nhưng tôi vẫn sẽ sử dụng mô hình hồi quy logistic được đóng gói thường xuyên để dự đoán.

— Sao Hỏa Dikran
nguồn

1

+1 cho con trỏ để hồi quy logistic thường xuyên. Không rõ làm thế nào người ta có thể chính thức "nhìn vào các mẫu" khi lấy mẫu lại "dữ liệu nhiều lần". Điều đó nghe có vẻ giống như dữ liệu rình mò và do đó dường như có thể dẫn đến sự thất vọng và lỗi.

— whuber

5

Lựa chọn tính năng khi lựa chọn không ổn định sẽ luôn là một công thức cho sự thất vọng và lỗi. Chỉ sử dụng một mẫu sẽ giảm bớt sự thất vọng, nhưng làm tăng khả năng xảy ra lỗi vì nó khuyến khích bạn rút ra những suy luận về các tính năng có liên quan cho vấn đề dựa trên những gì hoạt động tốt nhất trên mẫu cụ thể mà bạn nhìn vào - đó là một hình thức quá mức phù hợp. Việc lấy mẫu lại cho bạn ý tưởng về tính không chắc chắn trong lựa chọn tính năng - điều này thường cũng quan trọng không kém. Trong trường hợp này, chúng tôi không nên đưa ra bất kỳ kết luận mạnh mẽ nào về các tính năng có liên quan vì không có đủ dữ liệu.

— Dikran Marsupial

Điểm tốt; Tôi ghét khi mọi người chỉ tính có nghĩa là từ việc lấy mẫu lại, đó là một sự lãng phí.

10

Nói chung, có hai vấn đề về lựa chọn tính năng:

tối ưu tối thiểu , nơi bạn tìm kiếm tập hợp biến nhỏ nhất cung cấp cho bạn lỗi nhỏ nhất
tất cả có liên quan , nơi bạn tìm kiếm tất cả các biến có liên quan trong một vấn đề

Sự hội tụ của lựa chọn dự đoán là trong một lĩnh vực của tất cả các vấn đề có liên quan, đó là khó khăn và do đó đòi hỏi các công cụ mạnh hơn nhiều so với hồi quy logistic, tính toán nặng và xử lý rất cẩn thận.

Nhưng có vẻ như bạn đang làm vấn đề đầu tiên, vì vậy bạn không nên lo lắng về điều này. Nói chung tôi có thể trả lời câu hỏi thứ hai, nhưng tôi không đồng ý với tuyên bố rằng bạn nên bỏ việc lấy mẫu lại - ở đây sẽ không phải là một phương pháp để ổn định lựa chọn tính năng, tuy nhiên nó sẽ là mô phỏng để ước tính hiệu suất của lựa chọn tính năng được ghép nối , vì vậy sẽ cung cấp cho bạn một cái nhìn sâu sắc trong sự tự tin về độ chính xác của bạn.

+1 Tôi lo lắng rằng rất nhiều sự thay đổi sẽ chỉ gây nhầm lẫn và gây hiểu lầm. Lấy mẫu lại theo cách được kiểm soát, thông qua xác nhận chéo hoặc mẫu giữ để xác minh, rõ ràng là không có vấn đề.

— whuber

6

Bạn có thể liếc qua Lựa chọn Ổn định giấy của Meinshausen và Buhlmann trong JR Statist. Soc B (2010) 72 Phần 4, và thảo luận sau đó. Họ xem xét những gì xảy ra khi bạn liên tục chia tập hợp các điểm dữ liệu của mình một cách ngẫu nhiên thành hai nửa và tìm kiếm các tính năng trong mỗi nửa. Bằng cách giả sử rằng những gì bạn nhìn thấy trong một nửa là độc lập với những gì bạn thấy trong nửa còn lại, bạn có thể chứng minh giới hạn về số lượng biến được chọn sai.

— mcdowella
nguồn

2

Đừng sử dụng từng bước! Xem giấy của tôi

— Peter Flom - Tái lập Monica
nguồn