Lựa chọn mô hình: Hồi quy logistic


13

Giả sử chúng ta có biến số x 1 , ... , x n và một nhị phân biến kết quả y . Một số đồng biến này được phân loại với nhiều cấp độ. Những người khác là liên tục. Làm thế nào bạn sẽ chọn mô hình "tốt nhất"? Nói cách khác, làm thế nào để bạn chọn đồng biến nào để đưa vào mô hình?nx1,,xny

Bạn có thể mô hình hóa với từng hiệp phương riêng lẻ bằng cách sử dụng hồi quy logistic đơn giản và chọn những cái có liên kết quan trọng không?y


1
Ngoài câu trả lời của tôi dưới đây (hoặc những câu hỏi khác, nếu chúng xuất hiện), phần sau đây có một số thảo luận tốt về lựa chọn mô hình (mặc dù không tập trung vào hồi quy logistic mỗi se) stats.stackexchange.com/questions/18214/iêu
gung - Tái lập Monica

2
Tôi sẽ trích dẫn @jthetzel từ một bình luận gần đây trên trang này: "Một câu hỏi hay, nhưng một câu hỏi mà hầu hết ở đây học trong các khóa học đại học kéo dài một học kỳ, và một số người đã dành sự nghiệp học tập." Nó giống như ngồi xuống với một người và nói, "Bạn có thể dạy tôi tiếng Swords chiều nay không?" Không phải là Gung không đưa ra quan điểm tốt trong câu trả lời của mình. Nó chỉ là một lãnh thổ rộng lớn.
rolando2

2
Đây cũng là một chủ đề mà trong khi đối với một câu hỏi rất cụ thể, có một số lời khuyên từ tôi nói chung: stats.stackexchange.com/questions/17068/ Khắc Tôi cũng sẽ đưa ra suy nghĩ của mình dưới đây.
Fomite

Được rồi vì vậy tôi nghĩ rằng tôi sẽ chỉ sử dụng AIC làm tiêu chí. Mô hình đầy đủ có AIC thấp nhất. Ngoài ra, AIC khá khác biệt với nhau.
Thomas

Câu trả lời:


10

Đây có lẽ không phải là một điều tốt để làm. Trước tiên, xem xét tất cả các đồng biến riêng lẻ, sau đó xây dựng một mô hình với các mô hình có ý nghĩa tương đương về mặt logic với quy trình tìm kiếm tự động. Mặc dù cách tiếp cận này là trực quan, các suy luận được thực hiện từ quy trình này không hợp lệ (ví dụ: các giá trị p thực sự khác với các giá trị được báo cáo bởi phần mềm). Vấn đề được phóng đại kích thước của tập hợp số ban đầu là lớn hơn. Nếu bạn làm điều này bằng mọi cách (và thật không may, nhiều người làm), bạn không thể coi mô hình kết quả là nghiêm túc. Thay vào đó, bạn phải chạy một nghiên cứu hoàn toàn mới, thu thập một mẫu độc lập và phù hợp với mô hình trước đó, để kiểm tra nó. Tuy nhiên, điều này đòi hỏi rất nhiều tài nguyên, và hơn nữa, vì quy trình này còn thiếu sót và mô hình trước đó có thể là một mô hình kém,lãng phí rất nhiều tài nguyên.

Một cách tốt hơn là đánh giá các mô hình quan tâm thực sự với bạn. Sau đó, sử dụng một tiêu chí thông tin xử phạt tính linh hoạt của mô hình (như AIC) để phân xử giữa các mô hình đó. Đối với hồi quy logistic, AIC là:

AIC=2×ln(likelihood)+2k

Trong đó là số lượng đồng biến có trong mô hình đó. Bạn muốn mô hình có giá trị nhỏ nhất cho AIC, tất cả mọi thứ đều bằng nhau. Tuy nhiên, nó không phải lúc nào cũng đơn giản; hãy cảnh giác khi một số mô hình có các giá trị tương tự cho AIC, mặc dù một mô hình có thể thấp nhất. k

Tôi bao gồm công thức hoàn chỉnh cho AIC ở đây, vì các phần mềm khác nhau đưa ra thông tin khác nhau. Bạn có thể phải tính toán nó từ khả năng, hoặc bạn có thể nhận được AIC cuối cùng, hoặc bất cứ điều gì ở giữa.


6
Tôi thích AIC nhưng hãy cẩn thận khi tính toán AIC trên hơn 2 mô hình được chỉ định trước dẫn đến một vấn đề về tính đa dạng.
Frank Harrell

1
@FrankHarrell mẹo hay!
gung - Phục hồi Monica

9

nhiều cách để chọn biến nào đi theo mô hình hồi quy, một số tốt, một số xấu và một số khủng khiếp. Người ta có thể chỉ cần duyệt các ấn phẩm của Sander Greenland, nhiều trong số đó liên quan đến việc lựa chọn biến.

Nói chung, tuy nhiên, tôi có một vài "quy tắc" phổ biến:

  • Các thuật toán tự động, giống như các thuật toán đi kèm trong các gói phần mềm, có lẽ là một ý tưởng tồi.
  • Sử dụng các kỹ thuật chẩn đoán mô hình, như gợi ý gung, là một phương tiện tốt để đánh giá các lựa chọn biến của bạn
  • Bạn cũng nên sử dụng kết hợp chuyên môn về chủ đề, người tìm kiếm tài liệu, đồ thị theo chu kỳ có hướng, v.v. để thông báo lựa chọn biến của bạn.

3
Đặt tốt, đặc biệt là điểm 1 và 3. Các kỹ thuật chẩn đoán mô hình có thể dẫn đến lỗi không bảo toàn lỗi loại I.
Frank Harrell

3
Vâng đặt @Epigrad. Tôi sẽ thêm một điểm mặc dù. Các thuật toán tự động trở nên rất hấp dẫn khi vấn đề của bạn trở nên lớn. Chúng có thể là cách khả thi duy nhất để thực hiện lựa chọn mô hình trong một số trường hợp. Mọi người hiện đang phân tích các tập dữ liệu khổng lồ với 1000 biến số tiềm năng và hàng triệu quan sát. Làm thế nào là chuyên môn của đối tượng ở trực giác 1000 chiều? Và những gì bạn sẽ tìm thấy là ngay cả khi bạn làm thủ công (tức là với một nhà phân tích), họ có thể sẽ tạo ra một số quy tắc rút gọn để chọn các biến. Phần khó là thực sự mã hóa những lựa chọn đó.
xác suất

1
@probabilityislogic Tôi đồng ý với điều đó. Thành thật mà nói, tôi nghĩ rằng các kỹ thuật truyền thống rất kém phù hợp với các tập dữ liệu rất lớn, nhưng xu hướng quay trở lại với các kỹ thuật dễ điều khiển hơn báo động cho tôi. Nếu một thuật toán tự động có thể thiên vị một tập dữ liệu có 10 biến, không có lý do gì nó không thể thiên vị một với 10.000. Sự nhấn mạnh hiện tại vào việc thu thập dữ liệu lớn qua phân tích của nó ở một số phần khiến tôi hơi khó hiểu.
Fomite

2
@probabilityislogic Trong một khuynh hướng mỉa mai sâu sắc, bây giờ tôi thấy mình đang làm việc với một bộ dữ liệu với hơn 10 trong số 1000 biến số tiềm năng>. <
Fomite

2

Làm thế nào bạn sẽ chọn mô hình "tốt nhất"?

Không có đủ thông tin được cung cấp để trả lời câu hỏi này; nếu bạn muốn đạt được hiệu ứng nhân quả trên y, bạn sẽ cần phải thực hiện hồi quy phản ánh những gì đã biết về sự gây nhiễu. Nếu bạn muốn dự đoán, AIC sẽ là một cách tiếp cận hợp lý.

Những cách tiếp cận này không giống nhau; bối cảnh sẽ xác định cách nào trong số (nhiều) cách chọn biến sẽ phù hợp hơn / ít hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.