Phương pháp tiếp cận mâu thuẫn để lựa chọn biến: AIC, giá trị p hoặc cả hai?


13

Từ những gì tôi hiểu, lựa chọn biến dựa trên giá trị p (ít nhất là trong bối cảnh hồi quy) rất thiếu sót. Có vẻ như lựa chọn biến dựa trên AIC (hoặc tương tự) cũng bị một số người coi là thiếu sót, vì lý do tương tự, mặc dù điều này có vẻ không rõ ràng (ví dụ: xem câu hỏi của tôi và một số liên kết về chủ đề này ở đây: "Lựa chọn mô hình từng bước" chính xác là gì? ).

Nhưng giả sử bạn sử dụng một trong hai phương pháp này để chọn bộ dự đoán tốt nhất trong mô hình của mình.

Burnham và Anderson 2002 (Lựa chọn mô hình và suy luận đa mô hình: Phương pháp tiếp cận lý thuyết thông tin thực tế, trang 83) nói rằng người ta không nên kết hợp lựa chọn biến dựa trên AIC với dựa trên kiểm tra giả thuyết : không được sử dụng cùng nhau; chúng là những mô hình phân tích rất khác nhau. "

Mặt khác, Zuur et al. 2009 (Các mô hình hiệu ứng hỗn hợp có mở rộng trong sinh thái học với R, trang 541) dường như ủng hộ việc sử dụng AIC để tìm mô hình tối ưu, sau đó thực hiện "tinh chỉnh" bằng cách sử dụng thử nghiệm giả thuyết : "Nhược điểm là AIC có thể bảo thủ và bạn có thể cần phải áp dụng một số tinh chỉnh (sử dụng các thử nghiệm giả thuyết từ cách tiếp cận một) khi AIC đã chọn một mô hình tối ưu. "

Bạn có thể thấy làm thế nào điều này khiến người đọc của cả hai cuốn sách bối rối về cách tiếp cận nào để làm theo.

1) Đây có phải chỉ là những "trại" tư duy thống kê khác nhau và là một chủ đề bất đồng giữa các nhà thống kê? Có phải một trong những cách tiếp cận này chỉ đơn giản là "lỗi thời", nhưng được coi là phù hợp tại thời điểm viết? Hay chỉ là một sai lầm ngay từ đầu?

2) Liệu có một kịch bản trong đó phương pháp này sẽ phù hợp? Ví dụ, tôi đến từ một nền tảng sinh học, nơi tôi thường cố gắng xác định xem, nếu có, các biến dường như ảnh hưởng hoặc thúc đẩy phản ứng của tôi. Tôi thường có một số biến giải thích ứng viên và tôi đang cố gắng tìm ra biến nào là "quan trọng" (theo thuật ngữ tương đối). Ngoài ra, lưu ý rằng tập hợp các biến dự đoán ứng viên đã được giảm xuống thành các biến được coi là có liên quan đến sinh học, nhưng điều này vẫn có thể bao gồm 5-20 dự đoán ứng viên.


3
Tôi tự hỏi đối số thống kê của Zuur sẽ là gì để điều chỉnh tốt với kiểm tra giả thuyết sau khi lựa chọn AIC. Nó dường như không phải là một chiến lược mạch lạc của việc xây dựng mô hình. Nhưng tôi không biết đủ về những điều đó.
Richard Hardy

2
Linh cảm của tôi là đề xuất của Zuur và cộng sự là xấu (tại sao bạn lại sử dụng các bài kiểm tra quan trọng để lựa chọn mô hình?), Mặc dù tôi cũng không chắc tuyên bố của Burnham và Anderson là đúng. Đó là một câu hỏi hay, nhưng tôi sẽ phải đọc sâu hơn về các chi tiết kỹ thuật hơn là tôi đã đọc cho đến nay để trả lời nó.
Kodiologist

Tôi đã sử dụng cả hai phương pháp trong các mô hình để dự đoán doanh số bảng. AIC dựa trên hồi quy ngược từng bước dường như cho kết quả tốt hơn từ kinh nghiệm của tôi.
Souptik Dhar

1
@SouptikDhar, khi bạn nói kết quả "tốt hơn", bạn có ý nghĩa chính xác theo cách nào?
Tilen

Có lẽ câu trả lời phụ thuộc vào mục tiêu của phân tích? Trong một nghiên cứu quan sát, có thể mong muốn tìm thấy mô hình tuyệt vời nhất được cung cấp cho bộ dữ liệu, do đó dựa vào "lựa chọn biến dựa trên AIC" chẳng hạn. Tuy nhiên, nếu mục đích là đưa ra một giả thuyết để kiểm tra, thì mô hình, là một truyền thống của giả thuyết về các proxy phù hợp cho các biến quan tâm của giả thuyết của chúng tôi, đã được chỉ định ngay từ đầu nên không có chỗ cho lựa chọn biến IMHO?
Rodolphe

Câu trả lời:


6

Một câu trả lời ngắn gọn.

Cách tiếp cận thực hiện lựa chọn hoặc điều chỉnh mô hình dựa trên dữ liệu , sau đó sử dụng các phương pháp suy luận tiêu chuẩn trên mô hình đã chọn / điều chỉnh (à la Zuur et al. , Và nhiều nhà sinh thái học đáng kính khác như Crawley), sẽ luôn cho kết quả quá mức: độ tin cậy quá mức khoảng (phạm vi bảo hiểm kém), giá trị p quá nhỏ (lỗi loại I cao). Điều này là do các phương pháp suy luận tiêu chuẩn giả định mô hình được chỉ định một ưu tiên ; họ không tính đến quá trình điều chỉnh mô hình.

Đây là lý do tại sao các nhà nghiên cứu như Frank Harrell ( Chiến lược mô hình hồi quy ) không tán thành các kỹ thuật lựa chọn dựa trên dữ liệu như hồi quy từng bước và lưu ý rằng người ta phải thực hiện bất kỳ việc giảm độ phức tạp của mô hình ("giảm kích thước", ví dụ: tính toán PCA của các biến dự đoán và chọn một vài trục PCA đầu tiên làm dự đoán) bằng cách chỉ nhìn vào các biến dự đoán.

Nếu bạn chỉ quan tâm đến việc tìm kiếm mô hình dự đoán tốt nhất (và không quan tâm đến bất kỳ loại ước tính đáng tin cậy nào về tính không chắc chắn của dự đoán của bạn, nằm trong lĩnh vực suy luận!), Thì điều chỉnh mô hình dựa trên dữ liệu là tốt (mặc dù lựa chọn từng bước hiếm khi là lựa chọn có sẵn tốt nhất); thuật toán học máy / học thống kê thực hiện rất nhiều điều chỉnh để cố gắng có được mô hình dự đoán tốt nhất. Lỗi "thử nghiệm" hoặc "ngoài mẫu" phải được đánh giá trên một mẫu riêng biệt, loại bỏ hoặc bất kỳ phương pháp điều chỉnh nào cần được xây dựng thành một quy trình xác thực chéo.

Dường như đã có sự tiến hóa lịch sử trong các ý kiến ​​về chủ đề này; nhiều sách giáo khoa thống kê cổ điển, đặc biệt là các sách giáo khoa tập trung vào hồi quy, trình bày các cách tiếp cận từng bước theo các thủ tục suy luận tiêu chuẩn mà không tính đến các tác động của lựa chọn mô hình [cần dẫn nguồn ...]

Có nhiều cách để định lượng tầm quan trọng của biến, và không phải tất cả đều rơi vào bẫy lựa chọn sau biến.

  • Burnham và Anderson đề nghị tổng trọng lượng AIC; có khá nhiều bất đồng về cách tiếp cận này.
  • Bạn có thể điều chỉnh mô hình đầy đủ (với các yếu tố dự đoán tỷ lệ / đơn vị phù hợp) và xếp hạng các yếu tố dự đoán theo độ lớn ước tính [kích thước hiệu ứng sinh học] hoặc điểm Z ["độ rõ" / kích thước hiệu ứng thống kê].

1

Tôi đến từ một nền tảng sinh học và là một nhà sinh học được thuê, làm việc trong một bệnh viện đại học. Tôi đã đọc rất nhiều về điều này, đặc biệt là gần đây, bao gồm cả những ý kiến ​​đặc biệt của Mitchell về www, và cuốn sách Chiến lược mô hình hồi quy của ông. Không trích dẫn anh ấy nữa, nhưng nói từ kinh nghiệm: Nó liên quan đến lĩnh vực cao, tôi nghĩ rằng đây là cấp độ đầu tiên phải được tính đến. Cấp độ thứ hai sẽ có được một cách tiếp cận hợp lý tốt, có nghĩa là những người dự đoán của bạn nên có ý nghĩa cốt lõi để thể hiện những gì bạn muốn dự đoán, bằng kinh nghiệm khoa học. Thứ 3 sẽ là tài khoản cho các tương tác, đó là cực kỳ quan trọng, và có thể được giải quyết bằng cách tiếp cận thống kê được thực hiện hoặc hiểu biết sâu sắc. Chỉ có thứ 4 là phương pháp được chọn, trong trường hợp của tôi với dữ liệu bệnh viện, thường khá có khoảng x * 10 ^ 3 datapoint và x * 10 ^ 1 quan sát trong ví dụ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.