Lý lịch
Tôi đang làm nghiên cứu lâm sàng trong y học và đã tham gia một vài khóa học thống kê. Tôi chưa bao giờ xuất bản một bài báo sử dụng hồi quy tuyến tính / logistic và muốn thực hiện lựa chọn biến chính xác. Khả năng diễn giải là quan trọng, vì vậy không có kỹ thuật máy học ưa thích. Tôi đã tóm tắt sự hiểu biết của tôi về lựa chọn biến - liệu ai đó có thể làm sáng tỏ bất kỳ quan niệm sai lầm nào không? Tôi đã tìm thấy hai (1) bài viết CV tương tự (2) bài này, nhưng họ không trả lời đầy đủ mối quan tâm của tôi. Bất kỳ suy nghĩ sẽ được nhiều đánh giá cao! Tôi có 3 câu hỏi chính ở cuối.
Vấn đề và thảo luận
Vấn đề hồi quy / phân loại điển hình của tôi có 200-300 quan sát, tỷ lệ sự kiện bất lợi là 15% (nếu phân loại) và thông tin về 25 trong số 40 biến được cho là có tác dụng "có ý nghĩa thống kê" trong tài liệu hoặc có lý ý thức theo kiến thức tên miền.
Tôi đặt "ý nghĩa thống kê" trong ngoặc kép, vì có vẻ như mọi người và mẹ của họ sử dụng hồi quy từng bước, nhưng Mitchell (3) và Flom (4) dường như không thích nó vì một số lý do chính đáng. Điều này được hỗ trợ thêm bởi một cuộc thảo luận bài viết trên blog Gelman (5). Có vẻ như thời gian thực duy nhất mà từng bước được chấp nhận là nếu đây thực sự là phân tích thăm dò, hoặc một người quan tâm đến dự đoán và có một kế hoạch xác nhận chéo có liên quan. Đặc biệt là vì nhiều bệnh đi kèm trong y học bị ảnh hưởng và các nghiên cứu bị kích thước mẫu nhỏ, nên tôi hiểu rằng sẽ có rất nhiều kết quả dương tính giả trong tài liệu; điều này cũng làm cho tôi ít tin tưởng vào tài liệu cho các biến tiềm năng bao gồm.
Một cách tiếp cận phổ biến khác là sử dụng một loạt các hồi quy / liên kết đơn biến giữa các yếu tố dự đoán và biến độc lập làm điểm bắt đầu. dưới một ngưỡng cụ thể (giả sử, p <0,2). Điều này có vẻ không chính xác hoặc ít nhất là sai lệch vì những lý do được nêu trong bài đăng StackExchange này (6).
Cuối cùng, một cách tiếp cận tự động xuất hiện phổ biến trong học máy là sử dụng hình phạt như L1 (Lasso), L2 (Sườn) hoặc L1 + L2 (Mạng đàn hồi). Hiểu biết của tôi là những điều này không có cách hiểu dễ dàng như OLS hoặc hồi quy logistic.
Gelman + Hill đề xuất như sau:
Trong khóa học Thống kê của mình, tôi cũng nhớ lại bằng cách sử dụng các bài kiểm tra F hoặc Phân tích sai lệch để so sánh các mô hình đầy đủ và lồng nhau để thực hiện lựa chọn mô hình / biến theo biến. Điều này có vẻ hợp lý, nhưng phù hợp với các mô hình lồng nhau tuần tự một cách có hệ thống để tìm ra các biến gây ra sự sai lệch lớn nhất trên mỗi df có vẻ như nó có thể dễ dàng tự động (vì vậy tôi hơi lo ngại) và cũng có vẻ như nó gặp phải vấn đề về thứ tự bạn kiểm tra bao gồm biến. Hiểu biết của tôi là điều này cũng nên được bổ sung bằng cách điều tra tính đa hình và các lô dư (dư so với dự đoán).
Câu hỏi:
Là Gelman tóm tắt con đường để đi? Những gì bạn sẽ thêm hoặc thay đổi trong chiến lược đề xuất của mình?
Bên cạnh suy nghĩ đơn thuần về các tương tác và biến đổi tiềm năng (có vẻ rất thiên vị / lỗi / thiếu sót), có cách nào khác để khám phá những tương tác tiềm năng không? Spline hồi quy thích ứng đa biến (MARS) được khuyến nghị cho tôi, nhưng tôi được thông báo rằng các phi tuyến / biến đổi không chuyển thành các biến giống nhau trong mô hình hồi quy chuẩn.
Giả sử mục tiêu của tôi rất đơn giản: giả sử, "Tôi muốn ước tính liên kết của X1 trên Y, chỉ chiếm X2". Có đủ để chỉ đơn giản là hồi quy Y ~ X1 + X2, báo cáo kết quả mà không cần tham khảo khả năng dự đoán thực tế (như có thể được đo bằng RMSE xác thực chéo hoặc các biện pháp chính xác)? Điều này có thay đổi hay không tùy thuộc vào tỷ lệ sự kiện hoặc kích thước mẫu hoặc nếu R ^ 2 siêu thấp (tôi biết rằng R ^ 2 không tốt vì bạn luôn có thể tăng nó bằng cách quá mức)? Tôi thường quan tâm nhiều hơn đến suy luận / khả năng diễn giải hơn là tối ưu hóa sức mạnh dự đoán.
Kết luận ví dụ:
- "Kiểm soát X2, X1 không có ý nghĩa thống kê liên quan đến Y so với mức tham chiếu của X1." (hệ số hồi quy logistic)
- "X1 không phải là một yếu tố dự đoán có ý nghĩa thống kê của Y vì trong mô hình giảm độ lệch là không đủ so với sự thay đổi trong df." (Phân tích sai lệch)
Là xác nhận chéo luôn luôn cần thiết? Trong trường hợp đó, người ta cũng có thể muốn thực hiện một số cân bằng các lớp thông qua SMOTE, lấy mẫu, v.v.