Phát hiện các yếu tố dự báo quan trọng trong số nhiều biến độc lập


31

Trong một tập dữ liệu của hai quần thể không chồng chéo (bệnh nhân và khỏe mạnh, tổng ) tôi muốn tìm (trong số biến độc lập) các yếu tố dự báo quan trọng cho biến phụ thuộc liên tục. Tương quan giữa các yếu tố dự đoán là hiện tại. Tôi quan tâm đến việc tìm hiểu xem có bất kỳ yếu tố dự đoán nào có liên quan đến biến phụ thuộc "trong thực tế" không (thay vì dự đoán biến phụ thuộc càng chính xác càng tốt). Khi tôi bị choáng ngợp với vô số cách tiếp cận có thể, tôi muốn hỏi cách tiếp cận nào được khuyến nghị nhất.n=60300

  • Từ bao gồm từng bước hiểu biết của tôi hoặc loại trừ các nhân tố ảnh được không được khuyến khích

  • Ví dụ: chạy hồi quy tuyến tính riêng cho mọi yếu tố dự đoán và giá trị p chính xác cho nhiều so sánh bằng FDR (có thể rất bảo thủ?)

  • Hồi quy thành phần chính: khó diễn giải vì tôi sẽ không thể nói về sức mạnh dự đoán của các yếu tố dự đoán riêng lẻ mà chỉ về các thành phần.

  • bất cứ một đề nghị nào khác?


Tôi đã nghe nói về những người sử dụng hồi quy thường xuyên L1 để thực hiện loại việc này. Nhưng tôi không biết đủ để viết một câu trả lời thích hợp ...
King

2
Để đưa ra các khuyến nghị tốt nhất, nó sẽ giúp chúng tôi biết bạn sẽ tiến hành như thế nào sau khi xác định "các yếu tố dự báo quan trọng". Bạn đang cố gắng dự đoán kết quả chính xác nhất có thể; tìm một tiêu dùng tiết kiệm cách để dự đoán nó (ví dụ, sử dụng một bộ lên tới k dự đoán rằng hiệu quả sẽ làm như vậy; giải thích ? những gì gây ra kết quả "trên thực tế";? hay cái gì khác Ngoài ra, làm thế nào lớn là tập hợp dữ liệu của bạn
rolando2

@rolando: cảm ơn vì nhận xét! Tôi đã cập nhật câu hỏi: tổng số quan sát của tôi là n = 60 đối tượng. Mục đích của tôi không phải là dự đoán biến phụ thuộc càng chính xác càng tốt mà là để giải thích nguyên nhân gây ra kết quả "trong thực tế" (= hy vọng tìm thấy mối quan hệ giữa các biến có thể được xác nhận trong các nghiên cứu / bộ dữ liệu sau này)
jokel

Tôi cũng đã đăng một câu hỏi tiếp theo bao gồm một số dữ liệu giả. Tôi sẽ rất biết ơn cho tất cả các gợi ý. stats.stackexchange.com/questions/34859/ hy
jokel

Câu trả lời:


30

Tôi sẽ khuyên bạn nên thử một glm với thường xuyên lasso . Điều này thêm một hình phạt cho mô hình cho số lượng biến và khi bạn tăng hình phạt, số lượng biến trong mô hình sẽ giảm.

Bạn nên sử dụng xác thực chéo để chọn giá trị của tham số hình phạt. Nếu bạn có R, tôi khuyên bạn nên sử dụng gói glmnet . Sử dụng alpha=1cho hồi quy lasso và alpha=0hồi quy sườn. Đặt giá trị từ 0 đến 1 sẽ sử dụng kết hợp các hình phạt lasso và sườn núi, còn được gọi là lưới đàn hồi.


4
Tôi đồng ý với Zach. David Cassell và tôi đã viết một bài báo về điều này, tập trung vào SAS nhưng không hoàn toàn. Nó đang dừng từng bước .
Peter Flom - Tái lập Monica

1
Tôi nghĩ đó là 0 cho sườn núi và 1 cho lasso
King

1
@Zach: Cảm ơn những gợi ý. Có cách nào để có được một số thống kê kiểm tra cho phép tôi đánh giá tầm quan trọng của các yếu tố dự đoán đơn lẻ. Cuối cùng, tôi muốn có thể nói "dự đoán X có liên quan đáng kể đến biến phụ thuộc Y".
jokel

2
Về các TCTD, từ hướng dẫn của gói R khác thực hiện LASSO ( cran.r-project.org/web/packages/penalized/vignettes/ , trang 18): "Đây là một câu hỏi rất tự nhiên để hỏi về các lỗi tiêu chuẩn của hồi quy Về nguyên tắc, các lỗi tiêu chuẩn như vậy có thể dễ dàng được tính toán, ví dụ như sử dụng bootstrap. Tuy nhiên, gói này cố tình không cung cấp cho chúng. Lý do cho điều này là lỗi tiêu chuẩn không có ý nghĩa rất lớn đối với các ước tính sai lệch mạnh như phát sinh từ các phương pháp ước tính bị phạt. "
miura

2
@miura Gần đây được giới thiệu là một thống kê thử nghiệm cho điều đó, bởi các tác giả Lasso gốc cũng vậy: giấyslide (dễ đọc hơn)
Cam.Davidson.Pilon

23

Để mở rộng câu trả lời của Zach (+1), nếu bạn sử dụng phương pháp LASSO trong hồi quy tuyến tính, bạn đang cố gắng giảm thiểu tổng một hàm bậc hai và hàm giá trị tuyệt đối, nghĩa là:

minβ(YXβ)T(YXβ)+i|βi|

Phần đầu tiên là bậc hai trong (vàng bên dưới) và phần thứ hai là một đường cong hình vuông (màu xanh lá cây bên dưới). Đường màu đen là đường giao nhau. βHàm mục tiêu LASSO

Điểm tối thiểu nằm trên đường cong giao nhau, được vẽ ở đây với các đường cong của đường cong bậc hai và hình vuông:

Đường cong của LASSO

Bạn có thể thấy mức tối thiểu nằm trên một trong các trục, do đó nó đã loại bỏ biến đó khỏi hồi quy.

Bạn có thể kiểm tra bài đăng trên blog của tôi về việc sử dụng hình phạt cho hồi quy và lựa chọn biến (còn được gọi là chính quy Lasso). L1


8
(+1) nhưng đối với bài đăng trên blog, điều này thực sự tốt. Mặc dù vậy, sẽ rất tốt nếu bạn mở rộng câu trả lời của mình ở đây, vì điều này sẽ làm tăng khả năng thông tin còn lại.
richiemorrisroe

2

Niềm tin trước đây của bạn về bao nhiêu dự đoán có khả năng là quan trọng? Có khả năng là hầu hết trong số chúng có hiệu ứng chính xác bằng không, hoặc mọi thứ đều ảnh hưởng đến kết quả, một số biến chỉ ít hơn các biến khác?

Và tình trạng sức khỏe liên quan đến nhiệm vụ dự đoán như thế nào?

Nếu bạn tin rằng chỉ có một vài biến là quan trọng, bạn có thể thử spike và slab trước (ví dụ trong gói spikeSlabGAM của R) hoặc L1. Nếu bạn nghĩ rằng tất cả các dự đoán ảnh hưởng đến kết quả, bạn có thể không gặp may.

Và nói chung, tất cả các cảnh báo liên quan đến suy luận nguyên nhân từ dữ liệu quan sát được áp dụng.


2

Dù bạn làm gì, cũng đáng để có được khoảng tin cậy của bootstrap trên hàng ngũ tầm quan trọng của các yếu tố dự đoán để cho thấy rằng bạn thực sự có thể làm điều này với tập dữ liệu của mình. Tôi nghi ngờ rằng bất kỳ phương pháp nào cũng có thể tìm thấy các dự đoán "thực sự" một cách đáng tin cậy.


1

Tôi nhớ hồi quy Lasso không hoạt động tốt khi , nhưng tôi không chắc. Tôi nghĩ trong trường hợp này, Elastic Net thích hợp hơn cho việc lựa chọn biến.np


Điều này đúng, cụ thể hơn khi n << p, xem tờ giấy đàn hồi gốc này: stanford.edu/~hastie/Papers/
Kẻ

1
Khi n <p, LASSO chọn tối đa n biến.
miura
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.