Mô hình tuyến tính cổ điển - lựa chọn mô hình


16

Tôi có một mô hình tuyến tính cổ điển, với 5 biến hồi quy có thể. Chúng không tương quan với nhau và có mối tương quan khá thấp với phản ứng. Tôi đã đến một mô hình trong đó 3 trong số các biến hồi quy có hệ số đáng kể cho thống kê t của chúng (p <0,05). Việc thêm một hoặc cả hai biến còn lại sẽ cho giá trị p> 0,05 cho thống kê t, cho các biến được thêm. Điều này khiến tôi tin rằng mô hình 3 biến là "tốt nhất".

Tuy nhiên, sử dụng lệnh anova (a, b) trong R trong đó a là mô hình 3 biến và b là mô hình đầy đủ, giá trị p cho thống kê F là <0,05, cho tôi biết mô hình đầy đủ hơn 3 biến mô hình. Làm thế nào tôi có thể hòa giải những mâu thuẫn rõ ràng này?

Cảm ơn PS Chỉnh sửa: Một số nền tảng hơn nữa. Đây là bài tập về nhà nên tôi sẽ không đăng chi tiết, nhưng chúng tôi không cung cấp chi tiết về những gì các biến hồi quy đại diện - chúng chỉ được đánh số từ 1 đến 5. Chúng tôi được yêu cầu "rút ra một mô hình phù hợp, đưa ra lời biện minh".


6
Một mô hình thích hợp có thể được sử dụng để có nghĩa là một mô hình sử dụng hiệu quả tất cả các biến được chỉ định trước (chiếm tỷ lệ phi tuyến, v.v.). Tôi hy vọng người hướng dẫn của bạn hiểu rằng lựa chọn biến từng bước là không hợp lệ. Ít làm.
Frank Harrell

1
Xin chào lần nữa và cảm ơn. Xin lỗi cho tất cả các trở lại. Các hướng dẫn cũng cho biết "Không nhất thiết phải có một mô hình" tốt nhất "và bạn không nhất thiết phải bao gồm tất cả các dự đoán". Ngoài ra, không có cộng tuyến hoặc phi tuyến. Trên thực tế, tất cả 5 dự đoán được tạo ra bởi các mô phỏng độc lập từ một phân phối bình thường. Do đó, mối tương quan giữa các yếu tố dự đoán và phản ứng cũng rất nhỏ (lớn nhất là dưới 0,1). Thành thật mà nói, trực giác của tôi nói rằng mô hình "tốt nhất" có thể chỉ là trung bình mẫu (bình phương r điều chỉnh nhỏ hơn 0,03)
P Sellaz

@P Sellaz: cho rằng đây là bài tập về nhà sử dụng dữ liệu mô phỏng, trực giác của bạn có thể phục vụ bạn tốt ở đây. Viết một lời giải thích hợp lý cho trực giác của bạn.
Zach

1
Nhìn chung, bạn không thể đi theo vì độ lớn của nó phụ thuộc vào bối cảnh. Nhưng tùy thuộc vào chính xác cách thức mô phỏng được thực hiện, bạn có quyền rằng ý nghĩa tổng thể có thể là những gì cần thiết. R2
Frank Harrell

1
Nói chung, chính xác là người ta không phải bao gồm tất cả các dự đoán để làm một công việc tốt. Nhưng dữ liệu không có khả năng cho bạn biết nên sử dụng công cụ dự đoán nào.
Frank Harrell

Câu trả lời:


18

Vấn đề bắt đầu khi bạn tìm kiếm một mô hình rút gọn và sử dụng dữ liệu thay vì kiến ​​thức chủ đề để chọn các yếu tố dự đoán. Lựa chọn biến theo từng bước mà không có shinkage đồng thời để xử phạt cho lựa chọn biến, mặc dù thường được sử dụng, là một cách tiếp cận không hợp lệ. Phần lớn đã được viết về điều này. Không có lý do để tin rằng mô hình 3 biến là "tốt nhất" và không có lý do gì để không sử dụng danh sách ban đầu của các dự đoán được chỉ định trước. Giá trị P được tính sau khi sử dụng giá trị P để chọn biến không hợp lệ. Điều này đã được gọi là "nhúng đôi" trong tài liệu hình ảnh chức năng.

Đây là một sự tương tự. Giả sử một người quan tâm đến việc so sánh 6 phương pháp điều trị, nhưng sử dụng các xét nghiệm cặp đôi để chọn phương pháp điều trị nào "khác nhau", dẫn đến giảm 4 phương pháp điều trị. Sau đó, nhà phân tích kiểm tra sự khác biệt tổng thể với 3 bậc tự do. Thử nghiệm F này sẽ có lỗi loại I tăng cao. Thử nghiệm F ban đầu với 5 df là khá hợp lệ.

Xem http://www.stata.com/support/faqs/stat/stepwise.html để biết thêm thông tin.


1
Cảm ơn vì đã trả lời. Tôi đã thêm một chỉnh sửa câu hỏi ban đầu. Tôi hy vọng điều đó là OK. Bất kỳ lời khuyên nào sẽ được chào đón nhất.
P Sellaz

6

Một câu trả lời sẽ là "điều này không thể được thực hiện nếu không có kiến ​​thức về chủ đề". Thật không may, điều đó có thể sẽ giúp bạn đạt điểm F trong bài tập của mình. Trừ khi tôi là giáo sư của bạn. Sau đó, nó sẽ nhận được một A.

R2

Sau đó, có

tất cả 5 yếu tố dự đoán được tạo ra bởi các mô phỏng độc lập từ một phân phối bình thường.

Chà, nếu bạn BIẾT điều này (nghĩa là người hướng dẫn của bạn đã nói với bạn) và nếu "độc lập", bạn có nghĩa là "không liên quan đến DV" thì bạn biết rằng mô hình tốt nhất là mô hình không có dự đoán và trực giác của bạn là chính xác.


Xin chào Peter, và cảm ơn. N là 900. Dữ liệu được tạo ra bằng mô phỏng. Tôi BIẾT điều này bởi vì chúng tôi phải tự làm simulatons. Họ được cho là đại diện cho dữ liệu thực, khi có liên quan đến bài tập về nhà này. 100 mô phỏng đã được tiến hành và 5 mô phỏng có tương quan lớn nhất với phản hồi (cũng được mô phỏng nhưng chỉ một lần) được chọn làm các hồi quy ứng cử viên.
P Sellaz

1
Chỉ cần chắc chắn rằng bạn đã mô phỏng không có kết nối giữa bất kỳ X và Y. Sau đó, như những người khác đã nói một mô hình hồi quy là không liên quan và trung bình tổng thể là đủ.
Frank Harrell

1
Vâng, họ hoàn toàn độc lập. Chúng tôi đã chọn dữ liệu có 5 tương quan lớn nhất làm các hồi quy ứng cử viên, từ đó chúng tôi phải "rút ra một mô hình phù hợp, đưa ra lời biện minh" nhưng chúng tôi "không nhất thiết phải bao gồm cả 5 dự đoán".
P Sellaz

Có vẻ như giáo sư của bạn là một) Hoàn toàn bối rối hoặc b) làm điều gì đó khá thú vị. Khó mà nói được. Nếu anh ấy / cô ấy dự định điều này để thể hiện loại điều mà @FrankHarrell và tôi và những người khác đã chỉ ra, thì tốt! (đó sẽ là b). OTOH, nếu anh ấy / cô ấy dự định đây là một hồi quy "thực sự", thì uh-oh đó là một).
Peter Flom - Tái lập Monica

1
Tôi sẽ cho bạn biết đó là gì khi các giấy tờ được đánh dấu :)
P Sellaz

4

Bạn có thể thử làm xác nhận chéo. Chọn một tập hợp con của mẫu của bạn, tìm mô hình "tốt nhất" cho tập hợp con đó bằng các thử nghiệm F hoặc t, sau đó áp dụng nó cho tập dữ liệu đầy đủ (xác thực chéo đầy đủ có thể phức tạp hơn thế này, nhưng đây sẽ là một khởi đầu tốt). Điều này giúp giảm bớt một số vấn đề kiểm tra từng bước.

Xem Lưu ý về sàng lọc phương trình hồi quy của David Freedman để biết mô phỏng nhỏ dễ thương về ý tưởng này.


2

Tôi thực sự thích phương thức được sử dụng trong caretgói: loại bỏ tính năng đệ quy. Bạn có thể đọc thêm về nó trong họa tiết , nhưng đây là quá trình cơ bản: Lựa chọn biến

Ý tưởng cơ bản là sử dụng một tiêu chí (chẳng hạn như thống kê t) để loại bỏ các biến không quan trọng và xem cách cải thiện độ chính xác dự đoán của mô hình. Bạn bọc toàn bộ mọi thứ trong một vòng lặp lấy mẫu lại, chẳng hạn như xác nhận chéo. Dưới đây là một ví dụ, sử dụng mô hình tuyến tính để xếp hạng các biến theo cách tương tự như những gì bạn đã mô tả:

#Setup
set.seed(1)
p1 <- rnorm(50)
p2 <- rnorm(50)
p3 <- rnorm(50)
p4 <- rnorm(50)
p5 <- rnorm(50)
y <- 4*rnorm(50)+p1+p2-p5

#Select Variables
require(caret)
X <- data.frame(p1,p2,p3,p4,p5)
RFE <- rfe(X,y, sizes = seq(1,5), rfeControl = rfeControl(
                    functions = lmFuncs,
                    method = "repeatedcv")
                )
RFE
plot(RFE)

#Fit linear model and compare
fmla <- as.formula(paste("y ~ ", paste(RFE$optVariables, collapse= "+")))
fullmodel <- lm(y~p1+p2+p3+p4+p5,data.frame(y,p1,p2,p3,p4,p5))
reducedmodel <- lm(fmla,data.frame(y,p1,p2,p3,p4,p5))
summary(fullmodel)
summary(reducedmodel)

Trong ví dụ này, đại số phát hiện ra rằng có 3 biến "quan trọng", nhưng nó chỉ nhận được 2 trong số đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.