Vấn đề tính toán, giải thích regsubets và câu hỏi chung về quy trình lựa chọn mô hình

Tôi muốn chọn mô hình bằng cách sử dụng regsubsets(). Tôi có một khung dữ liệu được gọi là olympiadaten (dữ liệu được tải lên: http://www.sendspace.com/file/8e27d0 ). Trước tiên tôi đính kèm khung dữ liệu này và sau đó bắt đầu phân tích, mã của tôi là:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

ảnh chụp màn hình của cốt truyện:

Vấn đề là bây giờ, tôi muốn điều chỉnh lại mô hình tốt nhất một cách "thủ công" và xem xét nó, nhưng giá trị của bình phương R được điều chỉnh không giống như trong đầu ra regsubets? Đây cũng là trường hợp cho các mô hình khác, ví dụ: khi tôi thực hiện mô hình đơn giản nhất trong đồ họa:

summary(lm(Gesamt~ExpHealth))

Đồ họa cho biết, nó nên có R bình phương điều chỉnh khoảng 0,14, nhưng khi tôi nhìn vào đầu ra, tôi nhận được giá trị 0,06435.

Đây là đầu ra của summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Tôi không biết những gì tôi có thể đã làm sai, bất kỳ trợ giúp sẽ được đánh giá cao.

Và cuối cùng nhưng không kém phần quan trọng, một số câu hỏi khác:

Sự khác biệt giữa việc chọn mô hình của AIC và bởi adj. R bình phương?
Cả hai đều đo mức độ phù hợp và nhận ra số lượng biến, do đó, không phải là mô hình tốt nhất được AIC chọn cũng là mô hình có mức điều chỉnh cao nhất. r bình phương?
Khi tôi có 12 biến, điều này có nghĩa, có khả năng của các mô hình, phải không? $2^12$
Vì vậy, regsubsets()lệnh tính toán từng mô hình và hiển thị hai ( nbest=2) tốt nhất của mỗi kích thước?
Nếu vậy, tôi có thực sự có được mô hình 'tốt nhất' không?
Và khi tôi thực hiện AIC bằng cách sử dụng lựa chọn ngược (bắt đầu với mô hình chứa tất cả các biến), liệu điều này cũng kết thúc với cùng một mô hình mà regsubsets()nói là tốt nhất?

r multiple-regression model-selection

— người dùng1690846
nguồn

R^{2}

$R^2$

R^{2}

$R^2$

@ mark999 Nhận xét của bạn là tốt và có vẻ như nó cho câu trả lời đúng. Bạn nên chuyển đổi nó thành một câu trả lời.

— Michael R. Chernick

Cảm ơn @MichaelCécick nhưng tôi chỉ muốn để lại nhận xét.

— mark999

@ user1690846 Tôi khuyên bạn nên xem câu trả lời của Peter Flom về số liệu thống kê.stackexchange.com/questions/8303/iêu

— mark999

@ mark999 trước hết cảm ơn vì một câu trả lời, nhưng tại sao đây là một phương pháp kém? Và lựa chọn với AIC tốt hơn? Vì vậy, tôi nên fitt mô hình bằng cách sử dụng na.omit (olympiadaten)? Nếu bất cứ ai có câu trả lời cho các câu hỏi khác, bất kỳ câu trả lời nào sẽ được đánh giá cao, cảm ơn

— user1690846

Câu trả lời:

Để biết thêm về ý tưởng sử dụng tất cả các tập hợp con hoặc các công cụ tập hợp con tốt nhất để tìm ra mô hình phù hợp "Tốt nhất", cuốn sách "Cách nói dối với thống kê" của Darrell Huff kể một câu chuyện về Readers Digest xuất bản so sánh các hóa chất trong khói thuốc lá. Quan điểm của bài viết của họ là chỉ ra rằng không có sự khác biệt thực sự giữa các thương hiệu khác nhau, nhưng một thương hiệu thấp nhất trong một số hóa chất (nhưng rất ít sự khác biệt đó là vô nghĩa) và thương hiệu đó đã bắt đầu một chiến dịch quảng cáo lớn dựa trên là "thấp nhất" hoặc "tốt nhất" theo Readers Digest.

Tất cả các hồi quy tập hợp con hoặc tập hợp con tốt nhất đều tương tự nhau, thông điệp thực sự từ biểu đồ bạn hiển thị không phải là "ở đây là tốt nhất" nhưng thực sự không có một mô hình tốt nhất. Từ quan điểm thống kê (sử dụng bình phương r điều chỉnh), phần lớn mô hình của bạn khá giống nhau (số ít ở phía dưới kém hơn so với những người ở trên, nhưng phần còn lại đều tương tự nhau). Việc bạn muốn tìm một mô hình "Tốt nhất" từ bảng đó giống như công ty thuốc lá nói rằng sản phẩm của họ là tốt nhất khi mục đích là cho thấy tất cả đều giống nhau.

Đây là một cái gì đó để thử, xóa ngẫu nhiên một điểm khỏi bộ dữ liệu và chạy lại phân tích, bạn có nhận được mô hình "Tốt nhất" không? hay nó thay đổi? lặp lại một vài lần xóa một điểm khác nhau mỗi lần để xem mô hình "Tốt nhất" thay đổi như thế nào. Bạn có thực sự thoải mái khi tuyên bố một mô hình là "Tốt nhất" khi sự thay đổi nhỏ trong dữ liệu đó mang lại một "Tốt nhất" khác? Cũng xem xét các hệ số khác nhau giữa các mô hình khác nhau như thế nào, làm thế nào để bạn diễn giải những thay đổi đó?

$x_1$ $x_2$ $x_1$ $x_1$ $x_2$ mất 5 phút và một máy đo huyết áp. Nó sẽ thực sự có giá trị thêm thời gian, chi phí và rủi ro để có thêm 0,01 trong điều chỉnh r bình phương, hoặc mô hình tốt hơn sẽ là mô hình nhanh hơn, rẻ hơn, an toàn hơn? Điều gì có ý nghĩa từ quan điểm khoa học? Trong ví dụ của bạn ở trên, bạn có thực sự nghĩ rằng tăng chi tiêu cho quân đội sẽ cải thiện hiệu suất olympic? hoặc đây có phải là trường hợp của biến đó đóng vai trò thay thế cho các biến chi tiêu khác có ảnh hưởng trực tiếp hơn không?

Những điều khác cần xem xét bao gồm lấy một số mô hình tốt và kết hợp chúng (Trung bình mô hình), hoặc thay vì có từng biến hoặc là tất cả trong hoặc thêm vào một số hình thức phạt (hồi quy độ dốc, LASSO, thunnet, ...).

— Greg tuyết
nguồn

Câu trả lời tốt! Điểm nổi bật của "Tốt hơn là hiểu câu hỏi và khoa học đằng sau dữ liệu và sử dụng thông tin đó để giúp quyết định mô hình" Tốt nhất " và tất cả các đoạn tiếp theo.

— Andre Silva

$^2$

Tôi thực sự không biết ý của bạn về mô hình tốt nhất. Mỗi tiêu chí về cơ bản đưa ra một định nghĩa khác nhau về tốt nhất. Bạn có thể gọi một mô hình tốt nhất về thông tin, entropy, độ phức tạp ngẫu nhiên, phương sai phần trăm được giải thích (điều chỉnh) và hơn thế nữa. Nếu bạn đang xử lý một crtierion cụ thể và có ý nghĩa bằng cách nắm bắt tốt nhất mức tối thiểu thực sự để nói AIC trên tất cả các mô hình có thể thì điều đó chỉ có thể được đảm bảo bằng cách xem xét tất cả các mô hình (tức là tất cả các lựa chọn tập hợp con cho các biến). Bước tiến lên, bước xuống và bước thủ tục khôn ngoan không phải lúc nào cũng tìm thấy mô hình tốt nhất theo nghĩa của một crtierion cụ thể. Với hồi quy từng bước, bạn thậm chí có thể nhận được các câu trả lời khác nhau bằng cách bắt đầu một mô hình khác nhau. Tôi chắc chắn Frank Harrell sẽ có nhiều điều để nói về điều này.

Để tìm hiểu thêm, có một số cuốn sách hay về lựa chọn mô hình / tập hợp con có sẵn và tôi đã tham khảo một số ở đây trên các bài viết khác. Ngoài ra, chuyên khảo của Lacey Gunter với Springer trong loạt SpringerBrief của họ sẽ sớm ra mắt. Tôi là một đồng tác giả với cô ấy trên cuốn sách đó.

— Michael R. Chernick
nguồn