Giải thích đầu ra drop1 trong R


14

Trong R, drop1lệnh xuất ra một cái gì đó gọn gàng.
Hai lệnh này sẽ giúp bạn có một số đầu ra:
example(step)#-> swiss
drop1(lm1, test="F")

Của tôi trông như thế này:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Vậy tất cả những điều này có ý nghĩa gì? Tôi giả định rằng các "ngôi sao" trợ giúp trong việc quyết định các biến đầu vào nào sẽ được giữ. Nhìn vào đầu ra ở trên, tôi muốn loại bỏ biến "Kiểm tra" và tập trung vào biến "Giáo dục", liệu giải thích này có đúng không?

Ngoài ra, giá trị AIC, thấp hơn là tốt hơn, có?

Ed. Vui lòng lưu ý câu trả lời của Wiki cộng đồng bên dưới và thêm vào nếu bạn thấy phù hợp, để làm rõ đầu ra này.


7
trợ giúp trong R có nghĩa là để giải thích cho bạn cách sử dụng hàm. Nó không có nghĩa là một khóa học về thống kê. Và về điều đó, nói chung tôi tin rằng các trang trợ giúp R ​​là một trong những trang hoàn chỉnh và tiện dụng nhất trong tất cả các gói nguồn mở mà tôi biết. Và trả các gói cho vấn đề đó. SPSS và SAS cung cấp cho bạn rất nhiều mumbo-jumbo với một nửa sự thật và hoàn toàn vô nghĩa như một "hướng dẫn cho việc giải thích".
Joris Meys

1
Câu hỏi này đã bị đánh giá thấp. Tôi không có ý định cho +1 của mình, nhưng dường như với tôi bây giờ việc bỏ phiếu không mang tính xây dựng: (1) OP làm rõ đây là bài tập về nhà và sử dụng tập dữ liệu tích hợp R để minh họa, không phải của anh ấy dữ liệu, (2) một câu hỏi liên quan step()đã được xếp hạng +2 tại thời điểm viết bài này (vậy tại sao?!), (3) OP thừa nhận tính hữu ích của phản hồi của @ Joris.
chl

@chl: có vẻ như tôi không phải là người duy nhất có ngón chân nhạy cảm khi nói đến các trang trợ giúp R ​​:-). Nhưng tôi đồng ý hết lòng với bạn. Câu hỏi là hợp lệ, được hỏi một cách rõ ràng và do đó hoàn toàn không có lý do gì để hạ thấp nó.
Joris Meys

Heh, tôi xin lỗi nếu tôi giẫm phải ngón chân của bạn với sự trợ giúp của tôi, tôi chỉ không kiên nhẫn khi nói bất cứ điều gì với một dòng lệnh thực sự. Tôi kỳ lạ theo cách đó, tôi biết. Bạn sẽ không phải là người đầu tiên gọi tôi ra điều đó :) Tôi thích nơi này, mọi người trung thực.
gakera

Ở đó, tôi đã chỉnh sửa câu hỏi để nó không gây khó chịu cho những người ủng hộ R và R giúp đỡ :) Và đặt lại câu hỏi trên AIC để tránh những độc giả chỉ hiểu sai về OP.
gakera

Câu trả lời:


10

drop1cung cấp cho bạn một so sánh các mô hình dựa trên tiêu chí AIC và khi sử dụng tùy chọn, test="F"bạn thêm "ANOVA loại II" vào nó, như được giải thích trong các tệp trợ giúp . Miễn là bạn chỉ có các biến liên tục, bảng này hoàn toàn tương đương summary(lm1), vì các giá trị F chỉ là các giá trị T bình phương. Giá trị P hoàn toàn giống nhau.

Vậy phải làm gì với nó? Giải thích nó theo cách chính xác: nó diễn đạt theo cách nếu mô hình không có thuật ngữ đó "khác biệt" đáng kể so với mô hình với thuật ngữ đó. Lưu ý "" xung quanh đáng kể, vì ý nghĩa ở đây không thể được hiểu như hầu hết mọi người nghĩ. (vấn đề đa thử nghiệm và tất cả ...)

Và liên quan đến AIC: càng thấp càng tốt có vẻ giống như nó. AIC là một giá trị dành cho mô hình , không phải cho biến. Vì vậy, mô hình tốt nhất từ ​​đầu ra đó sẽ là mô hình không có kiểm tra biến.

Xin lưu ý, cách tính toán của cả thống kê AIC và F khác với các hàm R AIC(lm1)tương ứng. anova(lm1). Đối với AIC(), thông tin đó được cung cấp trên các trang trợ giúp của extractAIC(). Đối với anova()chức năng, rõ ràng là SS loại I và loại II không giống nhau.

Tôi đang cố gắng không thô lỗ, nhưng nếu bạn không hiểu những gì được giải thích trong các tệp trợ giúp ở đó, bạn không nên sử dụng chức năng này ngay từ đầu. Hồi quy từng bước là cực kỳ khó khăn, gây nguy hiểm cho giá trị p của bạn một cách sâu sắc nhất. Vì vậy, một lần nữa, làm không căn cứ chính mình trên p-giá trị. Mô hình của bạn nên phản ánh giả thuyết của bạn và không phải là cách khác.


1
Tôi thích tình cảm này, "nếu tôi không hiểu những gì tôi đã làm, tôi không nên cố gắng học nó ..." Đây cũng là cách tiếp cận được thực hiện trong trợ giúp R ​​- nó không hữu ích trừ khi bạn đã biết những gì đang xảy ra. Tôi đã hy vọng điều này có thể là sự khởi đầu của một cái gì đó khác biệt.
gakera

Nhưng tôi có thể sử dụng phần này trong câu trả lời của bạn: "Giải thích nó theo cách chính xác: nó diễn tả nếu mô hình không có thuật ngữ đó khác biệt đáng kể so với mô hình với thuật ngữ đó." Đối với tôi điều này có nghĩa là các giá trị Pr (F) là tầm quan trọng của từng thuật ngữ này và một giá trị nhỏ có nghĩa là biến này rất quan trọng. Vì vậy, một mô hình tốt nên bao gồm các biến "***" chứ không phải các biến không có sao.
gakera

4
@gakera: Bạn đã nhầm tôi. Nếu bạn không hiểu những gì bạn đang làm, bạn chắc chắn nên cố gắng tìm hiểu nó trước khi sử dụng nó . Điều đó có nghĩa là, đọc lên số liệu thống kê và theo dõi một khóa học. Vì vậy, một mô hình tốt nên bao gồm các biến được xây dựng trong giả thuyết. Nếu bạn dựa vào các biến "***", trước tiên bạn cần có một khóa học kỹ lưỡng về mô hình hóa. Bạn rõ ràng không hiểu bình luận cuối cùng của tôi. Xin lỗi vì đã giao tiếp trực tiếp, đi kèm với anh chàng. Không có gì cá nhân.
Joris Meys

@gakera: Tôi đã cập nhật câu trả lời của mình để làm rõ một số điểm quan trọng. Chủ yếu là do bạn giải thích sai phần bạn nghĩ bạn có thể sử dụng.
Joris Meys

Tôi đang học bằng cách làm, đây là bài tập về nhà, không ai sẽ chết nếu tôi không làm đúng - con cá đã chết: P Cảm ơn sự giúp đỡ cho đến nay, và đừng lo lắng, đây không phải là lần đầu tiên tôi trên internet :)
gakera

4

Để tham khảo, đây là các giá trị được bao gồm trong bảng:
Dfđề cập đến Độ tự do , "số bậc tự do là số giá trị trong phép tính cuối cùng của một thống kê có thể thay đổi."

Các Sum of Sqcột dùng để chỉ tổng bình phương (hay chính xác hơn tổng các độ lệch bình phương ). Nói tóm lại, đây là thước đo số tiền mà mỗi giá trị riêng lẻ lệch khỏi giá trị trung bình chung của các giá trị đó.
RSSTổng số bình phương còn lại . Đây là thước đo giá trị dự đoán của biến phụ thuộc (hoặc đầu ra) thay đổi bao nhiêu so với giá trị thực cho từng điểm dữ liệu trong tập hợp (hoặc nhiều thông tục hơn: mỗi "dòng" trong bảng dữ liệu).

AICtiêu chí thông tin của Akaike thường được coi là "quá phức tạp để giải thích" nhưng nói ngắn gọn là thước đo mức độ phù hợp của mô hình thống kê ước tính. Nếu bạn yêu cầu thêm chi tiết, bạn sẽ phải chuyển sang cây chết với các từ trên chúng (ví dụ: sách). Hoặc Wikipedia và các tài nguyên ở đó.

Cái F valuenày được sử dụng để thực hiện cái được gọi là F-test và từ đó lấy được Pr(F)giá trị, mô tả khả năng (hoặc Có thể = Pr) của giá trị F đó. Giá trị Pr (F) gần bằng 0 (được biểu thị bằng ***) là biểu thị của một biến đầu vào theo một cách nào đó quan trọng để đưa vào một mô hình tốt, nghĩa là một mô hình không bao gồm nó "khác biệt" đáng kể so với biến số điều đó

Tất cả các giá trị này, trong ngữ cảnh của drop1lệnh, được tính toán để so sánh mô hình tổng thể (bao gồm tất cả các biến đầu vào) với mô hình do loại bỏ một biến cụ thể trên mỗi dòng trong bảng đầu ra.

Bây giờ, nếu điều này có thể được cải thiện, xin vui lòng thêm vào nó hoặc làm rõ bất kỳ vấn đề nào. Mục tiêu của tôi chỉ là làm rõ và cung cấp một tham chiếu "tra cứu ngược" tốt hơn từ đầu ra của lệnh R đến ý nghĩa thực tế của nó.


@gakera Regression thực tế và Anova sử dụng R là điểm khởi đầu tốt để hiểu các mô hình tuyến tính và các phương pháp liên quan đến lựa chọn biến / mô hình. Như được chỉ ra bởi @Joris, hồi quy từng bước hiếm khi là thuốc chữa bách bệnh.
chl

hah, cảm ơn vì đã thêm các liên kết @chl trong khi duy trì sự từ chối của tôi về lý do tại sao tôi không thể đăng chúng. Bạn phải đồng ý rằng tôi hút: D
gakera

1
@gakera Tôi nghĩ bạn cần có nhiều đại diện để thêm nhiều hơn một liên kết cho mỗi lần chỉnh sửa - Tôi có thể hiểu điều này không dễ chịu lắm khi bắt đầu trên một trang web Hỏi & Đáp. Tôi đã giả định rằng bạn sẽ loại bỏ câu cuối cùng của bạn. Mặt khác, tôi cảm thấy bạn không nên kỳ vọng quá nhiều vào việc cung cấp câu trả lời cho câu hỏi của riêng bạn, vì đó là một loại tóm tắt '(mặc dù hữu ích).
chl

Tôi không làm điều này cho upvote (đó là Reddit: P) - tóm tắt hữu ích chính xác là những gì tôi sẽ làm - chủ yếu cho bản thân tôi nhưng có lẽ cũng hữu ích cho người khác.
gakera

@gakera Tôi chắc chắn rằng điều này không phải để nhận upvote. Hầu hết thời gian, chúng tôi đặt phản hồi của riêng mình là Cộng đồng Wiki (CW), khi họ không thêm thông tin mâu thuẫn hoặc mâu thuẫn. Đây là một cách trung lập để tổng hợp hoặc tổng hợp các câu trả lời của người khác.
chl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.