Anova từ giải thích đầu ra R


8

Tôi có một câu hỏi về cách một nhà thống kê thường diễn giải một đầu ra anova. Nói rằng tôi có đầu ra anova từ R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Từ những điều trên, tôi đoán giá trị quan trọng nhất là Pr (> F), phải không? Vì vậy, Pr này, là ít hơn 0,05 (mức 95%). Làm thế nào để tôi "giải thích" điều này? Tôi có giải thích điều đó trong "liên kết" không, tức là V2 và V1 có liên quan (hoặc không)? hoặc về mặt "ý nghĩa"? Tôi luôn cảm thấy rằng tôi không thể hiểu được khi mọi người nói "Giá trị này rất đáng kể ....". Vậy "đáng kể" là gì? Có một hình thức giải thích trực quan hơn? kiểu như "Tôi tin tưởng 95% rằng ....".

Ngoài ra, giá trị Pr có phải là thông tin quan trọng duy nhất không? hoặc tôi cũng có thể nhìn vào phần dư và phần còn lại của đầu ra để "giải thích" kết quả? cảm ơn


Vui lòng hiển thị thêm về mô hình của bạnfitted_data
Stéphane Laurent

Các câu trả lời cho câu hỏi này là (hào phóng) không đầy đủ. Thay vào đó, hãy xem, stats.stackexchange.com/questions/12398/ , ... hoặc bất kỳ câu hỏi / câu trả lời liên quan nào khác.
michael

Câu trả lời:


2

Từ những điều trên, tôi đoán giá trị quan trọng nhất là Pr (> F), phải không?

Không phải với tôi. Ý tưởng rằng kích thước của giá trị p là điều quan trọng nhất trong ANOVA có sức lan tỏa nhưng tôi nghĩ gần như hoàn toàn sai lầm. Để bắt đầu, giá trị p là một đại lượng ngẫu nhiên (moreso khi null là đúng, khi nó được phân phối đồng đều giữa 0 và 1). Vì giá trị p thấp hơn như vậy có thể không đặc biệt nhiều thông tin trong mọi trường hợp, nhưng thậm chí vượt quá vấn đề kích thước của giá trị p, những thứ như kích thước hiệu ứng thường quan trọng hơn nhiều.

Bạn có thể muốn đọc xung quanh một chút

Cohen, J. (1990). Những điều tôi đã học được (cho đến nay), Nhà tâm lý học Mỹ 45, 1304-1312.

Cohen, J. (1994). Trái đất tròn (p <0,05). Nhà tâm lý học người Mỹ, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistic_hypothesis_testing#Ong tiến_Contputy

-

Tôi đã không thực sự giải quyết việc giải thích đầu ra khi giá trị p nằm dưới . Không nói chính xác giả thuyết nào đang được xem xét, đề cập đến "ý nghĩa" dường như vô nghĩa. Theo nghĩa đó, tốt hơn là nên đề cập đến kết luận có kết quả từ sự từ chối của null.α

Trong trường hợp bạn trình bày, thật khó để diễn giải mà không có ngữ cảnh (tôi thậm chí không biết V2 là phân loại hay liên tục), nhưng nếu V2 liên tục tôi có thể nói điều gì đó về việc kết luận có mối liên hệ giữa V1 và V2. Nếu V2 là phân loại (0-1), tôi có thể nói điều gì đó về sự khác biệt trong ý nghĩa của V1 đối với hai loại, v.v.

Bây giờ một số điều KHÔNG nên nói:

nhỏ hơn 0,05 (mức 95%)

Không bao giờ gọi p <0,05 "có ý nghĩa ở mức 95%". Sai rồi. Bạn cũng không nên gọi nó là 95%.

kiểu như "Tôi tin tưởng 95% rằng ....".

Đừng bao giờ nói vậy. Nó sai.


chào cảm ơn Tôi sẽ xem xét các bài viết này để hiểu thêm về giá trị p. Nếu giá trị p không được "tin cậy", theo ý kiến ​​của bạn, những tham số nào sẽ cho chúng ta biết nhiều hơn hoặc ít hơn về mối quan hệ giữa V1 và V2? Bình phương R?
dorothy

> Nếu giá trị p không được "tin cậy" --- tôi cũng sẽ không tự động nói điều đó. Tôi nghĩ rằng bạn đã đi quá xa theo cách khác. Không phải là họ không thể 'đáng tin cậy' (mặc dù nếu bạn sử dụng sai, họ sẽ khiến bạn lạc lối chắc chắn). Nhiều hơn là họ - và kiểm tra giả thuyết nói chung hơn - thường không cho bạn biết bạn muốn họ làm gì. Kích thước hiệu ứng và khoảng tin cậy có liên quan hơn. cũng không hẳn là một biện pháp rất hữu ích. R2
Glen_b -Reinstate Monica

Nói tóm lại - giá trị p cho bạn biết điều gì đó - nói chung, chúng không phải là "quan trọng nhất".
Glen_b -Reinstate Monica

ồ được thôi. Tôi sẽ xem xét nhiều hơn về khoảng tin cậy dòng và kích thước hiệu ứng để giải thích kết quả. Cảm ơn rất nhiều.
dorothy

1
Điều quan trọng chủ yếu phụ thuộc vào những gì bạn quan tâm tìm hiểu. Đối với tôi, đó thường là các hệ số và sai số chuẩn của chúng, và đôi khi là s. Đôi khi các giá trị p cũng được tôi quan tâm. Nhưng lần khác, tôi quan tâm đến một số phần cụ thể của đầu ra.
Glen_b -Reinstate Monica

1

Đoạn đầu ra tôi có thể nhìn vào đầu tiên là đây:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Nó cho bạn biết mô hình tổng thể có ý nghĩa (F (1.118) = 9,24, p = 0,003) Và V1 chiếm khoảng 7% phương sai trong V2.

Kích thước hiệu ứng (0,039) cho bạn biết rằng nếu V2 tăng thêm 1, mô hình của bạn dự đoán V1 sẽ tăng (mối quan hệ tích cực) thêm ~ 0,04). Lỗi tiêu chuẩn trên ước tính đó (0,013) chỉ ra rằng (đại khái), khoảng tin cậy 95% của hiệu ứng là CI95 = [.0135, .064] (tức là, .039- 1.96*.013đến .039+ 1.96*.013)

Khoảng tin cậy không bao gồm 0, giá trị này sẽ thay đổi (với giá trị p).

Nếu bạn muốn đầu ra anova (như bạn nêu), bạn cần yêu cầu điều đó (không phải là tóm tắt hồi quy, đó là những gì summary()mang lại).

anova(), hoặc, từ cargói, Anovasẽ cung cấp cho bạn điều này. Tùy thuộc vào mục đích của bạn, bạn có thể thích đầu ra mặc định Anova của ô tô, điều này mang lại hiệu quả của từng biến trong ANOVA của bạn như thể nó được nhập sau cùng, được gọi là " tổng bình phương loại III ".

Nếu chúng ta chuyển sang một built-in ví dụ sử dụng Rs mtcarsDataSet xe dặm cho mỗi gallon và các dữ liệu khác như trọng lượng và kích thước động cơ, bạn có thể tạo ra một ví dụ Anova:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Tổng Sq | Df | Giá trị F | Pr (> F) |
|: --------- | ------: | -: | -------: | -------: |
| wt | 58.02 | 1 | 8,27 | 0,01 * |
| phân tán | 1,53 | 1 | 0,22 | 0,64 |
| trụ | 57,59 | 1 | 8,21 | 0,01 * |
| thiết bị | 6.02 | 1 | 0,86 | 0,36 |
| sáng | 3,44 | 1 | 0,49 | 0,49 |
| Dư lượng | 182,41 | 26 | | |

Điều này cho thấy trọng lượng xe và số xi-lanh là những yếu tố quan trọng trong xe dặm đạt được cho mỗi gallon. Tất nhiên tất cả các biến này được giới hạn trong bộ dữ liệu xe hơi, cho thấy chúng ta thực sự cần một lý thuyết về mức tiêu thụ nhiên liệu để đạt được tiến bộ ở đây.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.