Khi xử lý dữ liệu với các yếu tố R có thể được sử dụng để tính phương tiện cho mỗi nhóm với hàm lm (). Điều này cũng đưa ra các lỗi tiêu chuẩn cho các phương tiện ước tính. Nhưng lỗi tiêu chuẩn này khác với những gì tôi nhận được từ một phép tính bằng tay.
Dưới đây là một ví dụ (lấy từ đây Dự đoán sự khác biệt giữa hai nhóm trong R )
Đầu tiên tính giá trị trung bình với lm ():
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.663636 0.9718008 27.437347 2.688358e-22
cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04
cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10
Đánh chặn là trung bình cho nhóm đầu tiên, 4 chiếc xe hình trụ. Để có được phương tiện bằng cách tính trực tiếp, tôi sử dụng:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
Để có được các lỗi tiêu chuẩn cho phương tiện, tôi tính toán biến thể tiêu chuẩn mẫu và chia cho số lượng quan sát trong mỗi nhóm:
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)) )
4 6 8
1.3597642 0.5493967 0.6842016
Tính toán trực tiếp cho cùng một giá trị trung bình nhưng sai số chuẩn là khác nhau đối với 2 cách tiếp cận, tôi đã dự kiến sẽ có cùng một lỗi tiêu chuẩn. Chuyện gì đang xảy ra ở đây? Nó có liên quan đến lm () phù hợp với giá trị trung bình của từng nhóm và một thuật ngữ lỗi không?
Chỉnh sửa: Sau khi Svens trả lời (bên dưới) tôi có thể hình thành câu hỏi của mình ngắn gọn và rõ ràng hơn.
Đối với dữ liệu phân loại, chúng ta có thể tính toán phương tiện của một biến cho các nhóm khác nhau bằng cách sử dụng lm () mà không cần chặn.
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error
cyl4 26.66364 0.9718008
cyl6 19.74286 1.2182168
cyl8 15.10000 0.8614094
Chúng ta có thể so sánh điều này với một tính toán trực tiếp về phương tiện và các lỗi tiêu chuẩn của chúng:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)) )
4 6 8
1.3597642 0.5493967 0.6842016
Các phương tiện hoàn toàn giống nhau nhưng các lỗi tiêu chuẩn là khác nhau đối với 2 phương thức này (như Sven cũng thông báo). Câu hỏi của tôi là tại sao chúng khác nhau và không giống nhau?
(khi chỉnh sửa câu hỏi của tôi, tôi nên xóa văn bản gốc hoặc thêm phiên bản của mình như tôi đã làm)