Tại sao mô hình thay đổi khi sử dụng relevel?


8

Khi tính toán các mô hình hồi quy với R, tôi cũng thường xuyên sử dụng hàm phát lại để lấy mô hình của mình để cung cấp cho tôi kết quả cho cấp độ khác. Tôi nhận thấy rằng đôi khi, nhưng không thường xuyên, điều này đã thay đổi mô hình theo nghĩa là mức độ của các yếu tố khác có ý nghĩa trước khi có liên quan không còn nữa. Đây có phải là cố hữu hoặc có liên quan và có thể do một số vấn đề với dữ liệu của tôi? Liệu nó cho thấy dữ liệu của tôi có khả năng không đáp ứng một trong những điều kiện tiên quyết của mô hình tuyến tính?

Liên quan đến điều đó, có ổn không nếu tôi sử dụng relevel, tính toán lại mô hình của mình và sau đó báo cáo các giá trị quan trọng từ cả hai mô hình trong bài viết của mình? Nếu tầm quan trọng khác nhau giữa hai mô hình cho một yếu tố nhất định, tôi cho rằng tôi nên đi với một mô hình ít lạc quan hơn?

Tôi cho rằng câu hỏi của tôi phản bội rằng tôi không biết đủ về lm để nắm bắt sự cần thiết của cấp độ cơ sở. Tôi nghĩ rằng tôi hiểu nó khá rõ;) Bằng cách nào đó, không có lời giới thiệu nào tôi đọc được giải thích về điểm đó, hoặc tôi quá ngu ngốc để nắm bắt nó. Vì vậy, nếu ai đó có thể hướng dẫn tôi đến một trang web nơi có điểm cơ bản trong lm được giải thích hoặc giải thích chính nó, điều đó cũng sẽ rất tuyệt!

Chỉnh sửa: Đây là một ví dụ tối thiểu:

library(datasets)
sprays<-OrchardSprays
model<-lm(decrease~treatment+rowpos+colpos,data=sprays)
summary(model)

Một phần của bản tóm tắt nói

treatmentC    20.625      9.731   2.120  0.03866 *

Vì vậy, nếu điều trị == C, điều này có ảnh hưởng tích cực đáng kể đến 'giảm'. Bây giờ tôi gửi lại 'điều trị' cho B để tìm hiểu ảnh hưởng của việc điều trị == A có:

sprays$treatment<-relevel(sprays$treatment,"B")
summary(model)

Và bây giờ điều trị == C không đáng kể trong mô hình mới này:

treatmentC    17.625      9.731   1.811  0.07567 .

Xin lỗi vì đăng sai chỗ! Tôi có thể chuyển câu hỏi của mình sang trạng thái trao đổi thống kê hay tôi nên mở một câu hỏi mới ở đó?


2
Chào mừng đến với SO. Bạn có nghĩ rằng bạn có thể làm một ví dụ tái tạo nhỏ minh họa điều này?
Andrie

4
Có vẻ như bạn không thực sự biết mô hình nào phù hợp và cách diễn giải các tham số trong mô hình của bạn. Điều này có lẽ thích hợp hơn cho trang web stackexchange.
Dason

2
Cả hai ý kiến ​​trước đó đều đúng mục tiêu. Một cái gì đó đơn giản như d <- data.frame(y=runif(300),f=factor(rep(LETTERS[1:3],each=100)); lm(y~f,data=d)sẽ cho bạn một sự khởi đầu, mặc dù tất nhiên sẽ không có thay đổi đáng kể nào trong trường hợp đó (mặc dù các ước tính tham số và giá trị p chắc chắn sẽ thay đổi khi bạn phát hiện lại).
Ben Bolker

Có lẽ bạn có thể muốn xem các trang 74-75 của cuốn sách này springer.com/economics/econometrics/book/978-0-387-77316-2 . Đây rõ ràng là một vấn đề kinh tế lượng liên quan đến các biến giả. Thay đổi đường cơ sở của bạn không thay đổi giá trị dự kiến ​​của ước tính của bạn, nhưng thay đổi ước tính tham số. Bất kỳ cuốn sách kinh tế lượng cơ bản sẽ giúp bạn về vấn đề này.

2
... Đây thực sự không phải là vấn đề "kinh tế lượng" vì đây là vấn đề tham số hóa mô hình, đây là một vấn đề trong bất kỳ lĩnh vực thống kê nào.
Dason

Câu trả lời:


7

Giả sử nhân tố conditionscó các mức A,B,Cvà bạn hồi quy biến phản ứng của mình ytheo các điều kiện sử dụng mod <- lm(y ~ conditions). Bây giờ summary(mod)trả về giá trị trung bình về mức độ tham chiếu conditions(nói A) và sự khác biệt trong phương tiện giữa điều kiện BAvà sự khác biệt giữa điều kiện CA(báo cáo lần lượt là (Intercept), conditions:B, và conditions:C). Nếu bạn conditions <- relevel(conditions, ref = 'B')và kết hợp lại mô hình tuyến tính, bây giờ bạn sẽ có ý nghĩa của B, sự khác biệt giữa AB, và sự khác biệt giữa CA. Đương nhiên, giá trị p có thể thay đổi. Điều đó không có nghĩa là có vấn đề với dữ liệu của bạn. Điều đó không có nghĩa là dữ liệu của bạn nhất thiết thất bại với giả định của mô hình tuyến tính. Sự phù hợp là như nhau và bạn chỉ đơn giản là thay đổi những thông tin được in ra vì bạn đã thay đổi mức tham chiếu và đang sử dụng độ tương phản điều trị. Bạn có thể có được các bài kiểm tra giả thuyết tuyến tính tương tự bằng cách sử dụng bản gốc mod.

Theo như những gì cần báo cáo, trong nhiều lĩnh vực, theo thông lệ, có thể báo cáo xem có ảnh hưởng đáng kể về mặt thống kê của conditions(sử dụng đầu ra của anova(mod)) hay không và báo cáo cho đầu ra hồi quy đầy đủ trong một bảng (sử dụng bất kỳ mức tham chiếu nào bạn muốn ). Các tiêu chuẩn về cách thức và liệu có báo cáo các bài kiểm tra Aso với B(ví dụ) thay đổi theo lĩnh vực. Hãy xem xét kỹ các giấy tờ tốt trong lĩnh vực của bạn.


Cảm ơn, đó là câu trả lời khá nhiều câu hỏi của tôi! Chỉ để làm rõ: Bạn nói rằng theo thông lệ để báo cáo liệu các yếu tố có ý nghĩa (đầu ra của anova) và đầu ra hồi quy đầy đủ hay không, nhưng các chỉ tiêu cho các thử nghiệm có thể khác nhau. Nhưng đầu ra hồi quy đầy đủ (có tóm tắt) chủ yếu bao gồm các thử nghiệm này (ngoài việc chặn), phải không?

Có, nhưng điều đó không nhất thiết có nghĩa là bạn nên báo cáo chúng. Các thử nghiệm quan trọng của việc đánh chặn nói riêng thường không phải là vô nghĩa ...
Ben Bolker

Tôi bối rối ... Nếu bản tóm tắt báo cáo chúng, tôi cho rằng chúng phải hữu ích cho một cái gì đó? Ngoài ra, lý do chính khiến tôi tính toán một mô hình là tôi muốn tìm hiểu mức độ nào có thể nói là có mức độ ảnh hưởng nào với một mức độ chắc chắn nhất định. Vì vậy, nếu họ có xu hướng "vô nghĩa" thì có rất ít lý do để tôi làm điều này. Hoặc bạn muốn giới thiệu một phương pháp khác để làm điều này?
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.