Mâu thuẫn đáng kể trong hồi quy tuyến tính: kiểm tra t đáng kể cho một hệ số so với thống kê F tổng thể không có ý nghĩa


35

Tôi đang điều chỉnh mô hình hồi quy tuyến tính đa biến giữa 4 biến phân loại (với 4 cấp độ mỗi biến) và đầu ra số. Tập dữ liệu của tôi có 43 quan sát.

Hồi quy cho tôi các giá trị p sau từ t -test cho mọi hệ số độ dốc: .15,.67,.27,.02 . Do đó, hệ số của yếu tố dự đoán thứ 4 có ý nghĩa ở mức độ tin cậy α=.05 .

Mặt khác, hồi quy cho tôi một giá trị p từ tổng F -test của giả thuyết null rằng tất cả các hệ số độ dốc của tôi đều bằng 0. Đối với tập dữ liệu của tôi, giá trị p này là .11 .

Câu hỏi của tôi: làm thế nào tôi nên giải thích những kết quả này? Tôi nên sử dụng giá trị p nào và tại sao? Là hệ số cho biến số 4 khác biệt đáng kể so với 0 ở mức độ tin cậy α=.05 ?

Tôi đã nhìn thấy một câu hỏi liên quan, Ft liệu thống kê trong một hồi quy , nhưng đã có một tình huống ngược lại: cao t -test p -values và thấp F -test p -giá trị. Thành thật mà nói, tôi hoàn toàn không hiểu tại sao chúng ta lại cần một F -test ngoài một t test để xem các hệ số hồi quy tuyến tính có khác biệt đáng kể so với không.


2
Nếu bạn có 4 biến phân loại với 4 cấp độ mỗi cấp, bạn nên có 3 * 4 = 12 hệ số cho các biến độc lập của mình (cộng với chặn) ...
boscovich

@andrea: Tôi đã quyết định coi chúng là các biến số.
Leo

4
0,02 hầu như không đáng kể (đặc biệt nếu bạn xem xét thực tế rằng bạn có tổng cộng năm bài kiểm tra) và 0,11 không cao lắm. Một cách giải thích hào phóng sẽ là với một chút sức mạnh hơn, bài kiểm tra F tổng thể cũng có ý nghĩa (và có lẽ là hệ số đầu tiên). Một cách giải thích thận trọng hơn là bạn không nên tin tưởng nhiều vào bất kỳ kết quả nào trong số này (bao gồm cả hệ số có giá trị 0,02 p). Dù bằng cách nào, bạn không nên đọc quá nhiều về sự khác biệt giữa 0,02 và 0,11.
Gala

3
Đối với một cuộc thảo luận về trường hợp ngược lại, bạn cũng có thể thấy ở đây: làm thế nào một hồi quy có thể có ý nghĩa nhưng tất cả các yếu tố dự đoán đều không quan trọng , ngoài câu hỏi được liên kết ở trên.
gung - Tái lập Monica

Câu trả lời:


37

Tôi không chắc chắn rằng đa cộng đồng là những gì đang diễn ra ở đây. Chắc chắn là thể, nhưng từ thông tin được cung cấp, tôi không thể kết luận điều đó, và tôi không muốn bắt đầu từ đó. Dự đoán đầu tiên của tôi là đây có thể là một vấn đề so sánh nhiều. Đó là, nếu bạn chạy đủ các bài kiểm tra, một cái gì đó sẽ hiển thị, ngay cả khi không có gì ở đó.

Một trong những vấn đề mà tôi mắc phải là vấn đề so sánh nhiều luôn được thảo luận về mặt kiểm tra nhiều so sánh cặp đôi, ví dụ, chạy thử nghiệm t trên mỗi cặp cấp độ duy nhất. (Đối với một cách đối xử hài hước của nhiều so sánh, hãy nhìn vào đây .) Điều này khiến mọi người có ấn tượng rằng đó là nơi duy nhất vấn đề này xuất hiện. Nhưng điều này chỉ đơn giản là không đúng sự thật, vấn đề của nhiều so sánh xuất hiện ở mọi nơi. Chẳng hạn, nếu bạn chạy hồi quy với 4 biến giải thích, các vấn đề tương tự tồn tại. Trong một thí nghiệm được thiết kế tốt, IV có thể trực giao, nhưng mọi người thường lo lắng về việc sử dụng các hiệu chỉnh Bonferroni trên các bộ a-prori, tương phản trực giao và không nghĩ hai lần về ANOVA. Đối với tôi điều này không nhất quán.

Bài kiểm tra F toàn cầu là bài kiểm tra 'đồng thời'. Điều này kiểm tra xem liệu tất cả các dự đoán của bạn không liên quan đến biến trả lời. Thử nghiệm đồng thời cung cấp một số bảo vệ chống lại vấn đề so sánh nhiều mà không cần phải đi theo con đường Bonferroni mất điện. Thật không may, giải thích của tôi về những gì bạn báo cáo là bạn có một phát hiện không có giá trị.

Một số điều giảm nhẹ chống lại sự giải thích này. Đầu tiên, chỉ với 43 dữ liệu, bạn gần như chắc chắn không có nhiều sức mạnh. Hoàn toàn có thể có một hiệu ứng thực sự, nhưng bạn không thể giải quyết nó mà không có thêm dữ liệu. Thứ hai, giống như cả @andrea và @Dimitriy, tôi lo lắng về sự phù hợp của việc coi các biến phân loại 4 cấp là số. Điều này có thể không phù hợp, và có thể có bất kỳ số lượng hiệu ứng nào, bao gồm làm giảm khả năng của bạn để phát hiện những gì thực sự ở đó. Cuối cùng, tôi không chắc rằng thử nghiệm ý nghĩa khá quan trọng như mọi người tin. Một p của .11loại thấp; Có thực sự có cái gì đó đang xảy ra ở đó? có lẽ! Ai biết được? Khác không phải là "đường sáng" ở 0,05 phân định hiệu ứng thực sự từ sự xuất hiện đơn thuần.


24

Tôi muốn đề xuất rằng hiện tượng này (của một thử nghiệm tổng thể không có ý nghĩa mặc dù có một biến riêng biệt đáng kể) có thể được hiểu là một loại "hiệu ứng che giấu" tổng hợp và mặc dù nó có thể hình dung có thể phát sinh từ các biến giải thích đa hướng, nhưng nó không cần phải làm Mà ở tất cả. Nó cũng hóa ra không phải do nhiều điều chỉnh so sánh. Do đó, câu trả lời này đang bổ sung một số bằng cấp cho các câu trả lời đã xuất hiện, điều ngược lại cho thấy rằng đa cộng đồng hoặc nhiều so sánh nên được xem là thủ phạm.

Để thiết lập tính hợp lý của các xác nhận này, chúng ta hãy tạo ra một tập hợp các biến trực giao hoàn hảo - càng không phải là cộng tuyến càng tốt - và một biến phụ thuộc được xác định rõ ràng chỉ bằng một trong các giải thích đầu tiên (cộng với một lượng lỗi ngẫu nhiên tốt độc lập với mọi thứ khác). Trong Rnày có thể được thực hiện (reproducibly, nếu bạn muốn thí nghiệm) như

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Điều không quan trọng là các biến giải thích là nhị phân; Vấn đề là tính trực giao của chúng, mà chúng ta có thể kiểm tra để đảm bảo mã hoạt động như mong đợi, có thể được thực hiện bằng cách kiểm tra mối tương quan của chúng. Thật vậy, ma trận tương quan rất thú vị : các hệ số nhỏ gợi ý yrất ít liên quan đến bất kỳ biến nào ngoại trừ biến đầu tiên (theo thiết kế) và các số không có đường chéo xác nhận tính trực giao của các biến giải thích:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Chúng ta hãy chạy một loạt các hồi quy , chỉ sử dụng biến đầu tiên, sau đó là hai biến đầu tiên, v.v. Để dễ so sánh và dễ so sánh, trong mỗi phần tôi chỉ hiển thị dòng cho biến đầu tiên và tổng kiểm tra F:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Nhìn vào cách (a) tầm quan trọng của biến đầu tiên hầu như không thay đổi, (a ') biến đầu tiên vẫn có ý nghĩa (p <0,05) ngay cả khi điều chỉnh cho nhiều so sánh ( ví dụ: áp dụng Bonferroni bằng cách nhân giá trị p danh nghĩa với số lượng các biến giải thích), (b) hệ số của biến đầu tiên hầu như không thay đổi, nhưng (c) ý nghĩa tổng thể tăng theo cấp số nhân, nhanh chóng tăng lên đến mức không đáng kể.

Tôi giải thích điều này như chứng minh rằng bao gồm các biến giải thích phần lớn độc lập với biến phụ thuộc có thể "che dấu" giá trị p tổng thể của hồi quy. Khi các biến mới trực giao với các biến hiện có và biến phụ thuộc, chúng sẽ không thay đổi các giá trị p riêng lẻ. (Những thay đổi nhỏ được thấy ở đây là do lỗi ngẫu nhiên được thêm vào ylà, do tình cờ, hơi tương quan với tất cả các biến khác.) Một bài học rút ra từ đây là sự cẩn thận là có giá trị : sử dụng càng ít biến khi cần thiết có thể tăng cường tầm quan trọng của kết quả.

Tôi không nói rằng điều này nhất thiết phải xảy ra đối với tập dữ liệu trong câu hỏi, về điều mà ít được tiết lộ. Nhưng kiến ​​thức rằng hiệu ứng che giấu này có thể xảy ra sẽ thông báo cho việc giải thích kết quả cũng như các chiến lược của chúng tôi để lựa chọn biến và xây dựng mô hình.


+1, tôi đồng ý với phân tích này. FWIW, đây là lời giải thích mà tôi đã gợi ý (có lẽ không tốt) trong cuộc thảo luận của tôi về sức mạnh trong câu trả lời của tôi cho câu hỏi khác . Tôi có 1 câu hỏi về phiên bản của bạn ở đây, tại sao bạn sử dụng 32 làm trung bình của thuật ngữ lỗi của bạn? Đó có phải là một lỗi đánh máy, hoặc nó quan trọng theo một cách nào đó?
gung - Phục hồi Monica

@gung Bạn thấy 32 ở đâu? Nếu bạn đang đề cập đến rnorm(2^p, sd=2), xin lưu ý rằng đối số đầu tiên là số lượng thuật ngữ, không phải là trung bình. Giá trị trung bình theo mặc định là 0 và do đó chưa được chỉ định rõ ràng.
whuber

rnorm()N(μ,σ)

@gung Tôi rất biết ơn cơ hội để làm rõ mã và do đó đã chỉnh sửa dòng vi phạm.
whuber

11

Bạn thường xuyên có điều này xảy ra khi bạn có mức độ cộng tác cao trong số các biến giải thích của bạn. ANOVA F là một thử nghiệm chung mà tất cả các biến hồi quy là cùng không . Khi các X của bạn chứa thông tin tương tự, mô hình không thể gán sức mạnh giải thích cho một biến hồi quy này hoặc biến hồi quy khác, nhưng sự kết hợp của chúng có thể giải thích phần lớn biến thể của biến phản ứng.

x1y


Nếu cộng tuyến là một vấn đề, thì bạn sẽ có các lỗi tiêu chuẩn cao và có lẽ hệ số lớn đáng kinh ngạc, thậm chí có thể có các dấu hiệu sai. Để chắc chắn rằng đây là những gì đang xảy ra, hãy tính các yếu tố lạm phát phương sai (VIF) sau hồi quy của bạn. Một nguyên tắc hợp lý là cộng tuyến là một vấn đề nếu VIF lớn nhất lớn hơn 10. Nếu vậy, bạn thực sự có hai lựa chọn ở đây. Một là xác định lại mô hình để giảm sự phụ thuộc gần tuyến tính bằng cách bỏ một số biến của bạn. Thứ hai là để có được một mẫu lớn hơn và / hoặc tốt hơn (ít đồng nhất).
Dimitriy V. Masterov

1
(+1) Giải thích này là một giải thích tốt, nhưng không cần thiết phải gán hiện tượng này cho tính đa hình: sự khác biệt chính là giữa thông tin chungthông tin cá nhân. Bao gồm các biến hồi quy không tương quan bổ sung (tránh bất kỳ đa cộng tuyến nào) làm giảm cái trước trong khi cái sau không thay đổi.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.