Kiểm tra Wald cho hồi quy logistic


55

Theo như tôi hiểu thì phép thử Wald trong bối cảnh hồi quy logistic được sử dụng để xác định xem một biến dự báo có ý nghĩa hay không. Nó bác bỏ giả thuyết khống về hệ số tương ứng bằng không.X

Thử nghiệm bao gồm chia giá trị của hệ số cho sai số chuẩn .σ

Điều tôi bối rối là còn được gọi là điểm Z và cho biết khả năng một quan sát đã cho có khả năng phân phối bình thường (với số không trung bình).X/σ



2
Có lẽ nó có thể là cách khác xung quanh, vì câu trả lời trong câu hỏi này được phát triển hơn.
Firebug

Câu trả lời:


86

Các ước tính của các hệ số và các hàm chặn trong hồi quy logistic (và bất kỳ GLM nào) được tìm thấy thông qua ước tính khả năng tối đa (MLE). Các ước tính này được biểu thị bằng một chiếc mũ trên các tham số, đại loại như . Tham số quan tâm của chúng tôi được ký hiệu là và đây thường là 0 vì chúng tôi muốn kiểm tra xem hệ số có khác 0 hay không. Từ lý thuyết tiệm cận của MLE, chúng tôi biết rằng sự khác biệt giữa và sẽ được phân phối một cách bình thường với giá trị trung bình 0 (có thể tìm thấy chi tiết trong bất kỳ cuốn sách thống kê toán học nào như Tất cả các số liệu thống kê của Larry Wasserman ) . Hãy nhớ lại rằng các lỗi tiêu chuẩn không gì khác hơn là q0 q q0θ^θ0θ^θ0độ lệch chuẩn của thống kê (Sokal và Rohlf viết trong cuốn sách Biometry của họ : "một thống kê là bất kỳ một trong nhiều đại lượng thống kê được tính toán hoặc ước tính", ví dụ: trung bình, trung bình, độ lệch chuẩn, hệ số tương quan, hệ số hồi quy, ...). Chia một phân phối chuẩn với trung bình 0 và độ lệch chuẩn bởi độ lệch chuẩn của nó sẽ mang lại sự phân bố bình thường tiêu chuẩn với trung bình 0 và độ lệch chuẩn 1. Các số liệu thống kê Wald được định nghĩa là (ví dụ Wasserman (2006): Tất cả các thống kê , các trang 153, 214 -215): W = ( β - β 0 )σ hoặc W2=(β-β0)2

W= =(β^-β0)se^(β^)~VIẾT SAI RỒI(0,1)
Hình thức thứ hai nảy sinh từ thực tế là bình phương của một phân phối chuẩn chuẩn làχ21-distribution với 1 mức độ tự do (tổng của hai bình phương phân phối chuẩn chuẩn sẽ là mộtχ22phân phối với 2 bậc tự do, v.v.).
W2= =(β^-β0)2Var^(β^)~χ12
χ12χ22

Bởi vì tham số quan tâm thường là 0 (tức là ), số liệu thống kê Wald đơn giản hoá để W = ββ0= =0 Đó là những gì bạn mô tả:Ước tính của hệ số chia cho sai số chuẩn của nó.

W= =β^se^(β^)~VIẾT SAI RỒI(0,1)

Khi nào là và khi nào giá trị t được sử dụng?zt

Sự lựa chọn giữa giá trị hoặc giá trị t phụ thuộc vào cách tính sai số chuẩn của các hệ số. Bởi vì thống kê Wald được phân phối không theo triệu chứng như một phân phối chuẩn thông thường, chúng ta có thể sử dụng giá trị z để tính giá trị p . Khi chúng ta, ngoài các hệ số, còn phải ước tính phương sai dư, một giá trị t được sử dụng thay cho giá trị z . Trong bình thường bình phương nhỏ nhất (OLS, hồi quy tuyến tính bình thường), ma trận sai-hiệp phương sai của các hệ số là Var [ beta | X ] = σ 2 ( X 'ztzptz nơi σ 2 là phương sai của các số dư (đó là chưa biết và phải được ước tính từ dữ liệu) và Xma trận thiết kế. Trong OLS, các lỗi tiêu chuẩn của các hệ số là căn bậc hai của các phần tử đường chéo của ma trận phương sai - hiệp phương sai. Bởi vì chúng ta không biết σ 2 , chúng ta phải thay thế nó bằng cách ước tính σ 2 = s 2 , vì vậy: ^ se ( ^ β j ) = Var[β^|X]= =σ2(X'X)-1σ2Xσ2σ^2= =S2 . Bây giờ là vấn đề:Bởi vì chúng ta phải ước tính phương sai của phần dư để tính sai số chuẩn của các hệ số, chúng ta cần sử dụng giátrịtphân phốit.se^(βj^)= =S2(X'X)jj-1tt

Y~BTôiviết sai rồi(viết sai rồi,p)E(Y)= =viết sai rồipVar(Y)= =viết sai rồip(1-p)φφ= =1φ<1φ>1ztpgiá trị. Trong R, nhìn vào hai ví dụ sau:

Hồi quy logistic

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Hồi quy tuyến tính bình thường (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Một bài viết liên quan có thể được tìm thấy ở đây .


1
Cảm ơn bạn rất nhiều cho bài viết tốt đẹp này mà trả lời tất cả các câu hỏi của tôi.
dùng695652

1
Vì vậy, trên thực tế, liên quan đến phần đầu tiên trong câu trả lời xuất sắc của bạn: Nếu vì một lý do nào đó tôi có tỷ lệ chênh lệch và thống kê Wald, tôi có thể tính toán sai số chuẩn từ những điều này là: SE = (1 / Wald- thống kê) * ln (HOẶC) Điều này có đúng không? Cảm ơn!
Sander W. van der Laan

1
@ SanderW.vanderLaan Cảm ơn bình luận của bạn. Vâng, tôi tin đó là chính xác. Nếu bạn thực hiện hồi quy logistic, thống kê Wald sẽ là giá trị z.
COOLSerdash

2
Thật là một câu trả lời tuyệt vời !! Tôi có một số gợi ý sửa đổi: Cá nhân tôi cảm thấy câu trả lời này đang trộn lẫn các chi tiết với danh sách cú đấm. Tôi sẽ đặt các chi tiết về cách hồi quy tuyến tính đang sử dụng phương sai của phần dư trong một biểu đồ riêng.
Haitao Du

1
Ngoài ra đối với tham số phân tán và kết nối với mã R, có thể chúng ta có thể mở một phần khác hoặc một dòng tách để nói về.
Haitao Du
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.