Tỷ lệ khả năng so với thử nghiệm Wald


10

Từ những gì tôi đã đọc, trong số những người khác trên trang web của các thử nghiệm tỷ lệ khả năng của nhóm tư vấn thống kê UCLA và các thử nghiệm wald khá giống nhau trong việc kiểm tra xem hai mô hình glm có cho thấy sự khác biệt đáng kể về sự phù hợp cho một tập dữ liệu hay không (xin lỗi nếu từ ngữ của tôi có thể là một chút tắt). Về bản chất tôi có thể so sánh hai mô hình và kiểm tra nếu mô hình thứ hai cho thấy sự phù hợp tốt hơn đáng kể so với mô hình đầu tiên, hoặc không có sự khác biệt giữa các mô hình.

Vì vậy, các thử nghiệm LR và Wald sẽ hiển thị cùng giá trị p ballpark cho các mô hình hồi quy tương tự. Ít nhất là cùng một kết luận nên được đưa ra.

Bây giờ tôi đã làm cả hai thử nghiệm cho cùng một mô hình trong R và nhận được kết quả khác nhau. Đây là kết quả từ R cho một mô hình:

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

Về dữ liệu, dữ liệu $ y chứa dữ liệu đếm và dữ liệu $ site_name là một yếu tố có 9 cấp độ. Có 54 giá trị trong dữ liệu $ y, với 6 giá trị cho mỗi cấp dữ liệu $ site_name.

Dưới đây là phân phối tần số:

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

Bây giờ dữ liệu này không phù hợp với phân phối poisson rất tốt do sự phân tán quá lớn của số không. Nhưng với một mô hình khác, trong đó dữ liệu $ y> 0 phù hợp với mô hình poisson khá tốt và trong khi sử dụng mô hình poisson bằng 0, tôi vẫn nhận được kết quả thử nghiệm rất khác biệt và kết quả thấp nhất. Ở đó, bài kiểm tra wald cho thấy giá trị p là 0,03 trong khi lrtest có giá trị p là 0,0003. Vẫn là một yếu tố khác biệt 100, mặc dù kết luận có thể giống nhau.

Vì vậy, những gì tôi hiểu không chính xác ở đây với tỷ lệ khả năng so với waldtest?

Câu trả lời:


15

Điều quan trọng cần lưu ý là mặc dù thử nghiệm tỷ lệ khả năng và thử nghiệm Wald được các nhà nghiên cứu sử dụng để thực hiện cùng một mục tiêu thực nghiệm, họ đang thử nghiệm các giả thuyết khác nhau . Kiểm tra tỷ lệ khả năng đánh giá liệu dữ liệu có khả năng đến từ một mô hình phức tạp hơn, so với một mô hình đơn giản hơn. Nói cách khác, việc bổ sung một hiệu ứng cụ thể cho phép mô hình tính toán để biết thêm thông tin. Thử nghiệm Wald, ngược lại, đánh giá xem có khả năng hiệu ứng ước tính có thể bằng không. Tuy nhiên, đó là một sự khác biệt về sắc thái, nhưng một sự khác biệt quan trọng về mặt khái niệm.

Agresti (2007) đối chiếu thử nghiệm tỷ lệ khả năng, thử nghiệm Wald và phương pháp thứ ba gọi là "kiểm tra điểm số" (ông hầu như không nghiên cứu sâu hơn về thử nghiệm này). Từ cuốn sách của ông (trang 13):

Khi cỡ mẫu nhỏ đến trung bình, thử nghiệm Wald là độ tin cậy thấp nhất trong ba thử nghiệm. Chúng ta không nên tin tưởng nó cho một n nhỏ như trong ví dụ này ( n = 10). Suy luận tỷ lệ khả năng và suy luận dựa trên điểm kiểm tra là tốt hơn về mặt xác suất lỗi thực tế gần với mức phù hợp danh nghĩa. Một sự khác biệt được đánh dấu trong các giá trị của ba thống kê cho thấy rằng phân phối của công cụ ước tính ML có thể khác xa với tính quy tắc. Trong trường hợp đó, các phương pháp mẫu nhỏ thích hợp hơn các phương pháp mẫu lớn.

Nhìn vào dữ liệu và đầu ra của bạn, có vẻ như bạn thực sự có một mẫu tương đối nhỏ, và do đó có thể muốn đặt cổ phiếu lớn hơn trong kết quả kiểm tra tỷ lệ khả năng so với kết quả kiểm tra Wald.

Người giới thiệu

Agresti, A. (2007). Giới thiệu về phân tích dữ liệu phân loại (phiên bản 2) . Hoboken, NJ: John Wiley & Sons.


Kiểm tra tỷ lệ khả năng đánh giá liệu dữ liệu có khả năng đến từ một mô hình phức tạp hơn, so với một mô hình đơn giản hơn. Chắc chắn nó đánh giá câu hỏi hơi khác nhau, "mô hình nào sẽ dẫn đến dữ liệu quan sát có xác suất cao nhất"? Bạn dường như đã mô tả một yếu tố Bayes hoặc một số như vậy, trong đó yêu cầu thông tin về xác suất trước đó ... có?
Jake Westfall

Không phải là sự khác biệt giữa hai câu hỏi mô hình thứ hai mà bạn kiểm tra nó là gì? Nếu bạn thực hiện một lr với y ~ 1 như model1 y ~ x như model2, thì thực sự lr sẽ kiểm tra xem dữ liệu có khả năng được giải thích bằng một mô hình phức tạp hơn (model2) hay mô hình đơn giản hơn (model1) không. Trong trường hợp này cũng giống như câu hỏi "mô hình nào được giải thích bằng xác suất cao nhất". Đúng?
Dolf Andringa

3

Hai xét nghiệm tương đương nhau. Tất nhiên, hiệu suất của chúng (kích thước và sức mạnh) trong các mẫu hữu hạn có thể khác nhau. Điều tốt nhất bạn có thể làm để hiểu sự khác biệt là chạy một nghiên cứu ở Monte Carlo cho một thiết lập tương tự như của bạn.


3

Đầu tiên, tôi không đồng ý với câu trả lời của jsakaluk rằng hai bài kiểm tra đang thử nghiệm những thứ khác nhau - cả hai đều kiểm tra xem hệ số trong mô hình lớn hơn có bằng không. Họ chỉ đang kiểm tra giả thuyết này bằng cách đưa ra các xấp xỉ khác nhau (xem bài viết được liên kết đến bên dưới).

Liên quan đến sự khác biệt giữa các kết quả của họ, như jsakaluk nói, điều này có thể là do kích thước mẫu nhỏ / khả năng đăng nhập khác xa so với bậc hai. Tôi đã viết một bài đăng trên blog vào năm 2014, qua đó cho một mô hình nhị thức đơn giản, có thể giúp thêm: http://thestatsgeek.com/2014/02/08/wald-vs-likabilities-ratio-test/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.