Có nên sử dụng mức độ hiệu chỉnh tự do để suy luận về các thông số GLM không?


11

Câu hỏi này được lấy cảm hứng từ câu trả lời của Martijn ở đây .

Giả sử chúng ta điều chỉnh GLM cho một họ tham số như mô hình nhị thức hoặc mô hình Poisson và đó là một quy trình khả năng đầy đủ (trái ngược với nói, quasipoisson). Sau đó, phương sai là một hàm của giá trị trung bình. Với nhị thức: và với Poisson .var [ X ] = E [ X ]var[X]=E[X]E[1X]var[X]=E[X]

Không giống như hồi quy tuyến tính khi phần dư được phân phối bình thường, phân phối lấy mẫu chính xác, hữu hạn của các hệ số này không được biết đến, nó là một sự kết hợp phức tạp có thể có của các kết quả và hiệp phương sai. Ngoài ra, sử dụng ước tính trung bình của GLM , được sử dụng làm ước tính plugin cho phương sai của kết quả.

Tuy nhiên, giống như hồi quy tuyến tính, các hệ số có phân phối chuẩn không có triệu chứng, và do đó, trong suy luận mẫu hữu hạn, chúng ta có thể tính gần đúng phân bố lấy mẫu của chúng với đường cong thông thường.

Câu hỏi của tôi là: chúng ta có đạt được gì khi sử dụng xấp xỉ phân phối T cho phân phối mẫu của các hệ số trong các mẫu hữu hạn không? Một mặt, chúng ta biết phương sai nhưng chúng ta không biết phân phối chính xác, do đó, một xấp xỉ T có vẻ như là lựa chọn sai khi một công cụ ước tính bootstrap hoặc jackknife có thể giải thích chính xác cho những khác biệt này. Mặt khác, có lẽ tính bảo thủ nhẹ của phân phối T chỉ đơn giản là được ưa thích trong thực tế.


1
câu hỏi hay. Bạn có thể muốn xem xét sửa chữa Bartlett .
Ben Bolker

1
Tôi nghĩ rằng câu hỏi này không được đặt ra, khi sử dụng MLE hoặc QMLE, bạn chỉ có ước tính và suy luận hợp lý không có triệu chứng. hỏi xem giả định A hay B tốt hơn trong các cài đặt hữu hạn không thể được trả lời, nó sẽ luôn sôi sục đến mức trần tục "phụ thuộc vào dữ liệu và giả định nào bạn sẵn sàng thực hiện". Cá nhân tôi thích bootstrapping và sử dụng nó bất cứ khi nào tôi có thể, nhưng không có gì sai khi sử dụng thử nghiệm dựa trên z hoặc t tiêu chuẩn - nó không cho phép bạn thoát khỏi vấn đề dữ liệu nhỏ, và vì vậy bạn vẫn đang đưa ra các giả định (chỉ là các giả định khác )
Repmat

Câu trả lời:


3

Câu trả lời ngắn: Chưa có câu trả lời đầy đủ, nhưng bạn có thể quan tâm đến các bản phân phối sau liên quan đến câu hỏi được liên kết: Nó so sánh z-test (cũng được sử dụng bởi glm) và t-test

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

Và chỉ có một sự khác biệt nhỏ. Và kiểm tra z thực sự tốt hơn (nhưng điều này có thể là do cả kiểm tra t và kiểm tra z đều "sai" và có thể lỗi của kiểm tra z đã bù lỗi này).

nhập mô tả hình ảnh ở đây

Câu trả lời dài: ...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.