Ngoài Durbin-Watson, những thử nghiệm giả thuyết nào có thể tạo ra kết quả không thuyết phục?


10

Các bài kiểm tra thống kê Durbin-Watson có thể nằm trong một khu vực không phân thắng bại, nơi mà nó không thể hoặc từ chối hoặc thất bại trong việc bác bỏ giả thuyết (trong trường hợp này, bằng không tự tương quan).

Những xét nghiệm thống kê nào khác có thể tạo ra kết quả "không kết luận"?

Có một lời giải thích chung (vẫy tay là tốt) cho lý do tại sao bộ thử nghiệm này không thể đưa ra quyết định "từ chối" / "không từ chối" nhị phân?

Sẽ là một phần thưởng nếu ai đó có thể đề cập đến ý nghĩa lý thuyết quyết định như là một phần của câu trả lời của họ cho truy vấn sau - liệu sự hiện diện của một loại kết luận (trong) bổ sung có nghĩa là chúng ta cần xem xét chi phí của Loại I và Loại II lỗi một cách tinh vi hơn?


2
Một chút lạc đề, nhưng các thử nghiệm ngẫu nhiên có một hương vị như vậy. Đối với một số giá trị của dữ liệu, bạn cần chọn ngẫu nhiên hơn việc chấp nhận và từ chối.
Christoph Hanck

@ChristophHanck cảm ơn, đó là một kết nối thú vị mà tôi sẽ không nhận thấy. Không phải những gì tôi dự định, nhưng tôi vẫn giữ câu hỏi mơ hồ với hy vọng nó sẽ là một câu hỏi - tùy thuộc vào câu trả lời tôi có thể thắt chặt trọng tâm của nó sau này.
Cá bạc

Câu trả lời:


10

Các bài viết trên Wikipedia giải thích rằng sự phân bố của các số liệu thống kê kiểm tra theo giả thuyết phụ thuộc vào ma trận cấu hình thiết kế đặc biệt của các giá trị dự báo được sử dụng trong hồi quy. Durbin & Watson đã tính các giới hạn thấp hơn cho thống kê kiểm tra, theo đó kiểm tra tự động tương quan dương phải loại bỏ, ở các mức ý nghĩa nhất định, đối với bất kỳ ma trận thiết kế nào và các giới hạn trên mà thử nghiệm không thể từ chối đối với bất kỳ ma trận thiết kế nào . "Vùng không kết luận" chỉ là vùng mà bạn phải tính toán các giá trị tới hạn chính xác, đưa ma trận thiết kế của bạn vào tài khoản, để có câu trả lời chắc chắn.

Một tình huống tương tự sẽ được cần phải thực hiện một một mẫu một đuôi t-test khi bạn biết chỉ là thống kê t, & không phải là kích thước mẫu : 1.645 & 6.31 (tương ứng với độ vô hạn của tự do và chỉ một) sẽ là giới hạn cho một bài kiểm tra kích thước 0,05.

Theo như lý thuyết quyết định, bạn có thể tính đến một nguồn không chắc chắn mới bên cạnh biến thể lấy mẫu, nhưng tôi không hiểu tại sao nó không nên được áp dụng theo cùng một cách như với các giả thuyết null tổng hợp. Bạn đang ở trong tình trạng giống như một người có thông số phiền toái không xác định, bất kể bạn đến đó bằng cách nào; do đó, nếu bạn cần đưa ra quyết định từ chối / giữ lại trong khi kiểm soát lỗi Loại I đối với tất cả các khả năng, hãy từ chối một cách bảo thủ (nghĩa là khi thống kê của Durbiniêu Watson nằm dưới giới hạn dưới hoặc thống kê t trên 6,31).

Hoặc có lẽ bạn đã mất bàn; nhưng có thể nhớ một số giá trị tới hạn cho một Gaussian tiêu chuẩn và công thức cho hàm lượng tử Cauchy.


(+1) Cảm ơn. Tôi biết đây là trường hợp của thử nghiệm Durbin-Watson (đáng lẽ phải đề cập đến điều đó trong câu hỏi của tôi) nhưng tự hỏi liệu đây có phải là một ví dụ về một hiện tượng tổng quát hơn không, và nếu vậy, liệu tất cả chúng có hoạt động theo cùng một cách không. Tôi đoán là điều đó có thể xảy ra, ví dụ, khi thực hiện một số thử nghiệm nhất định trong khi người ta chỉ có quyền truy cập vào dữ liệu tóm tắt (không nhất thiết phải theo hồi quy), nhưng DW là trường hợp duy nhất tôi có thể nhớ lại khi thấy các giá trị quan trọng trên và dưới được biên dịch và lập bảng . Nếu bạn có bất kỳ suy nghĩ nào về cách tôi có thể làm cho câu hỏi được nhắm mục tiêu tốt hơn sẽ rất được hoan nghênh.
Cá bạc

Câu hỏi đầu tiên hơi mơ hồ ("Những bài kiểm tra thống kê nào khác [...]?"), Nhưng tôi không nghĩ bạn có thể làm rõ nó mà không trả lời câu hỏi thứ hai ("Có giải thích chung [...] không?") bản thân bạn - nói chung tôi nghĩ mọi thứ đều ổn.
Scortchi - Phục hồi Monica

7

Một ví dụ khác về thử nghiệm với kết quả có thể không có kết quả là thử nghiệm nhị thức cho tỷ lệ khi chỉ có tỷ lệ chứ không phải kích thước mẫu. Điều này không hoàn toàn phi thực tế - chúng ta thường thấy hoặc nghe những tuyên bố được báo cáo kém về hình thức "73% số người đồng ý rằng ..." và v.v., nơi mẫu số không có sẵn.

H0:π=0.5H1:π0,5α= =0,05

p= =5%1195%α= =0,05

p= =49%

p= =50%H0

p= =0%p= =50%p= =5%p= =0%p= =100%p= =16%Pr(X3)0,0021<0,025p= =17%Pr(X1)0.109>0,025p= =16%p= =18%Pr(X2)0,0327>0,025p= =19%mẫu ít có ý nghĩa nhất có thể là 3 thành công trong 19 thử nghiệm với nên điều này lại có ý nghĩa.Pr(X3)0,0106<0,025

Trong thực tế, là tỷ lệ làm tròn cao nhất dưới 50% có ý nghĩa rõ ràng ở mức 5% (giá trị p cao nhất của nó sẽ là 4 lần thành công trong 17 thử nghiệm và chỉ đáng kể), trong khi là kết quả khác không thấp nhất không có kết quả (vì nó có thể tương ứng với 1 thành công trong 8 thử nghiệm). Như có thể thấy từ các ví dụ trên, những gì xảy ra ở giữa thì phức tạp hơn! Biểu đồ bên dưới có đường màu đỏ tại : các điểm bên dưới đường thẳng có ý nghĩa rõ ràng nhưng những điểm ở trên nó không có kết luận. Mẫu của các giá trị p sao cho sẽ không có giới hạn đơn và thấp hơn trên tỷ lệ phần trăm quan sát được để các kết quả có ý nghĩa rõ ràng.p = 13 % α = 0,05p= =24%p= =13%α= =0,05

Giá trị p nhỏ nhất của phép thử nhị thức với cỡ mẫu không xác định

Mã R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Mã làm tròn được lấy từ câu hỏi StackOverflow này .)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.