Trong bài kiểm tra chính xác của Fisher: Thử nghiệm nào sẽ phù hợp nếu người phụ nữ không biết số cốc sữa đầu tiên?


18

Trong thí nghiệm nếm trà của người phụ nữ nổi tiếng của RA Fisher, người phụ nữ được thông báo về việc có bao nhiêu cốc sữa đầu tiên / tách trà đầu tiên (4 cho mỗi trong số 8 cốc). Điều này tôn trọng tổng giả định biên cố định của thử nghiệm chính xác của Fisher.

Tôi đã tưởng tượng thực hiện bài kiểm tra này với bạn của tôi, nhưng ý nghĩ đã đánh tôi. Nếu người phụ nữ thực sự có thể nhận ra sự khác biệt giữa ly sữa đầu tiên và ly trà đầu tiên, cô ấy sẽ có thể tìm ra tổng số cận biên của ly sữa đầu tiên / tách trà đầu tiên cũng như ly nào.

Vì vậy, đây là câu hỏi: Thử nghiệm nào có thể đã được sử dụng nếu RA Fisher không thông báo cho người phụ nữ về tổng số cốc sữa đầu tiên và tách trà đầu tiên?


4
Một số người sẽ lập luận rằng ngay cả khi lề thứ hai không được cố định bởi thiết kế, nó mang ít thông tin về khả năng phân biệt đối xử của người phụ nữ (nghĩa là nó phụ trợ) & nên được điều chỉnh. Thử nghiệm vô điều kiện chính xác (lần đầu tiên được đề xuất bởi Barnard tôi nghĩ) phức tạp hơn vì bạn phải tính giá trị p tối đa trên tất cả các giá trị có thể có của một tham số phiền toái.
Scortchi - Tái lập Monica

4
Trong thực tế , bài kiểm tra của Barnard có một trang Wikipedia.
Scortchi - Phục hồi Monica

@Scortchi còn gì để nói nữa không? Tôi sẽ không thêm bất cứ điều gì vào nó (tôi cũng sẽ không nói điều đó rõ ràng và ngắn gọn). Qua hai bình luận của bạn tôi nghĩ bạn có một câu trả lời tốt ở đó.
Glen_b -Reinstate Monica

1
Có một số cuộc thảo luận đáng để xem xét (giữa cả bài báo và người thảo luận) trong Yates, F. (1984) "Các thử nghiệm về tầm quan trọng đối với các bảng dự phòng 2 × 2", Tạp chí của Hiệp hội Thống kê Hoàng gia. Dòng A (Chung) , Tập. 147, Số 3, trang 426-463.
Glen_b -Reinstate Monica

1
Chỉ trung bình, hơn 4 tách trà có sữa & 4 mà không có, chúng ta có thể nói cô ấy có xác suất đoán đúng; & phân phối tổng số dự đoán chính xác của cô tập trung vào khoảng 4 so với khi nó tuân theo phân phối nhị thức. Nhưng nếu cô ấy đoán "sữa" với xác suất , thì cô ấy sẽ đoán đúng với xác suất khi có sữa trong trà và khi không có, và phân phối trong tổng số các dự đoán chính xác của cô không tuân theo phân phối nhị thức. Vì vậy, có một tham số phiền toái cần xem xét, ... 112 11212
Scortchi - Tái lập Monica

Câu trả lời:


16

Một số người sẽ lập luận rằng ngay cả khi lề thứ hai không được cố định bởi thiết kế, nó mang ít thông tin về khả năng phân biệt đối xử của người phụ nữ (nghĩa là nó phụ trợ) & nên được điều chỉnh. Thử nghiệm vô điều kiện chính xác (lần đầu tiên được đề xuất bởi Barnard ) phức tạp hơn vì bạn phải tính giá trị p tối đa trên tất cả các giá trị có thể có của một tham số phiền toái, viz xác suất Bernoulli chung theo giả thuyết null. Gần đây, việc tối đa hóa giá trị p trong khoảng tin cậy cho tham số phiền toái đã được đề xuất: xem Berger (1996), "Các thử nghiệm mạnh mẽ hơn từ các giá trị tin cậy p", The Statistician , 50 , 4; kiểm tra chính xác có kích thước chính xác có thể được xây dựng bằng cách sử dụng ý tưởng này.

Kiểm tra chính xác của Fisher cũng phát sinh như một thử nghiệm ngẫu nhiên, theo nghĩa của Edgington: một sự phân công ngẫu nhiên các phương pháp điều trị thử nghiệm cho phép phân phối thống kê kiểm tra qua các hoán vị của các bài tập này được sử dụng để kiểm tra giả thuyết khống. Theo cách tiếp cận này, các quyết định của người phụ nữ được coi là cố định (& tổng số cận biên của ly sữa đầu tiên và ly trà đầu tiên tất nhiên được bảo tồn bằng hoán vị).


Có thể Barnard::barnardw.test()được sử dụng ở đây? Sự khác biệt nào trong độ phức tạp tính toán có thể được mong đợi trong thực tế?
krlmlr

Tôi không quen với gói đó, nhưng trang trợ giúp bạn liên kết đến các tài liệu tham khảo chính xác bài kiểm tra mà tôi đang nói đến. Xem thêm Exact. Đối với độ phức tạp tính toán, tôi không biết - nó sẽ phụ thuộc vào thuật toán tối đa hóa được sử dụng.
Scortchi - Phục hồi Monica

2

Hôm nay, tôi đã đọc các chương đầu tiên của "Thiết kế thí nghiệm" của RA Fisher, và một trong những đoạn khiến tôi nhận ra lỗ hổng cơ bản trong câu hỏi của mình.

Đó là, ngay cả khi người phụ nữ thực sự có thể nói sự khác biệt giữa ly sữa đầu tiên và ly trà đầu tiên , tôi không bao giờ có thể chứng minh cô ấy có khả năng đó "bằng bất kỳ số lượng thử nghiệm hữu hạn nào". Vì lý do này, với tư cách là một người thử nghiệm, tôi nên bắt đầu với giả định rằng cô ấy không có khả năng (giả thuyết không) và cố gắng từ chối điều đó. Và thiết kế thí nghiệm ban đầu (kiểm tra chính xác câu cá) là một quy trình đủ, hiệu quả và chính đáng để làm điều đó.

Dưới đây là đoạn trích từ "Thiết kế thí nghiệm" của RA Fisher:

Có thể lập luận rằng nếu một thí nghiệm có thể bác bỏ giả thuyết rằng đối tượng không có sự phân biệt cảm giác giữa hai loại đối tượng khác nhau, thì nó phải có khả năng chứng minh giả thuyết ngược lại, rằng cô ấy có thể đưa ra một số phân biệt đối xử như vậy. Nhưng giả thuyết cuối cùng này, dù hợp lý hay đúng, nó có thể không đủ điều kiện là một giả thuyết không được kiểm tra bằng thực nghiệm, bởi vì nó không chính xác. Nếu nó được khẳng định rằng chủ đề sẽ không bao giờ sai trong các phán đoán của cô ấy, thì chúng ta lại có một giả thuyết chính xác, và dễ dàng thấy rằng giả thuyết này có thể bị bác bỏ bởi một thất bại duy nhất, nhưng không bao giờ có thể được chứng minh bằng bất kỳ số lượng thử nghiệm hữu hạn nào .


1

Thử nghiệm của Barnard được sử dụng khi tham số phiền toái không xác định theo giả thuyết null.

Tuy nhiên, trong thử nghiệm nếm thử phụ nữ, bạn có thể lập luận rằng tham số phiền toái có thể được đặt ở mức 0,5 theo giả thuyết null (người phụ nữ không hiểu biết có xác suất 50% để đoán chính xác một cốc).

Sau đó, số lần đoán đúng, theo giả thuyết null, trở thành phân phối nhị thức: đoán 8 cốc với xác suất 50% cho mỗi cốc.


Trong những trường hợp khác, bạn có thể không có xác suất 50% tầm thường này cho giả thuyết khống. Và không có lợi nhuận cố định, bạn có thể không biết xác suất đó là bao nhiêu. Trong trường hợp đó, bạn cần thử nghiệm của Barnard.


Ngay cả khi bạn thực hiện thử nghiệm của Barnard trong thử nghiệm nếm trà của phụ nữ, dù sao nó cũng sẽ trở thành 50% (nếu kết quả là tất cả các dự đoán chính xác) vì tham số phiền toái có giá trị p cao nhất là 0,5 và sẽ dẫn đến thử nghiệm nhị thức tầm thường ( nó thực sự là sự kết hợp của hai thử nghiệm nhị thức một cho bốn cốc sữa đầu tiên và một cho bốn cốc trà đầu tiên).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Dưới đây là cách nó sẽ dẫn đến một kết quả phức tạp hơn (nếu không phải tất cả các dự đoán đều đúng, ví dụ 2 so với 4), thì việc đếm những gì là và không cực đoan trở nên khó khăn hơn một chút

(Lưu ý rằng thử nghiệm của Barnard sử dụng, trong trường hợp kết quả 4-2, tham số phiền toái p = 0,686 mà bạn có thể tranh luận là không chính xác, giá trị p cho xác suất 50% trả lời 'trà trước' sẽ là 0,08203125. Điều này càng trở nên nhỏ hơn khi bạn xem xét một khu vực khác, thay vào đó là khu vực dựa trên thống kê của Wald, mặc dù việc xác định khu vực này không quá dễ dàng )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.