Là ngẫu nhiên đáng tin cậy với các mẫu nhỏ?


11

Jerome Cornfield đã viết:

Một trong những thành quả tốt nhất của cuộc cách mạng Ngư dân là ý tưởng về sự ngẫu nhiên, và các nhà thống kê đồng ý về một số điều khác ít nhất đã đồng ý về điều này. Nhưng bất chấp thỏa thuận này và mặc dù sử dụng rộng rãi các quy trình phân bổ ngẫu nhiên trong lâm sàng và trong các hình thức thử nghiệm khác, tình trạng logic của nó, tức là chức năng chính xác mà nó thực hiện, vẫn còn mù mờ.

Cánh đồng ngô, Jerome (1976). "Những đóng góp về phương pháp gần đây cho các thử nghiệm lâm sàng" . Tạp chí Dịch tễ học Hoa Kỳ 104 (4): 408 Biến421.

Trong suốt trang web này và trong một loạt các tài liệu, tôi luôn thấy những tuyên bố tự tin về sức mạnh của sự ngẫu nhiên. Thuật ngữ mạnh như "nó loại bỏ vấn đề về các biến gây nhiễu" là phổ biến. Xem ở đây , ví dụ. Tuy nhiên, nhiều lần thí nghiệm được chạy với các mẫu nhỏ (3-10 mẫu mỗi nhóm) vì lý do thực tế / đạo đức. Điều này rất phổ biến trong nghiên cứu tiền lâm sàng sử dụng động vật và nuôi cấy tế bào và các nhà nghiên cứu thường báo cáo giá trị p để hỗ trợ cho kết luận của họ.

Điều này khiến tôi tự hỏi, sự ngẫu nhiên tốt như thế nào trong việc cân bằng các giới hạn. Đối với âm mưu này, tôi đã mô hình hóa một tình huống so sánh các nhóm điều trị và kiểm soát với một nhóm có thể có hai giá trị với cơ hội 50/50 (ví dụ: type1 / type2, nam / nữ). Nó cho thấy sự phân phối "% không cân bằng" (Sự khác biệt về # loại 1 giữa các mẫu xử lý và mẫu đối chứng chia cho cỡ mẫu) cho các nghiên cứu về nhiều cỡ mẫu nhỏ. Các đường màu đỏ và trục bên phải hiển thị ecdf.

Xác suất của các mức độ cân bằng khác nhau trong ngẫu nhiên cho các cỡ mẫu nhỏ: nhập mô tả hình ảnh ở đây

Hai điều rõ ràng từ cốt truyện này (trừ khi tôi nhắn tin ở đâu đó).

1) Xác suất lấy mẫu cân bằng chính xác giảm khi kích thước mẫu tăng.

2) Xác suất lấy mẫu rất mất cân bằng giảm khi kích thước mẫu tăng.

3) Trong trường hợp n = 3 cho cả hai nhóm, có 3% cơ hội nhận được một nhóm các nhóm hoàn toàn không cân bằng (tất cả loại 1 trong kiểm soát, tất cả loại 2 trong điều trị). N = 3 là phổ biến cho các thí nghiệm sinh học phân tử (ví dụ: đo mRNA bằng PCR hoặc protein với Western blot)

Khi tôi kiểm tra trường hợp n = 3 hơn nữa, tôi quan sát thấy hành vi lạ của các giá trị p trong các điều kiện này. Phía bên trái cho thấy sự phân phối tổng thể của các giá trị tính toán bằng cách sử dụng các phép thử t trong các điều kiện của các phương tiện khác nhau cho nhóm con type2. Giá trị trung bình của type1 là 0 và sd = 1 cho cả hai nhóm. Các bảng bên phải hiển thị tỷ lệ dương tính giả tương ứng cho "ngưỡng ý nghĩa" danh nghĩa từ 0,05 đến 0,0001.

Phân phối giá trị p cho n = 3 với hai nhóm phụ và phương tiện khác nhau của nhóm phụ thứ hai khi được so sánh qua thử nghiệm t (10000 monte carlo chạy): nhập mô tả hình ảnh ở đây

Dưới đây là kết quả cho n = 4 cho cả hai nhóm: nhập mô tả hình ảnh ở đây

Với n = 5 cho cả hai nhóm: nhập mô tả hình ảnh ở đây

Với n = 10 cho cả hai nhóm: nhập mô tả hình ảnh ở đây

Như có thể thấy từ các biểu đồ ở trên, dường như có sự tương tác giữa kích thước mẫu và sự khác biệt giữa các nhóm con dẫn đến một loạt các phân phối giá trị p theo giả thuyết null không đồng nhất.

Vì vậy, chúng ta có thể kết luận rằng giá trị p không đáng tin cậy cho các thử nghiệm ngẫu nhiên và được kiểm soát đúng với kích thước mẫu nhỏ?

Mã R cho âm mưu đầu tiên

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

Mã R cho các lô 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

Tôi thấy mô tả của bạn về các điều kiện và vấn đề hơi khó hiểu lúc đầu. Loại I và loại II là các thuật ngữ kỹ thuật khác với cách sử dụng của bạn nhóm phụ type1 và nhóm phụ type2. Theo như tôi có thể nói với bạn là đang áp dụng thử nghiệm t cho dữ liệu từ một bản phân phối với hỗn hợp các phương tiện. Có đúng không?
Michael Lew

Vâng, một hỗn hợp của hai phân phối bình thường. "type1" dùng để chỉ N (0,1), type2 là N (mean2,1). Trong đó mean2 = (2,3,10 hoặc 100). Xin lỗi tôi có thể thay đổi nó thành typeA, typeB nếu bạn nghĩ rằng điều đó sẽ giúp?
Flask

Câu trả lời:


4

Bạn đúng khi chỉ ra những hạn chế của ngẫu nhiên hóa trong việc xử lý các biến gây nhiễu chưa biết đối với các mẫu rất nhỏ. Tuy nhiên, vấn đề không phải là các giá trị P không đáng tin cậy mà là ý nghĩa của chúng thay đổi theo kích thước mẫu và với mối quan hệ giữa các giả định của phương pháp và các thuộc tính thực tế của quần thể.

Tôi đánh giá kết quả của bạn là các giá trị P hoạt động khá tốt cho đến khi sự khác biệt trong nhóm con có nghĩa là lớn đến mức bất kỳ người thử nghiệm nhạy cảm nào cũng biết rằng có một vấn đề trước khi thực hiện thí nghiệm.

Ý tưởng rằng một thí nghiệm có thể được thực hiện và phân tích mà không tham chiếu đến sự hiểu biết đúng đắn về bản chất của dữ liệu bị nhầm lẫn. Trước khi phân tích một tập dữ liệu nhỏ, bạn phải biết đủ về dữ liệu để có thể tự tin bảo vệ các giả định tiềm ẩn trong phân tích. Kiến thức như vậy thường xuất phát từ các nghiên cứu trước sử dụng cùng một hệ thống hoặc tương tự, các nghiên cứu có thể là các công trình được công bố chính thức hoặc các thí nghiệm 'sơ bộ' không chính thức.


Tôi đồng ý với tất cả những gì bạn đã nói, tuy nhiên các bài kiểm tra t thường được thực hiện "theo nghi thức" như Gerd Gigerenzer sẽ đưa ra. Trong thực tế, những người thực hiện các bài kiểm tra này không có thời gian / thiên hướng để hiểu các sắc thái của những gì họ đang làm. Vì lý do đó tôi nghĩ tính từ "không đáng tin cậy" có thể là apt. Tôi biết các nhà nghiên cứu khi bạn hỏi về phân phối (có một mức cao hay điều gì gây ra thanh lỗi lớn đó không?) Chưa bao giờ nhìn vào nó.
Flask

1
Chà, giá trị P thực sự 'có nghĩa là' khác với những gì hầu hết mọi người giả định. Ngay cả nhiều bài báo chỉ trích giá trị P là 'không thể hòa giải được với bằng chứng' và những thứ tương tự cũng bị nhầm lẫn. Tôi đã tải lên một bài báo lên arXiv ngày hôm qua để khám phá các thuộc tính của giá trị P và cho thấy cách chúng liên quan đến loại bằng chứng mà các nhà thử nghiệm có thể sử dụng. Tiêu đề của nó là 'Đến P hoặc không với P: về bản chất chứng minh của các giá trị P và vị trí của chúng trong suy luận khoa học' và số đệ trình arXiv của nó là 826269. Nó sẽ có sẵn từ thứ Hai.
Michael Lew

Bạn có thể xem một câu hỏi này mà không có tình yêu vì lý do gì? . Tôi đồng ý rằng giá trị p là một cái gì đó và bài báo của bạn có thể giúp làm sáng tỏ điều đó, nhưng với tư cách là một nhà nghiên cứu, tôi phải làm rõ rằng đôi ủng trên mặt đất là chúng đã làm chúng tôi thất bại. Hoặc do sử dụng sai hoặc không phù hợp bẩm sinh, điều này là không rõ ràng. Tôi đã hỏi một loạt các câu hỏi ở đây để cố gắng có được quan điểm của các nhà thống kê về nó.
Flask

2

Trong nghiên cứu sinh thái, việc chỉ định phương pháp điều trị không hợp lý cho các đơn vị thí nghiệm (đối tượng) là thực hành tiêu chuẩn khi kích thước mẫu nhỏ và có bằng chứng về một hoặc nhiều biến gây nhiễu. Việc gán không ngẫu nhiên này "xen kẽ" các đối tượng trong toàn bộ các biến có thể gây nhiễu, đó chính xác là nhiệm vụ ngẫu nhiên được cho là phải làm. Nhưng ở kích thước mẫu nhỏ, ngẫu nhiên có nhiều khả năng thực hiện kém ở điều này (như đã trình bày ở trên) và do đó có thể là một ý tưởng tồi khi dựa vào nó.

Bởi vì ngẫu nhiên được ủng hộ rất mạnh mẽ trong hầu hết các lĩnh vực (và đúng như vậy), nên dễ quên rằng mục tiêu cuối cùng là giảm sự thiên vị hơn là tuân thủ ngẫu nhiên nghiêm ngặt. Tuy nhiên, các nhà nghiên cứu cần phải đặc trưng hóa bộ các biến gây nhiễu một cách hiệu quả và thực hiện nhiệm vụ không hợp lý theo cách có thể phòng thủ được, mù với kết quả thử nghiệm và sử dụng tất cả thông tin và bối cảnh có sẵn.

Để biết tóm tắt, xem trang 192-198 tại Hurlbert, Stuart H. 1984. Giả thuyết và thiết kế thí nghiệm hiện trường. Chuyên khảo sinh thái 54 (2) tr.187-211.


Tôi rất thích đọc nó, nhưng lo ngại rằng việc bạn sử dụng "thiên vị" trong đoạn áp chót có thể bị đọc sai bởi vì thuật ngữ đó có ý nghĩa thống kê cụ thể sẽ khiến cho tuyên bố của bạn không chính xác. Không phải bạn đang cố gắng nói rằng ngẫu nhiên hóa là nhằm ngăn chặn sự gây nhiễu (một dạng "thiên vị" theo nghĩa thông tục) chứ không phải làm giảm sự thiên vị (như một thước đo không chính xác của một người ước tính)?
whuber

Tôi đang đề cập đến sự thiên vị trong một ý nghĩa thống kê. Trong các số liệu thống kê, thiên vị Hồi giáo là sự khác biệt giữa một thống kê và tham số mà nó ước tính. Như bạn đã đề cập, độ lệch của công cụ ước tính là sự khác biệt giữa giá trị dự kiến ​​của công cụ ước tính và giá trị thực của tham số mà nó đang ước tính. Trong bài đăng của tôi, bởi khuynh hướng thiên vị
Darren James

Theo như tôi biết, lấy mẫu ngẫu nhiên không được sử dụng để giảm sai lệch, và trong nhiều trường hợp, nó có thể được xác nhận một cách hợp lệ rằng nó làm giảm sai lệch.
whuber

Bạn đang nhầm. Mục tiêu chính của ngẫu nhiên là mô phỏng hiệu quả của sự độc lập. Nó thực hiện điều này bằng cách loại bỏ những thành kiến ​​phát sinh thông qua việc chỉ định điều trị có hệ thống cho các đối tượng. Những sai lệch này tạo ra các ước tính không chính xác, quan trọng nhất, ước tính phương sai sai lệch và mất kiểm soát đối với lỗi Loại I và II. Ngay cả các biến gây nhiễu (thực sự gây ra sự thiếu độc lập) chỉ đơn giản là một trường hợp sai lệch biến bị bỏ qua. Nhưng bạn không cần phải tin lời tôi về điều này Nếu bạn không bị thuyết phục bởi bài báo Hurlburt ở trên, đây là một số tài nguyên khác để tham khảo:
Darren James

Cochran, WG và GM Cox. 1957. Thiết kế thí nghiệm. New York: Wiley. Federer, WT 1955. Thiết kế thử nghiệm. New York: Macmillan. Hinkelmann, K. và Kempthorne, O. 1994. Thiết kế và phân tích thí nghiệm. Wiley: New York. Kuehl, RO 2000. Thiết kế thí nghiệm: Nguyên tắc thống kê của thiết kế và phân tích nghiên cứu. Belmont, CA: Brooks / Cole.
Darren James
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.