Làm thế nào người ta nên giải thích việc so sánh các phương tiện từ các cỡ mẫu khác nhau?

Lấy trường hợp xếp hạng sách trên một trang web. Sách A được đánh giá bởi 10.000 người với trung bình đánh giá của 4,25 và phương sai . Tương tự như vậy Book B được đánh giá bởi 100 người và có một đánh giá của 4,5 với . $\sigma = 0.5$ $\sigma = 0.25$

Bây giờ vì kích thước mẫu lớn của Sách A, 'có nghĩa là ổn định' đến 4,25. Bây giờ đối với 100 người, có thể là nếu nhiều người đọc Sách B, xếp hạng trung bình có thể giảm xuống 4 hoặc 4,25.

Làm thế nào người ta nên giải thích việc so sánh các phương tiện từ các mẫu khác nhau và những kết luận tốt nhất mà người ta có thể / nên rút ra là gì?

Ví dụ: chúng ta thực sự có thể nói Sách B tốt hơn Sách A.

t-test mean sample-size

— Bằng tiến sĩ
nguồn

Bạn có đặc biệt quan tâm đến bối cảnh đánh giá?

— Jeromy Anglim

@JeromyAnglim - Hmmm ... có lẽ. Không chắc. Đó là ví dụ phổ biến nhất. Bạn đã nghĩ gì vậy?

— Tiến sĩ

Xem câu trả lời của tôi về hệ thống xếp hạng Bayes dưới đây. Các bối cảnh xếp hạng được áp dụng thường có hàng trăm hoặc hàng ngàn đối tượng được xếp hạng và mục đích thường là hình thành ước tính tốt nhất về xếp hạng cho đối tượng được cung cấp thông tin có sẵn. Điều này rất khác so với so sánh hai nhóm đơn giản như bạn có thể thấy trong một thí nghiệm y tế với hai nhóm.

— Jeromy Anglim

Câu trả lời:

$N$ $n$

Để làm rõ quan điểm của tôi về sức mạnh, đây là một mô phỏng rất đơn giản được viết cho R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

$N=100$ $n_1=50$ $n_2=50$ $n_1=75$ $n_2=25$ $n_1=90$ $n_2=10$ . Lưu ý thêm rằng quá trình tạo dữ liệu / chênh lệch trung bình được chuẩn hóa là giống nhau trong mọi trường hợp. Tuy nhiên, trong khi thử nghiệm là 'đáng kể' 70% thời gian cho mẫu 50-50, công suất là 56% với 75-25 và chỉ 33% khi kích thước nhóm là 90-10.

Tôi nghĩ về điều này bằng cách tương tự. Nếu bạn muốn biết diện tích của một hình chữ nhật và chu vi là cố định, thì diện tích đó sẽ được tối đa hóa nếu chiều dài và chiều rộng bằng nhau (nghĩa là, nếu hình chữ nhật là một hình vuông ). Mặt khác, khi chiều dài và chiều rộng phân kỳ (khi hình chữ nhật trở nên dài ra), diện tích co lại.

— gung - Phục hồi Monica
nguồn

sức mạnh được tối đa hóa ?? Tôi không chắc là tôi hiểu. Bạn có thể vui lòng cung cấp một ví dụ nếu có thể?

— Tiến sĩ

Lý do thử nghiệm t có thể xử lý các cỡ mẫu không bằng nhau là vì nó tính đến sai số chuẩn của các ước tính về phương tiện cho mỗi nhóm. Đó là độ lệch chuẩn của phân phối của nhóm chia cho căn bậc hai của cỡ mẫu của nhóm. Goup với cỡ mẫu lớn hơn nhiều sẽ có sai số chuẩn nhỏ hơn nếu độ lệch chuẩn dân số bằng bith bằng hoặc gần như vậy.

— Michael Chernick

@gung - Tôi không chắc là tôi thực sự biết "ngôn ngữ" mô phỏng này được viết. Tôi đang đoán 'R'? và tôi vẫn đang cố giải mã nó :)

— Tiến sĩ

Mã này là dành cho R. Tôi đã nhận xét nó để làm cho nó dễ theo dõi hơn. Bạn chỉ có thể sao chép và dán nó vào R và tự chạy nó, nếu bạn có R; các set.seed()chức năng sẽ đảm bảo bạn sẽ có được kết quả giống hệt nhau. Hãy cho tôi biết nếu nó vẫn còn quá khó để theo dõi.

— gung - Phục hồi Monica

N = n_{1} + n_{2}

$N=n_1+n_2$

n_{1} \times n_{2}

$n_1\times n_2$

n_{1} n_{2}

$n_1n_2$

Ngoài câu trả lời được đề cập bởi @gung giới thiệu bạn đến bài kiểm tra t, có vẻ như bạn có thể quan tâm đến các hệ thống xếp hạng Bayes (ví dụ: đây là một cuộc thảo luận ). Các trang web có thể sử dụng các hệ thống như vậy để xếp hạng các mục đặt hàng khác nhau về số lượng phiếu nhận được. Về cơ bản, các hệ thống như vậy hoạt động bằng cách chỉ định xếp hạng là tổng hợp của xếp hạng trung bình của tất cả các mục cộng với giá trị trung bình của mẫu xếp hạng cho đối tượng cụ thể. Khi số lượng xếp hạng tăng, trọng số được gán cho giá trị trung bình của đối tượng tăng và trọng số được gán cho xếp hạng trung bình của tất cả các mục giảm. Có lẽ kiểm tra trung bình bayesian .

Tất nhiên mọi thứ có thể trở nên phức tạp hơn rất nhiều khi bạn giải quyết một loạt các vấn đề như gian lận bầu cử, thay đổi theo thời gian, v.v.

— Giật mình Anglim
nguồn

Ngọt. Chưa bao giờ nghe về nó. Tôi chắc chắn sẽ xem xét nó. Có lẽ đó là những gì tôi theo đuổi, sau tất cả :)

— Tiến sĩ