kiểm tra t trên dữ liệu sai lệch


18

Tôi có một bộ dữ liệu với hàng chục ngàn quan sát về dữ liệu chi phí y tế. Dữ liệu này rất lệch về bên phải và có rất nhiều số không. Dường như thế này cho hai nhóm người (trong trường hợp này là hai nhóm tuổi với> 3000 obs mỗi người):

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

Nếu tôi thực hiện kiểm tra t của Welch trên dữ liệu này, tôi sẽ nhận được kết quả:

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

Tôi biết nó không đúng khi sử dụng kiểm tra t trên dữ liệu này vì nó rất không bình thường. Tuy nhiên, nếu tôi sử dụng thử nghiệm hoán vị cho sự khác biệt của phương tiện, tôi sẽ nhận được gần như cùng một giá trị p mọi lúc (và nó trở nên gần hơn với nhiều lần lặp hơn).

Sử dụng gói perm trong R và permTS với Monte Carlo chính xác

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

Tại sao thống kê kiểm tra hoán vị xuất hiện rất gần với giá trị t.test? Nếu tôi lấy nhật ký của dữ liệu thì tôi nhận được giá trị p t.test là 0,28 và tương tự từ phép thử hoán vị. Tôi nghĩ rằng các giá trị kiểm tra t sẽ có nhiều rác hơn những gì tôi đang ở đây. Điều này đúng với nhiều bộ dữ liệu khác mà tôi có như thế này và đang tự hỏi tại sao thử nghiệm t dường như hoạt động khi không nên.

Mối quan tâm của tôi ở đây là chi phí cá nhân không phải là iid Có nhiều nhóm người với sự phân bổ chi phí rất khác nhau (phụ nữ so với nam giới, bệnh mãn tính, v.v.) dường như làm hỏng yêu cầu iid đối với định lý giới hạn trung tâm, hoặc tôi không nên lo lắng về điều đó?


Làm thế nào để xảy ra rằng cả giá trị tối thiểu trung bình của dữ liệu của bạn bằng không?
Alecos Papadopoulos

Hơn một nửa giá trị bằng 0, cho thấy một nửa số người không được chăm sóc y tế trong năm đó.
Chris

Và tại sao bạn nghĩ rằng bài kiểm tra hoán vị nên khác nhau? (nếu cả hai nhóm có phân phối không bình thường tương tự nhau)
FairMiles

Hãy nhớ rằng iid là hai giả định riêng biệt. Đầu tiên là "độc lập". Thứ hai là "phân phối giống hệt". Bạn dường như đang đề xuất rằng các quan sát không phải là 'phân phối giống hệt nhau'. Điều này sẽ không ảnh hưởng đến các câu trả lời được cung cấp cho đến nay, vì chúng ta vẫn có thể cho rằng tất cả các quan sát là từ một hỗn hợp phân phối lớn. Nhưng nếu bạn nghĩ rằng các quan sát không độc lập, thì đó là một vấn đề khác biệt và có khả năng khó khăn hơn nhiều.
zkurtz

Câu trả lời:


29

Cả thử nghiệm t và thử nghiệm hoán vị đều không có nhiều sức mạnh để xác định sự khác biệt về phương tiện giữa hai phân phối sai lệch như vậy. Do đó, cả hai đều đưa ra các giá trị p anodyne cho thấy không có ý nghĩa gì cả. Vấn đề không phải là họ có vẻ đồng ý; đó là bởi vì họ có một thời gian khó khăn để phát hiện bất kỳ sự khác biệt nào, họ chỉ đơn giản là không thể không đồng ý!


Đối với một số trực giác, hãy xem xét những gì sẽ xảy ra nếu một sự thay đổi trong một đơn giá trị xảy ra trong một tập dữ liệu. Ví dụ, giả sử rằng tối đa 721.700 đã không xảy ra trong tập dữ liệu thứ hai. Giá trị trung bình sẽ giảm khoảng 721700/3000, tức là khoảng 240. Tuy nhiên, sự khác biệt về phương tiện chỉ là 4964-4536 = 438, thậm chí không lớn gấp đôi. Điều đó cho thấy (mặc dù nó không chứng minh) rằng mọi so sánh về phương tiện sẽ không tìm thấy sự khác biệt đáng kể.

Tuy nhiên, chúng tôi có thể xác minh rằng thử nghiệm t không được áp dụng. Hãy tạo một số bộ dữ liệu có các đặc điểm thống kê giống như chúng. Để làm như vậy tôi đã tạo ra hỗn hợp trong đó

  • 5/số 8 dữ liệu là số không trong mọi trường hợp.
  • Các dữ liệu còn lại có một phân phối logic.
  • Các tham số của phân phối đó được sắp xếp để tái tạo các phương tiện quan sát được và các phần tư thứ ba.

Hóa ra trong các mô phỏng này, các giá trị tối đa cũng không nằm xa cực đại được báo cáo.

Hãy sao chép bộ dữ liệu đầu tiên 10.000 lần và theo dõi ý nghĩa của nó. (Kết quả sẽ gần như giống nhau khi chúng tôi thực hiện điều này cho tập dữ liệu thứ hai.) Biểu đồ của các phương tiện này ước tính phân phối lấy mẫu của giá trị trung bình. Thử nghiệm t có hiệu lực khi phân phối này xấp xỉ Bình thường; mức độ mà nó đi chệch khỏi Quy tắc cho thấy mức độ phân phối của Học sinh sẽ sai. Vì vậy, để tham khảo, tôi cũng đã vẽ (màu đỏ) bản PDF của bản phân phối Bình thường phù hợp với các kết quả này.

Biểu đồ 1

Chúng ta không thể thấy nhiều chi tiết bởi vì có một số ngoại lệ lớn. (Đó là biểu hiện của sự nhạy cảm này của các phương tiện tôi đã đề cập.) Có 123 trong số đó - 1,23% - trên 10.000. Chúng ta hãy tập trung vào phần còn lại để chúng ta có thể xem chi tiết và bởi vì các ngoại lệ này có thể xuất phát từ tính lognormality giả định của phân phối, điều này không nhất thiết là trường hợp của bộ dữ liệu gốc.

Biểu đồ 2

Điều đó vẫn bị sai lệch mạnh mẽ và sai lệch rõ ràng so với xấp xỉ Bình thường, cung cấp giải thích đầy đủ cho các hiện tượng được kể lại trong câu hỏi. Nó cũng cho chúng ta cảm nhận về sự khác biệt lớn về phương tiện có thể được phát hiện bằng một thử nghiệm: nó sẽ phải ở khoảng 3000 trở lên để xuất hiện đáng kể. Ngược lại, sự khác biệt thực tế của 428 có thể được phát hiện với điều kiện bạn có khoảng lần số lượng dữ liệu (trong mỗi nhóm). (3000/428)2= =50 Cho số lượng dữ liệu gấp 50 lần, tôi ước tính khả năng phát hiện sự khác biệt này ở mức ý nghĩa 5% sẽ vào khoảng 0,4 (điều này không tốt, nhưng ít nhất bạn sẽ có cơ hội).


Đây là Rmã đã tạo ra những số liệu này.

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level

1
Để biết ví dụ về bộ dữ liệu sai lệch cao, tuy nhiên thể áp dụng thử nghiệm t (vì số lượng dữ liệu lớn), vui lòng xem stats.stackexchange.com/questions/110418/ . Hai trường hợp này cho thấy không có câu trả lời khô khan cho câu hỏi: bạn phải xem xét cả việc phân phối dữ liệu và lượng dữ liệu khi quyết định liệu thử nghiệm t sẽ có ý nghĩa và chính xác hay không.
whuber

3
Tôi đã đặt ra câu hỏi này với hy vọng có thể tìm lại được câu hỏi đó khi đối mặt với những người nghĩ rằng n = 30 hoặc n = 300 là đủ để tiếp tục và cho rằng phương tiện mẫu được phân phối bình thường (v.v.). Tôi có các ví dụ mô phỏng tốt nhưng thật tuyệt khi thấy đây là một vấn đề với dữ liệu thực.
Glen_b -Reinstate Monica

1
+1, nhưng tôi tự hỏi đề xuất thực tế của bạn sẽ là gì trong tình huống như vậy. Có nên thử sử dụng một phép thử hoán vị dựa trên một số thống kê khác thay vì giá trị trung bình (có lẽ là một số lượng lớn)? Có nên thử áp dụng một số biến đổi trước khi chạy thử nghiệm tiêu chuẩn trên phương tiện? Hay người ta nên từ bỏ bất kỳ hy vọng phát hiện sự khác biệt đáng kể giữa hai mẫu?
amip nói phục hồi Monica

@amoeba Nếu mối quan tâm là kiểm tra sự khác biệt về phương tiện, thì kiểm tra hoán vị sẽ không có ích gì: bạn sẽ không tìm thấy một sự khác biệt đáng kể nào ở đây. Nếu bạn kiểm tra một số thống kê khác, thì bạn không kiểm tra giá trị trung bình (đặc biệt phù hợp với dữ liệu chi phí!), Vì vậy liệu điều đó có thể được đề xuất hay không phụ thuộc vào mục tiêu.
whuber

4

Khi n lớn (như 300, thậm chí nhỏ hơn 3000), kiểm tra t về cơ bản giống như kiểm tra z. Đó là, phép thử t trở thành không có gì khác hơn là một ứng dụng của định lý giới hạn trung tâm, nói rằng MEAN cho mỗi hai nhóm của bạn được phân phối gần như chính xác (ngay cả khi các quan sát bên dưới hai phương tiện rất xa so với bình thường phân phối!). Đây cũng là lý do mà bảng t điển hình của bạn không bận tâm để hiển thị các giá trị cho n lớn hơn 1000 (ví dụ: bảng t này) . Vì vậy, tôi không ngạc nhiên khi thấy rằng bạn đang nhận được kết quả tốt như vậy.

Chỉnh sửa: Tôi dường như đã đánh giá thấp sự cực đoan của sự sai lệch và tầm quan trọng của nó. Trong khi quan điểm của tôi ở trên có công đức trong những hoàn cảnh ít cực đoan, whuber 's câu trả lời cho câu hỏi là nhiều hơn tổng thể.


2
Khi độ lệch là cực lớn - như chứng thực thống kê được trích dẫn - chúng tôi không đảm bảo rằng phân phối lấy mẫu của giá trị trung bình của 300 hoặc thậm chí 3000 mẫu sẽ ở bất kỳ đâu gần Bình thường. Đó là lý do tại sao OP ngạc nhiên. Bạn phản đối rằng bằng cách nói rằng bạn không ngạc nhiên, nhưng điều đó dường như đi xuống trực giác của một người so với người khác. Có gì khách quan đối số bạn có thể cung cấp cho các dữ liệu chứng minh rằng 300 (hoặc 3000) là một mẫu đủ lớn cho t-test để làm việc tốt?
whuber

Điểm tuyệt vời. Tôi thừa nhận, nếu dữ liệu bị sai lệch đủ, đối số của tôi thất bại. Vì vậy, câu hỏi đối với tôi là, chính xác mức độ sai lệch của dữ liệu và có một kết quả chính thức ngoài kia liên quan đến độ lệch đối với kích thước mẫu được yêu cầu.
zkurtz

1
Tôi đã đăng một câu trả lời cho câu hỏi đó. Chúng tôi biết (ít nhất là xấp xỉ) mức độ sai lệch của dữ liệu dựa trên số liệu thống kê tóm tắt trong câu hỏi. Độ lệch đó mạnh đến mức không phải 300, cũng không phải 3000, thậm chí 30.000 quan sát mỗi nhóm sẽ làm cho phân phối lấy mẫu của giá trị trung bình "gần như chính xác bình thường". Bạn có thể cần khoảng 300.000 hoặc hơn trước khi yêu cầu đó trở nên hợp lý. Vì vậy, chúng ta phải tìm kiếm một lời giải thích khác nhau về lý do tại sao hai bài kiểm tra đồng ý. Của tôi là không "cư xử tốt" hơn là cả hai đều cư xử tốt.
whuber

0

Tôi biết câu trả lời này là cách muộn. Tuy nhiên, tôi đang nhận bằng tiến sĩ về nghiên cứu dịch vụ y tế, vì vậy tôi làm việc với dữ liệu chăm sóc sức khỏe rất nhiều, bao gồm cả dữ liệu chi phí.

Tôi không biết OP có dữ liệu gì. Nếu đó là dữ liệu cắt ngang, thì rất có thể đó là IID. Độc lập có nghĩa là mỗi đơn vị, vì vậy mỗi người, là độc lập. Điều đó rất có khả năng chính đáng. Đối với phân phối giống hệt nhau, dữ liệu có thể được mô hình hóa như tất cả đến từ, giả sử, phân phối gamma trong mô hình tuyến tính tổng quát với liên kết nhật ký. Đây là những gì mọi người thường làm trong thực tế. Hoặc nếu bạn muốn có được sự ưa thích, có thể có các mô hình rào cản (phổ biến trong toán kinh tế lượng) xử lý các số 0 thừa. Nhân tiện, điều này khá phổ biến trong chi tiêu chăm sóc sức khỏe. OP đúng về mặt kỹ thuật rằng dữ liệu không nhất thiết phải được phân phối chính xác, ví dụ: giá trị trung bình và phương sai sẽ thay đổi theo tuổi, nhưng đó là một giả định khả thi trong nhiều mô hình hồi quy.

Nếu mỗi người nằm trong bộ dữ liệu trong hơn một năm, thì dữ liệu sẽ không phải là IID. Có nhiều mô hình phức tạp hơn cho điều đó. Một trong những tương đối đơn giản có thể sẽ được khái quát hóa các phương trình ước tính, phân phối gamma và liên kết nhật ký một lần nữa, giả sử một mối tương quan làm việc có thể trao đổi. Hoặc, nếu những dữ liệu này là từ dữ liệu khảo sát có sẵn công khai, thì KHÔNG có xác suất được lấy mẫu bằng nhau - nhiều cuộc khảo sát đã phỏng vấn nhiều người trong mỗi hộ gia đình, và họ cũng phân tầng dân số và chồng chéo một số nhóm (ví dụ như nhóm thiểu số). Người dùng sẽ phải sửa cho điều đó.

Tôi không sử dụng các bài kiểm tra t, đặc biệt là không cho dữ liệu quan sát. Có quá nhiều yếu tố gây nhiễu, vì vậy bạn sẽ muốn điều chỉnh chúng theo mô hình tuyến tính (tổng quát). Vì vậy, tôi không thể nhận xét về các câu hỏi liên quan cụ thể đến bài kiểm tra t.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.