Phải làm gì khi phương tiện của hai mẫu khác nhau đáng kể nhưng sự khác biệt dường như quá nhỏ


13

Tôi có hai mẫu ( n70 trong cả hai trường hợp). Các phương tiện khác nhau khoảng hai lần std gộp. nhà phát triển Giá trị kết quả Txấp xỉ 10. Trong khi thật tuyệt khi biết rằng tôi đã kết luận một cách thuyết phục rằng các phương tiện không giống nhau, điều này dường như đối với tôi được điều khiển bởi n lớn. Nhìn vào biểu đồ của dữ liệu tôi chắc chắn không cảm thấy rằng giá trị p nhỏ thực sự là đại diện cho dữ liệu và thành thật mà nói không thực sự cảm thấy thoải mái khi trích dẫn nó. Có lẽ tôi đang hỏi sai câu hỏi. Điều tôi đang nghĩ là: ok, các phương tiện khác nhau nhưng điều đó có thực sự quan trọng không khi các bản phân phối có sự chồng chéo đáng kể?

Đây có phải là nơi thử nghiệm Bayes hữu ích? Nếu vậy nơi nào là một nơi tốt để bắt đầu, một chút googling đã không mang lại bất cứ điều gì hữu ích nhưng tôi có thể không bằng cách hỏi đúng câu hỏi. Nếu đây là điều sai có ai có bất cứ đề nghị? Hay đây chỉ đơn giản là một điểm để thảo luận trái ngược với phân tích định lượng?


Tôi chỉ muốn thêm vào tất cả các câu trả lời khác rằng tuyên bố đầu tiên của bạn là sai: bạn KHÔNG được kết luận một cách thuyết phục rằng các phương tiện là khác nhau . P-giá trị Một t-test được nói cho bạn cho dù khả năng quan sát dữ liệu của bạn hoặc các giá trị cực đoan hơn của nó là khả năng / không đưa ra giả thuyết (mà cho t-test là , tức là H 0 : {"Các phương tiện bằng nhau"}), điều đó không có nghĩa là trên thực tế, các phương tiện khác nhau . Ngoài ra, tôi giả sử rằng bạn cũng đã thực hiện kiểm tra F để kiểm tra sự bằng nhau của các phương sai trước khi thực hiện kiểm tra phương sai gộp, phải không? μA=μBH0
Néstor

Câu hỏi của bạn rất hay vì nó mang đến một sự khác biệt quan trọng và nó cho thấy rằng bạn thực sự đang nghĩ về dữ liệu của mình thay vì tìm kiếm một số ngôi sao trên đầu ra thống kê và tuyên bố bạn đã hoàn thành. Như nhiều câu trả lời chỉ ra, ý nghĩa thống kê không giống như ý nghĩa . Và khi bạn nghĩ về nó, họ không thể: làm thế nào một quy trình thống kê sẽ biết rằng sự khác biệt có ý nghĩa thống kê là 0,01 có nghĩa là một cái gì đó trong Trường A, nhưng lại vô cùng nhỏ trong Trường B?
Wayne

Đủ công bằng, ngôn ngữ không được chú ý nhưng khi giá trị p giống như giá trị tôi nhận được, tôi có xu hướng không quá cầu kỳ về các từ. Tôi đã làm một bài kiểm tra F (và một cốt truyện QQ). Nó đủ gần với nhạc jazz, như họ nói.
Bowler

1
FWIW, nếu phương tiện của bạn cách nhau 2 SD, đó có vẻ là một sự khác biệt khá lớn đối với tôi. Tất nhiên, nó sẽ phụ thuộc vào lĩnh vực của bạn, nhưng đó là sự khác biệt mà mọi người sẽ dễ dàng nhận thấy bằng mắt thường (ví dụ: chiều cao trung bình của đàn ông và phụ nữ Hoa Kỳ ở độ tuổi 20-29 khác nhau khoảng 1,5 SD.) IMO, nếu phân phối không Hoàn toàn không trùng lặp, bạn thực sự không cần phải thực hiện bất kỳ phân tích dữ liệu nào; ở mức tối thiểu, w / nhỏ bằng 6, p sẽ là <0,05 nếu các bản phân phối không trùng nhau. Np
gung - Phục hồi Monica

Tôi đồng ý sự khác biệt là lớn mặc dù hoàn toàn không thể thay đổi khi nó bật ra.
Bowler

Câu trả lời:


12

Hãy biểu thị giá trị trung bình của dân số đầu tiên và μ 2 biểu thị giá trị trung bình của dân số thứ hai. Có vẻ như bạn đã sử dụng một hai mẫu t -test để kiểm tra xem μ 1 = μ 2 . Kết quả quan trọng ngụ ý rằngμ1μ2tμ1=μ2 , nhưng sự khác biệt có vẻ là để nhỏ để quan trọng cho các ứng dụng của bạn.μ1μ2

Những gì bạn đã gặp là thực tế là thường có ý nghĩa thống kê có thể là một cái gì đó khác hơn là có ý nghĩa đối với ứng dụng . Mặc dù sự khác biệt có thể có ý nghĩa thống kê nhưng nó vẫn có thể không có ý nghĩa .

Thử nghiệm Bayes sẽ không giải quyết được vấn đề đó - bạn vẫn sẽ kết luận rằng có một sự khác biệt tồn tại.

Tuy nhiên, có thể có một lối thoát. Chẳng hạn, đối với giả thuyết một phía, bạn có thể quyết định rằng nếu μ1 đơn vị lớn hơn μ 2 thì đó sẽ là một sự khác biệt có ý nghĩa đủ lớn để quan trọng cho ứng dụng của bạn.Δμ2

Trong trường hợp đó bạn sẽ kiểm tra xem thay vì cho dù μ 1 - μ 2 = 0 . Các t -statistic (giả sử chênh lệch tương đương) sẽ trong trường hợp đó là T = ˉ x 1 - ˉ xμ1μ2Δμ1μ2=0t trong đósplà ước tính độ lệch chuẩn gộp. Theo giả thuyết null, thống kê này làt-distributed vớin1+

T=x¯1x¯2Δsp1/n1+1/n2
spt bậc tự do.n1+n22

Một cách dễ dàng để thực hiện thử nghiệm này là để trừ từ những quan sát của bạn từ dân số đầu tiên và sau đó thực hiện thường xuyên một đứng về phía hai mẫu t -test.Δt


8

Nó là hợp lệ để so sánh một số cách tiếp cận, nhưng không phải với mục đích chọn một phương pháp ủng hộ mong muốn / tin tưởng của chúng tôi.

Câu trả lời của tôi cho câu hỏi của bạn là: Có thể hai phân phối trùng nhau trong khi chúng có các phương tiện khác nhau, dường như là trường hợp của bạn (nhưng chúng tôi sẽ cần xem dữ liệu và ngữ cảnh của bạn để cung cấp câu trả lời chính xác hơn).

Tôi sẽ minh họa điều này bằng cách sử dụng một vài cách tiếp cận để so sánh các phương tiện thông thường .

1. testt

Xem xét hai mẫu mô phỏng có kích thước từ N ( 10 , 1 )N ( 12 , 1 ) , sau đó giá trị t xấp xỉ 10 như trong trường hợp của bạn (Xem mã R bên dưới).70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Tuy nhiên, mật độ cho thấy sự chồng chéo đáng kể. Nhưng hãy nhớ rằng bạn đang thử nghiệm một giả thuyết về các phương tiện, mà trong trường hợp này rõ ràng là khác nhau nhưng do giá trị của , có sự chồng chéo của mật độ.σ

nhập mô tả hình ảnh ở đây

2. Khả năng hồ sơ của μ

Để biết định nghĩa về khả năng và khả năng của Hồ sơ, vui lòng xem 12 .

μnx¯Rp(μ)= =điểm kinh nghiệm[-n(x¯-μ)2] .

Đối với dữ liệu mô phỏng, chúng có thể được tính bằng R như sau

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2 không trùng nhau ở bất kỳ mức hợp lý nào.

μ sử dụng Jeffreys trước

(μ,σ)

π(μ,σ)1σ2

μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Một lần nữa, khoảng tin cậy cho các phương tiện không chồng chéo ở bất kỳ mức hợp lý nào.

Tóm lại, bạn có thể thấy tất cả các cách tiếp cận này cho thấy sự khác biệt đáng kể của phương tiện (là lợi ích chính), mặc dù sự chồng chéo của các bản phân phối.

Một cách tiếp cận khác nhau so sánh

P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Tôi hi vọng cái này giúp được.


2
(+1) Cảm ơn bạn đã trả lời thực sự hữu ích về các phương pháp Baysian. Ngoài ra, liên kết P (X <Y) trả lời một vấn đề khác mà tôi đã tự hỏi trong cùng một phân tích.
Bowler

7

Trả lời đúng câu hỏi

ok, các phương tiện là khác nhau nhưng điều đó thực sự quan trọng khi các bản phân phối chia sẻ một sự chồng chéo đáng kể?

Bất kỳ bài kiểm tra nào hỏi liệu phương tiện nhóm có khác nhau không, khi nó hoạt động đúng, sẽ cho bạn biết liệu phương tiện có khác nhau không. Nó sẽ không cho bạn biết rằng bản phân phối dữ liệu là khác nhau, vì đó là một câu hỏi khác nhau. Câu hỏi đó chắc chắn phụ thuộc vào việc các phương tiện có khác nhau hay không mà còn phụ thuộc vào nhiều thứ khác có thể (không đầy đủ) được tóm tắt là phương sai, sai lệch và kurtosis.

Bạn lưu ý chính xác rằng sự chắc chắn về nơi phương tiện phụ thuộc vào lượng dữ liệu bạn phải ước tính chúng, do đó, việc có nhiều dữ liệu hơn sẽ cho phép bạn phát hiện ra sự khác biệt trung bình trong các phân phối gần như chồng chéo. Nhưng bạn tự hỏi liệu

chẳng hạn như giá trị p nhỏ thực sự là đại diện của dữ liệu

Quả thực là không, ít nhất là không trực tiếp. Và đây là do thiết kế. Đó là đại diện (nói gần đúng) về sự chắc chắn mà bạn có thể có rằng một cặp thống kê mẫu cụ thể của dữ liệu (không phải chính dữ liệu) là khác nhau.

Nếu bạn muốn thể hiện dữ liệu theo cách chính thức hơn là chỉ hiển thị biểu đồ và khoảnh khắc thử nghiệm của dữ liệu đó, thì có lẽ một cặp lô mật độ có thể hữu ích. Nó thực sự phụ thuộc vào đối số bạn đang sử dụng thử nghiệm để thực hiện.

Một phiên bản Bayes

Trong tất cả các khía cạnh này, sự khác biệt của Bayes, 'các bài kiểm tra' và các bài kiểm tra T sẽ hành xử theo cùng một cách vì họ đang cố gắng làm điều tương tự. Những lợi thế duy nhất tôi có thể nghĩ đến khi sử dụng phương pháp Bayes là: a) sẽ dễ dàng thực hiện thử nghiệm cho phép các phương sai khác nhau có thể có cho mỗi nhóm và b) rằng nó sẽ tập trung vào ước tính kích thước có thể xảy ra của phương tiện thay vì tìm giá trị p cho một số thử nghiệm về sự khác biệt. Điều đó nói rằng, những lợi thế này là khá nhỏ: ví dụ như trong b) bạn luôn có thể báo cáo khoảng tin cậy cho sự khác biệt.

Các dấu ngoặc kép ở trên 'bài kiểm tra' là có chủ ý. Chắc chắn có thể làm thử nghiệm giả thuyết Bayes, và mọi người làm. Tuy nhiên, tôi sẽ đề xuất rằng lợi thế so sánh của phương pháp này là tập trung vào việc xây dựng một mô hình hợp lý của dữ liệu và truyền đạt các khía cạnh quan trọng của nó với mức độ không chắc chắn thích hợp.


3

Trước hết, đây không phải là vấn đề cần kiểm tra thường xuyên. Vấn đề nằm ở giả thuyết null rằng các phương tiện hoàn toàn bằng nhau. Do đó, nếu các quần thể khác nhau về phương tiện bởi một lượng nhỏ và kích thước mẫu đủ lớn thì cơ hội bác bỏ giả thuyết khống này là rất cao. Do đó, giá trị p cho bài kiểm tra của bạn hóa ra rất nhỏ. Thủ phạm là sự lựa chọn của giả thuyết null. Chọn d> 0 và lấy giả thuyết null là phương tiện khác nhau ít hơn d trong giá trị tuyệt đối nhỏ hơn d. Bạn chọn d để sự khác biệt thực sự phải lớn một cách thỏa đáng để từ chối. Vấn đề của bạn biến mất. Thử nghiệm Bayes không giải quyết được vấn đề của bạn nếu bạn nhấn mạnh vào một giả thuyết khống về sự bình đẳng chính xác của phương tiện.


Tôi đã viết câu trả lời của mình cùng lúc với hai người kia.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.