Phương sai của thống kê


12

Cohen's là một trong những cách phổ biến nhất mà chúng tôi đo kích thước của hiệu ứng ( xem Wikipedia ). Nó chỉ đơn giản là đo khoảng cách giữa hai phương tiện theo độ lệch chuẩn gộp. Làm thế nào chúng ta có thể rút ra công thức toán học ước tính phương sai của Cohen ? dd

Chỉnh sửa tháng 12 năm 2015: Liên quan đến câu hỏi này là ý tưởng tính khoảng tin cậy xung quanh . Bài viết này nói rằngd

σd2=n+n×+d22n+

Trong đó là tổng của hai cỡ mẫu và là sản phẩm của hai cỡ mẫu. n ×n+n×

Công thức này có nguồn gốc như thế nào?


@Clarinetist: Việc chỉnh sửa câu hỏi của người khác để thêm nhiều chất hơn và nhiều câu hỏi hơn vào đó là điều gây tranh cãi (trái ngược với việc cải thiện từ ngữ). Tôi đã tự do phê duyệt bản chỉnh sửa của bạn (cho rằng bạn đã đặt tiền thưởng hào phóng và tôi nghĩ rằng bản chỉnh sửa của bạn đã cải thiện câu hỏi), nhưng những người khác có thể quyết định quay lại.
amip nói phục hồi Monica

1
@amoeba Không vấn đề gì. Chừng nào công thức là có cho σd2 (mà không có trước đó) và rõ ràng là chúng ta đang tìm kiếm một nguồn gốc toán học của công thức, mà mỹ nhân.
Clarinetist

Tôi nghĩ mẫu số của phân số thứ hai phải là 2(n+2) . Xem câu trả lời của tôi dưới đây.

Câu trả lời:


15

Lưu ý rằng biểu thức phương sai trong câu hỏi là một xấp xỉ. Hedges (1981) đã đưa ra phương sai mẫu lớn của d và xấp xỉ trong một thiết lập chung (nghĩa là nhiều thí nghiệm / nghiên cứu), và câu trả lời của tôi khá nhiều khi đi qua các dẫn xuất trong bài báo.

Đầu tiên, các giả định chúng ta sẽ sử dụng như sau:

Giả sử chúng ta có hai nhóm điều trị độc lập là (điều trị) và C (đối chứng). Hãy Y T iY C j là điểm / phản ứng / bất cứ điều gì từ đối tượng i trong nhóm T và chủ đề j trong nhóm C , tương ứng.TCYTiYCjiTjC

Chúng tôi giả định rằng các phản ứng thường được phân phối và các nhóm điều trị và kiểm soát có chung một phương sai, nghĩa là

YTiN(μT,σ2),i=1,nTYCjN(μC,σ2),j=1,nC

Kích thước ảnh hưởng chúng ta đang quan tâm đến việc lập dự toán trong mỗi nghiên cứu là . Ước tính kích thước hiệu lực thi hành, chúng tôi sẽ sử dụng được d= ˉ Y T- ˉ Y Cδ=μTμCσ trong đóS2klà phương sai mẫu không thiên vị cho nhómk.

d=Y¯TY¯C(nT1)ST2+(nC1)SC2nT+nC2
Sk2k

Hãy xem xét các thuộc tính mẫu lớn của . d

Đầu tiên, lưu ý rằng: và (lỏng lẻo với ký hiệu của tôi): ( n T - 1 ) S 2 T

Y¯TY¯CN(μTμC,σ2nT+nCnTnC)
(nC-1)S 2 C
(1)(nT1)ST2σ2(nT+nC2)=1nT+nC2(nT1)ST2σ21nT+nC2χnT12
(2)(nC1)SC2σ2(nT+nC2)=1nT+nC2(nC1)SC2σ21nT+nC2χnC12

Phương trình (1) và (2) dẫn đến thực tế là (một lần nữa, lỏng lẻo với ký hiệu của tôi):

1σ2(nT1)ST2+(nC1)SC2nT+nC21nT+nC2χnT+nC22

d=Y¯TY¯C(nT1)ST2+(nC1)SC2nT+nC2=(σnT+nCnTnC)1(Y¯TY¯C)(σnT+nCnTnC)1(nT1)ST2+(nC1)SC2nT+nC2=(Y¯TY¯C)(μTμC)σnT+nCnTnC+μTμCσnT+nCnTnC(nT+nCnTnC)1(nT1)ST2+(nC1)SC2σ2(nT+nC2)=nT+nCnTnC(θ+δnTnCnT+nCVν)
where θN(0,1), Vχν2, and ν=nT+nC2. Thus, d is nT+nCnTnC times a variable which follows a non-central t-distribution with nT+nC2 degrees of freedom and non-centrality parameter of δnTnCnT+nC.

Using the moment properties of the non-central t distribution, it follows that:

(3)Var(d)=(nT+nC2)(nT+nC4)(nT+nC)nTnC(1+δ2nTnCnT+nC)δ2b2
where
b=Γ(nT+nC22)nT+nC22Γ(nT+nC32)134(nT+nC2)1

So Equation (3) provides the exact large sample variance. Note that an unbiased estimator for δ is bd, with variance:

Var(bd)=b2(nT+nC2)(nT+nC4)(nT+nC)nTnC(1+δ2nTnCnT+nC)δ2

For large degrees of freedom (i.e. large nT+nC2), the variance of a non-central t variate with ν degrees of freedom and non-centrality parameter p can be approximated by 1+p22ν (Johnson, Kotz, Balakrishnan, 1995). Thus, we have:

Var(d)nT+nCnTnC(1+δ2(nTnCnT+nC)2(nT+nC2))=nT+nCnTnC+δ22(nT+nC2)

Plug in our estimator for δ and we're done.


Very, very nice derivation. Just a few questions: 1) could you clarify what the notation Y¯iTY¯iC means (I know it's something to do with difference of sample means, but how can they both have the same index?)? 2) could you clarify how the approximation for b is done (I don't need all of the details, a source is fine and maybe a brief explanation)? Otherwise, I'm quite pleased with this. (+1) This also agrees with the observation that I've made that d doesn't follow a normal distribution, contrary to the explanation in the linked article in the OP.
Clarinetist

@Clarinetist Thanks! 1) How can they have the same index? Typo, that's how! :P They're an artifact of my first draft of the answer. I'll fix that. 2) I pulled it from the Hedges paper -- don't know its derivation at the moment but will think about it some more.

I'm looking into the derivation now, but FYI, the numerator of b should be Γ(nT+nC22).
Clarinetist

Derivation provided for reference: math.stackexchange.com/questions/1564587/… . Turns out there's likely a sign error.
Clarinetist

@mike : very impressing answer. Thanks for taking the time to share it with us.
Denis Cousineau
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.