Làm thế nào để tính khoảng tin cậy của giá trị trung bình của phương tiện?

19

Hãy tưởng tượng rằng bạn lặp lại một thí nghiệm ba lần. Trong mỗi thí nghiệm, bạn thu thập các phép đo ba lần. Các bộ ba có xu hướng khá gần nhau, so với sự khác biệt giữa ba phương tiện thử nghiệm. Tính toán có nghĩa là khá dễ dàng. Nhưng làm thế nào người ta có thể tính một khoảng tin cậy cho ý nghĩa lớn?

Dữ liệu mẫu:

Thí nghiệm 1: 34, 41, 39

Thí nghiệm 2: 45, 51, 52

Thí nghiệm 3: 29, 31, 35

Giả sử rằng các giá trị sao chép trong một thử nghiệm tuân theo phân phối Gaussian, cũng như các giá trị trung bình của từng thử nghiệm. SD của biến thể trong một thử nghiệm nhỏ hơn SD trong số các phương tiện thử nghiệm. Giả sử cũng không có thứ tự của ba giá trị trong mỗi thí nghiệm. Thứ tự từ trái sang phải của ba giá trị trong mỗi hàng là hoàn toàn tùy ý.

Cách tiếp cận đơn giản là trước tiên tính giá trị trung bình của từng thí nghiệm: 38.0, 49.3 và 31.7, sau đó tính giá trị trung bình và khoảng tin cậy 95% của ba giá trị đó. Sử dụng phương pháp này, giá trị trung bình lớn là 39,7 với khoảng tin cậy 95% nằm trong khoảng từ 17,4 đến 61,9.

Vấn đề với cách tiếp cận đó là nó hoàn toàn bỏ qua sự khác biệt giữa các bộ ba. Tôi tự hỏi nếu không có một cách tốt để giải thích cho sự thay đổi đó.

confidence-interval multilevel-analysis

— Harvey Motulsky
nguồn

1

Không phải là một câu trả lời, chỉ là một quan sát trực quan. CI cho trung bình dữ liệu gộp (tất cả chín obs) là

, CI chỉ dựa trên phương tiện là

. Không chắc CI của bạn đang làm gì (typo? 17 không phải 27 và 51 không phải 61?), Tôi nhận được

cho lỗi std của ba phương tiện và

là

lượng tử của T dist với 2 df. Tôi nghĩ rằng CI bạn tìm kiếm sẽ nằm ở đâu đó ở giữa hai cái này - vì bạn có một phần gộp lại. Cũng có thể nghĩ theo công thức phương sai

(39.7 \pm 2.13)

$(39.7 \pm 2.13)$

(39.7 \pm 12.83)

$(39.7\pm 12.83)$

2.98

$2.98$

4.30

$4.30$

0.975

$0.975$

, mỗi CI sử dụng một nửa công thức

V (Y) = E [V (Y | Y_{g})] + V [E (Y | Y_{g})]

$V(Y)=E[V(Y|Y_g)]+V[E(Y|Y_g)]$

— xác suất

2

@probabilityislogic: SEM của ba phương tiện thử nghiệm là 5.168 (không phải 2.98 như bạn đã viết) và khoảng tin cậy tôi đã đưa ra trong bài viết gốc (17.4 đến 61.9) là chính xác. SEM được tính từ SD (8,95) bằng cách chia cho căn bậc hai của n (căn bậc 3 của 3). Bạn chia cho n (3) thay vào đó.

— Harvey Motulsky

lỗi của tôi, cũng nên thay thế

bằng

trong khoảng thời gian gộp (lỗi tương tự ở đó)

2.13

$2.13$

6.40

$6.40$

— xác suất

liên kết sau đây trả lời 'này? talkstats.com/showthread.php/11554-mean-of-means

@TST, Dường như không có gì ngoài liên kết đến Wikipedia về phương sai Pooled . Quan tâm đến công phu?

— chl

6

Có một khoảng tin cậy chính xác tự nhiên cho grandmean trong ngẫu nhiên một chiều mô hình ANOVA cân bằng Trên thực tế, nó rất dễ dàng để kiểm tra xem sự phân bố của các phương tiện quan sát là với

(y_{i j} ∣ μ_{i}) \sim_{iid} N (μ_{i}, σ_{w}^{2}), j = 1, \dots, J, μ_{i} \sim_{iid} N (μ, σ_{b}^{2}), i = 1, \dots, I .

$(y_{ij} \mid \mu_i) \sim_{\text{iid}} {\cal N}(\mu_i, \sigma^2_w), \quad j=1,\ldots,J, \qquad \mu_i \sim_{\text{iid}} {\cal N}(\mu, \sigma^2_b), \quad i=1,\ldots,I.$

{\bar{y}}_{i ∙}

$\bar{y}_{i\bullet}$

{\bar{y}}_{i ∙} \sim_{iid} N (μ, τ^{2})

$\bar{y}_{i\bullet} \sim_{\text{iid}} {\cal N}(\mu, \tau^2)$

, và nó cũng được biết rằng giữa tổng bình phương

có phân phối

và không phụ thuộc vào tổng thể quan sát bình

τ^{2} = σ_{b}^{2} + \frac{σ_{w}^{2}}{J}

$\tau^2=\sigma^2_b+\frac{\sigma^2_w}{J}$

S S_{b}

$SS_b$

S S_{b} \sim J τ^{2} χ_{I - 1}^{2}

$SS_b \sim J\tau^2\chi^2_{I-1}$

. Như vậy

{\bar{y}}_{∙ ∙} \sim N (μ, \frac{τ^{2}}{I})

$\bar y_{\bullet\bullet} \sim {\cal N}(\mu, \frac{\tau^2}{I})$

có Sinh viên

\frac{{\bar{y}}_{∙ ∙} - μ}{\frac{1}{\sqrt{I}} \sqrt{\frac{S S_{b}}{J (I - 1)}}}

$\frac{\bar y_{\bullet\bullet} - \mu}{\frac{1}{\sqrt{I}}\sqrt{\frac{SS_b}{J(I-1)}}}$

t

$t$ phân phối với

bậc tự do, wherefrom nó rất dễ dàng để có được một khoảng tin cậy chính xác về

.

I - 1

$I-1$

μ

$\mu$

Lưu ý rằng khoảng tin cậy này không là gì ngoài khoảng cổ điển đối với trung bình Gaussian bằng cách chỉ xem xét nghĩa của nhóm như các quan sát $\bar{y}_{i\bullet}$ . Do đó, cách tiếp cận đơn giản mà bạn đề cập:

Cách tiếp cận đơn giản là trước tiên tính giá trị trung bình của từng thí nghiệm: 38.0, 49.3 và 31.7, sau đó tính giá trị trung bình và khoảng tin cậy 95% của ba giá trị đó. Sử dụng phương pháp này, giá trị trung bình lớn là 39,7 với khoảng tin cậy 95% nằm trong khoảng từ 17,4 đến 61,9.

đúng. Và trực giác của bạn về các biến thể bị bỏ qua:

Vấn đề với cách tiếp cận đó là nó hoàn toàn bỏ qua sự khác biệt giữa các bộ ba. Tôi tự hỏi nếu không có một cách tốt để giải thích cho sự thay đổi đó.

sai. Tôi cũng đề cập đến tính chính xác của việc đơn giản hóa như vậy trong /stats//a/72578/8402

Cập nhật 12/04/2014

Một số chi tiết hiện được viết trên blog của tôi: Giảm một mô hình để có được khoảng tin cậy .

— Stéphane Laurent
nguồn

Bất kỳ trợ giúp thực hiện giải pháp này trong python? stackoverflow.com/questions/45682437/

— Mạnh

7

Đây là một câu hỏi về ước tính trong một mô hình hiệu ứng hỗn hợp tuyến tính. Vấn đề là phương sai của giá trị trung bình là tổng của hai thành phần phương sai phải được ước tính riêng (thông qua ANOVA của dữ liệu). Các ước tính có mức độ tự do khác nhau. Do đó, mặc dù người ta có thể cố gắng xây dựng khoảng tin cậy cho giá trị trung bình bằng cách sử dụng các công thức mẫu nhỏ (Student t) thông thường, không có khả năng đạt được phạm vi bảo hiểm danh nghĩa của nó vì độ lệch so với giá trị trung bình sẽ không chính xác theo phân phối của Student t.

Một bài báo gần đây (2010) của Eva Jarosova, Ước tính với Mô hình hiệu ứng hỗn hợp tuyến tính , thảo luận về vấn đề này. (Kể từ năm 2015, nó dường như không còn có sẵn trên Web.) Trong bối cảnh bộ dữ liệu "nhỏ" (thậm chí lớn hơn khoảng ba lần so với dữ liệu này), cô sử dụng mô phỏng để đánh giá hai phép tính CI gần đúng (giếng - Đã biết xấp xỉ Satterthwaite và "phương pháp Kenward-Reller"). Kết luận của cô ấy bao gồm

Nghiên cứu mô phỏng cho thấy chất lượng ước lượng các tham số hiệp phương sai và do đó điều chỉnh khoảng tin cậy trong các mẫu nhỏ có thể khá kém .... Một ước lượng kém có thể ảnh hưởng đến không chỉ mức độ tin cậy thực sự của các khoảng thông thường mà còn có thể làm cho việc điều chỉnh không thể thực hiện được. Rõ ràng là ngay cả đối với dữ liệu cân bằng, ba loại khoảng [thông thường, Satterthwaite, KR] có thể khác nhau đáng kể. Khi quan sát thấy sự khác biệt nổi bật giữa các khoảng thông thường và khoảng điều chỉnh, các lỗi tiêu chuẩn của ước tính tham số hiệp phương sai cần được kiểm tra. Mặt khác, khi sự khác biệt giữa [ba] loại khoảng nhỏ, việc điều chỉnh dường như là không cần thiết.

Nói tóm lại, một cách tiếp cận tốt dường như là

Tính toán một CI thông thường bằng cách sử dụng các ước tính của các thành phần phương sai và giả vờ phân phối t được áp dụng.
Đồng thời tính toán ít nhất một trong các TCTD đã điều chỉnh.
Nếu các tính toán "gần gũi", hãy chấp nhận CI thông thường. Mặt khác, báo cáo rằng không có đủ dữ liệu để tạo ra một CI đáng tin cậy.

— whuber
nguồn

Sử dụng các thành phần phương sai dẫn đến khoảng tin cậy tương tự tôi đã tính toán trong bài viết gốc. Bảng ANOVA có SS giữa các cột 480,7 với 2 df, có nghĩa là MS là 240,3. SD là sqrt (MSb between / n) = sqrt (240.3 / 3) = 8.95, dẫn đến cùng một CI tôi đã đăng ban đầu (17.4 đến 61.9). Tôi thấy rất khó để theo dõi bài báo Jarasova mà bạn đã trích dẫn, và tôi không hoàn toàn chắc chắn rằng nó có liên quan ở đây (dường như là về các thiết kế biện pháp lặp đi lặp lại). ???

— Harvey Motulsky

@Harvey Mô tả của bạn chắc chắn giống như các biện pháp lặp đi lặp lại với tôi! Tôi tin rằng giấy Jarasova là tại chỗ.

— whuber

1

Tôi đang nghĩ về tình huống phổ biến trong các phòng thí nghiệm nơi các bộ ba chỉ đơn giản là ba bồn thử nghiệm khác nhau (hoặc giếng). Thứ tự của ba như được trình bày trong bảng là tùy ý. Không có kết nối hoặc tương quan giữa sao chép số 2 trong thử nghiệm đầu tiên với sao chép số 2 trong thử nghiệm thứ hai hoặc thứ ba. Mỗi thí nghiệm chỉ có ba phép đo. Vì vậy, không thực sự lặp đi lặp lại các biện pháp. Đúng?

— Harvey Motulsky

whuber, có một phân phối chính xác Sinh viên ở đây. Xem câu trả lời của tôi.

— Stéphane Laurent

@whuber liên kết bạn cung cấp cho bài viết của Eva Jarasova đã chết và một tìm kiếm Google không mang lại kết quả gì. Bạn có thể sửa tài liệu tham khảo?

— Placidia

0

Bạn không thể có một khoảng tin cậy giải quyết cả hai vấn đề của bạn. Bạn phải chọn một. Bạn có thể rút ra một từ một thuật ngữ lỗi bình phương trung bình trong phương sai thử nghiệm cho phép bạn nói điều gì đó về mức độ chính xác mà bạn có thể ước tính các giá trị trong thử nghiệm hoặc bạn có thể thực hiện giữa và đó sẽ là giữa các thử nghiệm. Nếu tôi vừa mới thực hiện, tôi có xu hướng muốn vẽ nó quanh 0 thay vì xung quanh nghĩa lớn bởi vì nó không cho bạn biết bất cứ điều gì về giá trị trung bình thực tế, chỉ về một hiệu ứng (trong trường hợp này là 0). Hoặc bạn chỉ có thể vẽ cả hai và mô tả những gì họ làm.

Bạn đã có một xử lý ở giữa một. Đối với bên trong, nó giống như tính toán thuật ngữ lỗi trong ANOVA để MSE hoạt động và từ đó SE cho CI chỉ là sqrt (MSE / n) (n = 3 trong trường hợp này).

— John
nguồn

Trên thực tế bạn có thể có một khoảng đáng tin cậy cho mỗi trung bình và cho trung bình lớn. Chỉ cần sử dụng một mô hình đa cấp Bayes. Đôi khi loại ước tính này được gọi là gộp một phần. Vấn đề là tha mẫu nhỏ, tôi nghĩ vậy.

— Manoel Galdino

Bạn có thể có một khoảng tin cậy cho mỗi ý nghĩa và cả ý nghĩa lớn ... nhưng chúng là những thứ khác nhau ... giống như các khoảng đáng tin cậy. Tôi đã giải thích câu hỏi là về CI, liên quan đến phương sai trong nghiên cứu và giữa là tổng hợp. Tất cả vẫn để lại cho bạn những ý nghĩa khác nhau của CI. (Tôi cũng không lấy n theo nghĩa đen)

— John

1

Ngoài ra, cách tôi muốn nói không thực sự "không thể". Bạn bằng cách nào đó có thể đưa ra một phương trình duy nhất tính toán một khoảng tin cậy cho mọi thứ. Nó không có nghĩa gì cả. Đó là những gì tôi muốn nói là không thể.

— Giăng

Một vài phút sau khi tôi viết bình luận của mình, tôi nhận ra rằng chúng ta không nên lấy n theo nghĩa đen. Nhưng đã muộn để chỉnh sửa nó =).

— Manoel Galdino

0

Tôi nghĩ rằng CI cho grand mean quá rộng [17,62] ngay cả đối với phạm vi dữ liệu gốc.

Thí nghiệm này RẤT phổ biến trong hóa học. Ví dụ, trong chứng nhận tài liệu tham khảo, bạn phải nhặt một số chai từ toàn bộ một cách ngẫu nhiên, và bạn phải tiến hành phân tích sao chép trên mỗi chai. Làm thế nào để bạn tính toán giá trị tham chiếu và độ không chắc chắn của nó? Có rất nhiều cách để làm điều đó, nhưng cách tinh vi nhất (và chính xác, tôi nghĩ) là áp dụng phân tích tổng hợp hoặc ML (Dersimonia-Laird, Vangel-Rukhin, v.v.)

Những gì về ước tính bootstrap?

— xóa sổ
nguồn

1

Mô phỏng (10.000 thử nghiệm với các hiệu ứng và lỗi chính được phân phối bình thường) cho thấy [21, 58] là giá trị trung bình 95% hai mặt đối xứng cho trung bình.

— whuber

whuber: Tôi tò mò muốn biết bạn đã thực hiện những mô phỏng đó như thế nào. Bootstrapping từ dữ liệu gốc? Hoặc thực sự mô phỏng? Nếu sau này, giá trị trung bình và SD nào bạn đã sử dụng để mô phỏng dữ liệu ??

— Harvey Motulsky