Ý nghĩa của lỗi tiêu chuẩn 2.04? Có nghĩa là khác nhau đáng kể khi khoảng tin cậy chồng chéo rộng rãi?


10

Hình ảnh dưới đây là từ bài viết này trong Khoa học Tâm lý . Một đồng nghiệp đã chỉ ra hai điều khác thường về nó:

  1. Theo chú thích, các thanh lỗi hiển thị "± 2.04 lỗi tiêu chuẩn, khoảng tin cậy 95%." Tôi chỉ từng thấy ± 1,96 SE được sử dụng cho 95% CI và tôi không thể tìm thấy bất cứ điều gì về 2.04 SE được sử dụng cho bất kỳ mục đích nào. Liệu 2.04 SE có một số ý nghĩa được chấp nhận ?
  2. Văn bản nêu rõ các so sánh theo cặp đã lên kế hoạch cho thấy sự khác biệt đáng kể về cường độ giật mình trung bình so với các thử nghiệm dự đoán đúng (t (30) = 2.51, p <.01) và lỗi so với các thử nghiệm không thể đoán trước chính xác (t (30) = 2,61, p <.01) (thử nghiệm omnibus F cũng có ý nghĩa ở p <.05). Tuy nhiên, biểu đồ hiển thị các thanh lỗi cho cả ba điều kiện chồng chéo đáng kể. Nếu các khoảng ± 2.04 SE trùng nhau, làm thế nào các giá trị có thể khác biệt đáng kể ở p <0,05? Sự trùng lặp đủ lớn để tôi giả sử rằng các khoảng ± 1.96 SE cũng trùng nhau.

biểu đồ thanh hiển thị các thanh lỗi 2.04 SE


1
Câu trả lời tuyệt vời. Tôi muốn nhấn mạnh rằng (như whuber đã chỉ ra) so sánh khoảng tin cậy 95% không giống như thực hiện các thử nghiệm thống kê ở mức ý nghĩa 0,05. Tất nhiên có giấy tờ đối phó với điều này. Nếu khoảng tin cậy là số liệu thống kê duy nhất có sẵn thì Payton và cộng sự đề nghị sử dụng khoảng 85% cho mức ý nghĩa 0,05 cho dữ liệu Gaussian. Họ theo dõi công việc của họ ở đây .
Martin Berglund

1
Cảm ơn, @Martin. Để đóng vòng lặp: mặc dù tôi chưa xem bài báo Payton et al , cơ sở cho 85% là rõ ràng: giá trị z tương ứng với 84%, khi bình phương , bằng ; thêm hai trong số này cho 4 ; căn bậc hai của nó là 2 , gần bằng giá trị z tương ứng với khoảng 95%. Tôi cho rằng Payton làm tròn 84% đến 85%. Nói cách khác, khuyến nghị của họ (tuy nhiên nó có nguồn gốc) có thể được giải thích bằng phân tích tương tự mà tôi cung cấp. 242
whuber

@MartinBerglund và whuber Chuyển qua câu trả lời của bạn khi tự hỏi liệu tính toán độc lập của tôi về khoảng tin cậy 83,4% để thực hiện kiểm tra thống kê ở mức 0,05 có phải là nguyên bản hay không - rõ ràng là không! Cảm ơn đã tham khảo giấy, rất hữu ích.
tristan

Câu trả lời:


11
  1. là hệ số nhân được sử dụng với phân phối Student t với 31 bậc tự do. Các trích dẫn đề nghị 30 bậc tự do là thích hợp, trong trường hợp này nhân đúng là 2,042272 2,04 .2.04302.0422722.04

  2. Phương tiện được so sánh về các lỗi tiêu chuẩn . Sai số chuẩn thường là lần độ lệch chuẩn, trong đón(có lẽ khoảng30+1=31ở đây) là cỡ mẫu. Nếu chú thích là chính xác trong việc kêu gọi những quán bar "sai số chuẩn", sau đó độ lệch chuẩn phải có ít nhất1/nn30+1= =31lần so với các giá trị xấp xỉ6như được hiển thị. Một bộ dữ liệu gồm31giá trị dương với độ lệch chuẩn là6×5,5=33và giá trị trung bình từ14đến18sẽ phải có hầu hết các giá trị gần0và một số lượng nhỏ các giá trị lớn, điều này dường như không thể xảy ra. (Nếu điều này là như vậy, thì toàn bộ phân tích dựa trên số liệu thống kê của Student t sẽ không hợp lệ.) Chúng ta nên kết luận rằng con số có thể cho thấyđộ lệch chuẩn,không phải là lỗi tiêu chuẩn.315,56316×5,5= =3314180

  3. So sánh các phương tiện không dựa trên sự chồng chéo (hoặc thiếu) của các khoảng tin cậy. Hai TCTD 95% có thể trùng nhau, nhưng vẫn có thể chỉ ra sự khác biệt đáng kể. Lý do là lỗi tiêu chuẩn của sự khác biệt trong phương tiện ( độc lập ) là, ít nhất là xấp xỉ, căn bậc hai của tổng bình phương của các lỗi tiêu chuẩn của phương tiện. Ví dụ: nếu sai số chuẩn của giá trị trung bình là bằng 1 và sai số chuẩn của giá trị trung bình là 17 bằng 1 , thì CI của giá trị trung bình thứ nhất (sử dụng bội số của 2.04 ) sẽ kéo dài từ 11,92 đến 16,08 và CI của lần thứ hai sẽ kéo dài từ 14,921411712.0411,9216,0814,92đến , với sự chồng chéo đáng kể. Tuy nhiên, SE của chênh lệch sẽ bằng 19,03. Sự khác biệt của phương tiện,17-14=3, lớn hơn2,04lần giá trị này: nó rất đáng kể.12+121,4117-14= =32.04

  4. Đây là những so sánh cặp . Các giá trị riêng lẻ có thể thể hiện rất nhiều sự thay đổi trong khi sự khác biệt của chúng có thể rất nhất quán. Chẳng hạn, một tập hợp các cặp như (14,14,01)(15,15,01)(16,16,01)(17,17,01) 0,01


Cảm ơn nhiều. Bài báo không nêu bất cứ nơi nào các bài kiểm tra sau đại học được ghép nối so sánh giữa các câu trả lời của mỗi người tham gia về hai loại thử nghiệm, và vì vậy tôi đã nhảy vào kết luận họ coi đó là so sánh giữa các chủ đề (mặc dù điều đó sẽ là ít thích hợp và ít mạnh mẽ hơn). Tôi nghĩ bạn phải đúng, và họ đã làm bài kiểm tra nhạy hơn (và khó hơn để vẽ đồ thị). Đối với điểm # 3, phản hồi duy nhất của tôi là rõ ràng tôi cần học lại một số thống kê ...
octern

Tôi đã chọn một cụm từ trong câu hỏi của bạn, "so sánh cặp đôi theo kế hoạch." Tuy nhiên, phần còn lại của kết quả mà bạn trích dẫn cho thấy chúng không phải là so sánh theo cặp, nhưng nhiều khả năng đến từ một phép tính tương tự như ở điểm số 3 trong câu trả lời của tôi.
whuber

Điều tôi muốn nói là họ đã làm các bài kiểm tra hậu hoc so sánh trực tiếp hai trong số ba điều kiện với nhau, thay vì làm một bài kiểm tra omnibus so sánh cả 3 điều kiện. Xin lỗi về sự nhầm lẫn. Nhưng bây giờ khi tôi nhìn vào nó, tôi nghĩ dù sao bạn cũng đúng. Cách họ báo cáo thống kê kiểm tra omnibus ( F(2,60)=5.64, p<.05) ngụ ý rằng đó là một thử nghiệm đo lường lặp đi lặp lại, và vì vậy các bài kiểm tra hậu hoc cũng có khả năng.
octern

Cảm ơn bạn đã trả lời tuyệt vời của bạn. "Lý do là lỗi tiêu chuẩn của sự khác biệt trong phương tiện (độc lập) là, ít nhất là xấp xỉ, căn bậc hai của tổng bình phương của các lỗi tiêu chuẩn của phương tiện." Tôi đang tìm kiếm tài liệu tham khảo, thảo luận về điều này nhưng không thể tìm thấy bất kỳ. Tôi sẽ đánh giá cao một số hướng dẫn về vấn đề này. Có lẽ ai đó có thể giúp tôi ra?
Julian

@Johannes Bình phương của SE tỷ lệ thuận với phương sai của trung bình mẫu. (Hằng số tỷ lệ phụ thuộc vào định nghĩa của một người và có thể thay đổi đôi chút theo cỡ mẫu.) Độc lập ngụ ý phương sai của phân phối mẫu của sự khác biệt của phương tiện là tổng bình phương của SE.
whuber

3

Một phần của sự nhầm lẫn ở đây là sự thể hiện khó hiểu của dữ liệu. Nó dường như là một thiết kế đo lặp đi lặp lại nhưng các thanh lỗi là khoảng tin cậy về giá trị trung bình thực được ước tính. Mục đích chính của các biện pháp lặp đi lặp lại là tránh thu thập đủ dữ liệu để có được ước tính chất lượng của giá trị trung bình thô. Do đó, các thanh lỗi như được trình bày thực sự không có liên quan đến câu chuyện được kể. Giá trị của lợi ích quan trọng là hiệu ứng. Với mục đích của các biểu đồ là làm nổi bật điểm chính của câu chuyện, vẽ biểu đồ cho các hiệu ứng và khoảng tin cậy của chúng, sẽ phù hợp hơn.


Cảm ơn bạn! Tôi đã đấu tranh một chút để giải thích tại sao đồ thị có vẻ như nó không đại diện cho phân tích.
octern
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.