SD lớn hơn trung bình, thang đo không âm


9

Tôi đã nhận được một bài báo báo cáo một nghiên cứu rất giống với một phòng thí nghiệm của tôi muốn chạy. Nhưng, tôi nhận thấy rằng đối với biến quan tâm, Thời lượng, SD lớn hơn giá trị trung bình ... vì đây là thời lượng được tính bằng phút nên nó không bao giờ có thể âm và điều này có vẻ rất lạ đối với tôi. Điều này đã xảy ra trong 2 nghiên cứu báo cáo, dưới đây là một.

Ngoài ra, đây là một thiết kế hỗn hợp. Kiểm soát v Điều trị (giữa các nhóm) và Time1, Time2, Time3 (các biện pháp lặp lại). Dưới đây là các phương tiện (SD), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... họ đã chạy ANOVA và báo cáo p <.001.

Tôi được yêu cầu sử dụng điều này làm cơ sở cho phân tích công suất để xác định cỡ mẫu cho nghiên cứu của chúng tôi. Tôi khá chắc chắn rằng điều này chỉ ra rằng dữ liệu không bình thường hoặc có ngoại lệ và tôi không cảm thấy thoải mái khi xác định kích thước mẫu dựa trên điều này. Có phải tôi vừa rời khỏi căn cứ?


Bạn có chắc chắn đó là SD và không phải là khoảng tin cậy 95% có thể giống như 3 * SD. Có vẻ như những SD đó có cùng kích thước với phương tiện. Thật sự rất khó để nói kích thước mẫu là gì vì chúng ta không biết những ảnh hưởng nào được bao gồm trong các lỗi đó hoặc thậm chí cả thống kê là gì. Nếu chỉ là thống kê đếm, tức là phân phối Poisson, bao gồm giá trị trung bình trên SD sẽ giống như 1 / Sqrt (N). Tuy nhiên, điều đó có nghĩa là N = 1 (hoặc nhiều nhất là một ít). Bạn có thể cho chúng tôi biết thêm thông tin về những thống kê này là gì không?
Dave31415

Ngoài ra, phân phối bình thường có giá trị trung bình và SD hoàn toàn độc lập với nhau. Tôi nghĩ có lẽ bạn có nghĩa là phân phối Poisson.
Dave31415

2
Với thời lượng không âm, tôi thường mong đợi phân phối sai lệch. SD tương đương với giá trị trung bình là hoàn toàn có thể và không có nghĩa là đáng ngạc nhiên. Phân phối nào được giả định tốt nhất cho các tính toán khác không thể được khuyên dùng nếu không có thêm thông tin, nhưng tôi sẽ không chọn Poisson làm dự đoán đầu tiên của mình, mà là gamma hoặc logic bất thường.
Nick Cox

Như @NickCox lưu ý, w / thời lượng tôi sẽ ngạc nhiên nếu SD không lớn hơn giá trị trung bình (nếu không có kiểm duyệt). Bạn cũng có thể xem xét phân phối Weibull. Phân tích sức mạnh có thể sẽ phải dựa trên mô phỏng. Ở một lưu ý khác, tôi đoán ANOVA không hợp lệ với dữ liệu như vậy.
gung - Phục hồi Monica

1
nÔi(n)0

Câu trả lời:


5

Độ lệch chuẩn có thể dễ dàng vượt quá giá trị trung bình với dữ liệu không âm hoặc dương hoàn toàn

Tôi mô tả trường hợp cho dữ liệu của bạn là độ lệch chuẩn gần với giá trị trung bình (không phải mọi giá trị đều lớn hơn và giá trị lớn hơn thường gần). Đối với dữ liệu không âm, rõ ràng chỉ ra rằng dữ liệu bị lệch (ví dụ: phân phối gamma có hệ số biến thiên = 1 sẽ là phân phối theo cấp số nhân, vì vậy nếu dữ liệu là gamma, chúng sẽ tìm ở đâu đó gần theo cấp số nhân)

Tuy nhiên, với loại cỡ mẫu đó, ANOVA có thể không bị ảnh hưởng nặng nề bởi điều đó; sự không chắc chắn trong ước tính phương sai gộp sẽ khá nhỏ, vì vậy chúng tôi có thể xem xét rằng giữa định lý CLT (đối với phương tiện) và Slutsky (đối với ước tính phương sai trên mẫu số), ANOVA có thể sẽ hoạt động tốt, vì bạn ' sẽ có một hình vuông chi không có triệu chứng, trong đó ANOVA-F với mẫu số lớn là bậc tự do sẽ là một xấp xỉ tốt. (nghĩa là nó phải có mức độ mạnh mẽ hợp lý, và vì phương tiện không quá xa so với hằng số, nên sức mạnh không bị tác động quá nặng bởi sự không đồng nhất)

Điều đó nói rằng, nếu nghiên cứu của bạn sẽ có cỡ mẫu nhỏ hơn, bạn có thể nên xem xét bằng cách sử dụng một thử nghiệm khác (có thể là thử nghiệm hoán vị hoặc một thử nghiệm phù hợp hơn cho dữ liệu sai lệch có thể dựa trên GLM). Sự thay đổi trong thử nghiệm có thể yêu cầu kích thước mẫu lớn hơn một chút so với bạn nhận được cho ANOVA thẳng.

Với dữ liệu gốc, bạn có thể thực hiện phân tích công suất theo mô hình / phân tích phù hợp. Ngay cả khi không có dữ liệu gốc, người ta có thể đưa ra các giả định hợp lý hơn về phân phối (có thể là nhiều loại) và điều tra toàn bộ đường cong sức mạnh (hay đơn giản hơn là chỉ tỷ lệ lỗi loại I và công suất ở bất kỳ kích thước hiệu ứng nào được quan tâm). Một loạt các giả định hợp lý có thể được sử dụng, đưa ra một số ý tưởng về sức mạnh nào có thể đạt được trong các trường hợp chính đáng, và kích thước mẫu có thể cần phải lớn hơn bao nhiêu.


4

Bạn đã đúng khi kết luận rằng dữ liệu là không bình thường. Nếu dữ liệu là bình thường thì chúng ta sẽ mong đợi khoảng 16% các quan sát nhỏ hơn giá trị trung bình trừ đi độ lệch chuẩn. Với SD lớn hơn trung bình, số này là âm và bạn nói rằng không thể có số âm, vì vậy những gì bạn đang thấy không phù hợp với dữ liệu được phân phối thông thường. Các giá trị SD là có thể, nhưng chỉ khi phân phối bị lệch rất đúng (thường gặp trong thời lượng).

Tôi đồng ý rằng việc chọn kích thước mẫu dựa trên dữ liệu giả định sẽ không bình thường không phải là một ý tưởng hay, nhưng nếu bạn có thể tìm hiểu thêm về quy trình và tìm phân phối sai lệch (phân phối gamma như một khả năng) thì đó là một giả định hợp lý, sau đó bạn có thể sử dụng nó để giúp xác định kích thước mẫu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.