Tôi có nên bận tâm rằng công suất kiểm tra t tương đối nhỏ khi H0 đã bị từ chối không?


8

Tôi có hai mẫu khá nhỏ ( cho mỗi mẫu) và tôi nhận được công suất kiểm tra t hai mẫu cho chúng 0,49, tương đối nhỏ (tính theo R ). Tuy nhiên, phép thử t Welch Two Sample cho giá trị p là 0,032 ở đây, và do đó, giả thuyết null có thể bị bác bỏ.n=7power.t.test()0.032

Bây giờ tôi có nên bận tâm rằng sức mạnh là nhỏ?

Theo tôi hiểu rằng sức mạnh = nơi β là xác suất sai lầm loại II. Ở đây, điều đó có nghĩa là xét nghiệm của tôi sẽ không từ chối H0 trong khoảng 50% trường hợp khi bị từ chối, vì vậy tôi nên lo lắng nhất là khi các mẫu cụ thể của tôi không thể từ chối H0. Nhưng trong trường hợp các mẫu cụ thể của tôi, có vẻ như tôi may mắn và bài kiểm tra thiếu sức mạnh của tôi đã thành công trong việc từ chối, vì vậy tôi không cần quan tâm đến beta và tôi có thể tận hưởng sự khác biệt đáng kể trong mẫu có nghĩa.1ββ

Là giải thích của tôi chính xác? Hay tôi bỏ lỡ điều gì quan trọng?


2
Sức mạnh là thứ bạn nên tính toán trước khi thiết kế một thử nghiệm, để chọn quy mô thử nghiệm cần thiết để phát hiện sự khác biệt về độ lớn nhất định. Nó không làm được gì nhiều để tính toán nó sau.
EdM

Bạn từ chối vì một trong hai lý do; null của bạn là sai hoặc bạn đã thực hiện một lỗi loại I. Nếu null có một số cơ hội để thực sự là đúng, thì sức mạnh của bạn càng thấp thì khả năng bạn thực sự mắc lỗi loại I càng cao. Tuy nhiên, nếu bạn đang tính toán sức mạnh dựa trên kích thước hiệu ứng quan sát được , hãy coi chừng, bạn phải rất cẩn thận khi làm việc với điều đó; nó không hoạt động như bạn mong đợi
Glen_b -Reinstate Monica

Câu trả lời:


5

Theo nghĩa hẹp, bạn đúng. Quyền lực là cơ hội để từ chối chính xác một giả thuyết khống sai, vì vậy bạn có một cơ hội nhỏ nhưng dù sao cũng có thể làm được.

Tuy nhiên, từ quan điểm cập nhật niềm tin của người Bayes, "giảm sức mạnh ngụ ý giảm sự thay đổi niềm tin được bảo đảm từ việc quan sát một kết quả có ý nghĩa thống kê (McClelland et al. 2015)." Hãy nghĩ về nó theo cách này: nếu tôi nói với bạn rằng tôi đã khảo sát 30.000 người từ công chúng và thấy rằng, trái với số liệu bán hàng, mọi người có xu hướng thích Pepsi hơn Coke, điều đó sẽ rất hấp dẫn. Tôi đã tìm thấy một kết quả sau khi nghiên cứu 1% dân số (tức là công chúng Hoa Kỳ). Nó có khả năng khái quát cho dân số lớn hơn. Nếu tôi khảo sát 7 người và tìm thấy điều tương tự, ngay cả khi nó có ý nghĩa thống kê, tôi sẽ không thuyết phục được ai. Bạn có thể tranh luận rất nhiều lý do cho điều đó (bạn không thể lấy mẫu đại diện, giả định ANOVA / hồi quy có thể không được đáp ứng, v.v.), nhưng ' Điều quan trọng là sức mạnh cao có nghĩa là có sức thuyết phục cao (và bạn nên quan trọng hoặc nhiều hơn kết quả của bạn như những gì bạn đang cố gắng thuyết phục). Đối với toán học Bayes cũng như giải thích thêm, bạn có thể kiểm tra bất kỳ điều nào sau đây.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Ngoài ra, Ioannidis (2005) cung cấp một số lập luận thuyết phục cho kết quả năng lượng thấp phản ánh lỗi loại I ngay cả khi không có hack và các sai lệch khác thường xảy ra do năng lượng thấp (và giấy là truy cập mở trong trường hợp bạn không làm việc một trường đại học hoặc một cái gì đó tương tự!).


Cảm ơn rất nhiều cho câu trả lời của bạn! Tôi chắc chắn sẽ kiểm tra McClelland và Ioannidis (Tôi biết đây là một bài báo khá phổ biến). Ví dụ của bạn với khảo sát Pepsi-Coke chắc chắn có ý nghĩa, vì vậy tôi chỉ cố gắng vẽ song song với tình huống của mình: các mẫu của tôi liên quan đến số lần tái phát của bệnh nhân tâm thần phân liệt trong một dân số được quan sát trong hơn 7 năm trong hai tháng so sánh ( ví dụ tháng 1 so với tháng 7). Vì vậy, không có bất kỳ cơ hội nào để cải thiện giao thức thử nghiệm, như tiếp cận nhiều người hơn. Tôi chỉ tự hỏi nếu tôi đã có thể nói điều gì đó từ dữ liệu mà tôi đã có.
jrx1301

1
Bạn chắc chắn có thể. Vấn đề là với giải thích, không phải số liệu thống kê. Một số người sẽ lấy kết quả của bạn và kết luận, "Tôi đã giải quyết tâm thần phân liệt!" hoặc ít hơn đáng kể "Tôi có một kết quả quan trọng, do đó lý thuyết của tôi là đúng và áp dụng cho tất cả mọi người!" Bạn có thể có bằng chứng ủng hộ một lý thuyết, nhưng nó có thể khái quát đến mức nào. Hãy xem xét những thứ như dân số thực tế mà bạn đã lấy mẫu, tức là bạn không thực sự lấy mẫu từ dân số "bệnh nhân tâm thần phân liệt" mà từ một dân số nhỏ hơn. Tổng quát hóa cho pop'n lớn hơn đòi hỏi các đối số thống kê thêm.
le_andrew

Nếu bạn đã khảo sát n = 30.000 người nhưng chỉ nhận được p = 0,032 (như trong OP) về sự khác biệt của Pepsi / Coke, tôi không hiểu tại sao điều này lại thuyết phục hơn là chỉ có cùng giá trị p với một số ít người. Bất kỳ kích thước hiệu ứng có ý nghĩa nào với n = 30.000 sẽ mang lại giá trị p nhỏ, vì vậy p = 0,032 cho thấy kích thước hiệu ứng cực nhỏ mà IMHO tôi sẽ không đặc biệt tin tưởng.
amip

H0H0H0

2

N

NN>50%<50%

p.0550%

Vì vậy, "[nó] có nên làm phiền [bạn] rằng sức mạnh nhỏ không?" Có và không. Nếu bạn đã thực hiện một phân tích sức mạnh hậu hoc truyền thống (không hợp lệ), bạn nhất thiết sẽ nhận được các giá trị như thế mà tập thể dục hoàn toàn không có ý nghĩa. Mặt khác, nếu chúng ta nghiêm túc phân tích công suất, một hiệu ứng đáng kể với thiết lập công suất thấp về cơ bản có nghĩa là hiệu ứng quan sát của bạn phải bị sai lệch lớn hơn thực tế, vì vậy bạn nên ít tin tưởng vào kết quả.


Bài đăng tuyệt vời! Trong trường hợp bạn không biết. Có một sau lên đường bưu điện đến một trong những câu trả lời trước của bạn ở đây stats.stackexchange.com/questions/309745/...
một chút quá Curious

-1

ppαpαP(pα|H0)αβP(p>α|H1)β1β

H0H1

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

Để minh họa thêm, hãy nhìn vào khoảng tin cậy (CI). Người ta có thể lập luận rằng kích thước mẫu lớn hơn sẽ làm cho CI hẹp hơn và do đó, nếu thử nghiệm có ý nghĩa đối với một mẫu nhỏ hơn, thì nó cũng sẽ có ý nghĩa đối với mẫu lớn hơn. Tuy nhiên, vị trí của CI có thể thay đổi khi chúng tôi bao gồm nhiều dữ liệu hơn trong mẫu của chúng tôi, có khả năng làm cho kết quả không đáng kể. Cũng có thể hình dung rằng mẫu lớn hơn sẽ có sai số chuẩn lớn hơn nhiều và do đó CI sẽ trở nên rộng hơn trên thực tế. Người ta có thể nói rằng một cỡ mẫu lớn hơn cung cấp cho các sự kiện nhiều cơ hội hơn để chứng minh bản thân.

p

[1] Colquhoun, "Một cuộc điều tra về tỷ lệ phát hiện sai và giải thích sai các giá trị p", Royal Society Open Science, 2014

[2] Colquhoun, "Khả năng sinh sản của nghiên cứu và giải thích sai về giá trị P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

p<.005

p

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.