Là kích thước hiệu ứng thực sự vượt trội so với giá trị p?


14

Rất nhiều sự nhấn mạnh được đặt vào việc dựa vào và báo cáo kích thước hiệu ứng thay vì giá trị p trong nghiên cứu ứng dụng (ví dụ như trích dẫn thêm bên dưới).

Nhưng không phải trường hợp nào thì kích thước hiệu ứng giống như giá trị p là một biến ngẫu nhiên và như vậy có thể thay đổi từ mẫu này sang mẫu khác khi cùng một thí nghiệm được lặp lại? Nói cách khác, tôi đang hỏi những tính năng thống kê nào (ví dụ: kích thước hiệu ứng ít thay đổi từ mẫu này sang mẫu hơn giá trị p) làm cho kích thước hiệu ứng chỉ số đo bằng chứng tốt hơn giá trị p?

Tuy nhiên, tôi nên đề cập đến một thực tế quan trọng là tách giá trị p khỏi kích thước hiệu ứng. Nghĩa là, kích thước hiệu ứng là thứ cần được ước tính bởi vì nó có tham số dân số nhưng giá trị p không có gì để ước tính vì nó không có bất kỳ tham số dân số nào.

Đối với tôi, kích thước hiệu ứng chỉ đơn giản là một thước đo mà trong một số lĩnh vực nghiên cứu nhất định (ví dụ: nghiên cứu ở người) giúp chuyển đổi các kết quả thực nghiệm đến từ các công cụ đo lường do nhà nghiên cứu phát triển thành một thước đo chung (công bằng mà nói sử dụng nghiên cứu này của con người có thể phù hợp hơn câu lạc bộ nghiên cứu định lượng).

Có lẽ nếu chúng ta lấy một tỷ lệ đơn giản làm kích thước hiệu ứng, thì sau đây (trong R) là những gì cho thấy sự tối cao của kích thước hiệu ứng so với giá trị p? (thay đổi giá trị p nhưng kích thước hiệu ứng không)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Lưu ý rằng hầu hết các kích thước hiệu ứng có liên quan tuyến tính với một thống kê kiểm tra. Vì vậy, đây là một bước dễ dàng để thực hiện kiểm tra giả thuyết null bằng cách sử dụng kích thước hiệu ứng.

Ví dụ, kết quả thống kê t từ thiết kế trước bài có thể dễ dàng được chuyển đổi thành kích thước hiệu ứng d của Cohen tương ứng. Như vậy, phân phối của Cohen chỉ đơn giản là phiên bản quy mô theo vị trí phân phối.

Những lời trích dẫn:

Do giá trị p là các chỉ số bị nhiễu, theo lý thuyết, 100 nghiên cứu với các cỡ mẫu khác nhau và 100 kích cỡ hiệu ứng khác nhau có thể có cùng một giá trị p và 100 nghiên cứu có cùng kích thước hiệu ứng có thể có 100 giá trị khác nhau cho giá trị p .

hoặc là

p-value là một biến ngẫu nhiên thay đổi từ mẫu này sang mẫu khác. . . . Do đó, không phù hợp để so sánh các giá trị p từ hai thử nghiệm riêng biệt hoặc từ các thử nghiệm trên hai biến được đo trong cùng một thử nghiệm và tuyên bố rằng giá trị này có ý nghĩa hơn so với giá trị khác?

Trích dẫn:

Thompson, B. (2006). Cơ sở của thống kê hành vi: Một cách tiếp cận dựa trên cái nhìn sâu sắc. New York, NY: Nhà xuất bản Guilford.

Tốt, PI, & Hardin, JW (2003). Các lỗi thường gặp trong thống kê (và cách tránh chúng). New York: Wiley.


12
Tôi không rút ra kết luận tương tự từ các trích dẫn (kích thước hiệu ứng là "vượt trội" hoặc nên được báo cáo thay vì giá trị p). Tôi biết rằng một số người đã phản ứng thái quá bằng cách đưa ra tuyên bố như vậy (chẳng hạn như lệnh cấm BASP đối với giá trị p). Đây không phải là một tình huống khác: đó là trường hợp chỉ ra rằng giá trị p và kích thước hiệu ứng cung cấp các loại thông tin hữu ích khác nhau. Thông thường người ta không nên xem xét mà không xem xét nó trong bối cảnh của người khác.
whuber

1
Cá nhân tôi nghĩ rằng báo cáo một ước tính cùng với khoảng tin cậy là đủ. Nó đưa ra kích thước hiệu ứng (ý nghĩa thực tế) và kiểm tra giả thuyết (ý nghĩa thống kê) cùng một lúc.
Jirapat Samranvedhya

1
Giá trị p hoặc kích thước hiệu ứng là 'ưu việt' tùy thuộc vào quan điểm của bạn. Cái trước xuất phát từ truyền thống NHST của ngư dân, trong khi cái sau từ truyền thống Neyman-Pearson. Trong một số lĩnh vực (khoa học sinh học, nhân văn), kích thước hiệu ứng có xu hướng rất nhỏ, làm cho giá trị p trở nên hấp dẫn. Ngược lại, như những người khác lưu ý, giá trị p có thể bị 'ép buộc' nhỏ hơn thông qua các thay đổi trong thiết kế, như tăng N.
HEITZ

3
Là một tuốc nơ vít vượt trội hơn một cái búa?
kjetil b halvorsen

Là một hạt vượt trội hơn một bu lông?
Sextus Empiricus

Câu trả lời:


21

Lời khuyên để cung cấp kích thước hiệu ứng thay vì giá trị P dựa trên sự phân đôi giả và thật ngớ ngẩn. Tại sao không trình bày cả hai?

Kết luận khoa học nên dựa trên đánh giá hợp lý các bằng chứng và lý thuyết có sẵn. Giá trị P và kích thước hiệu ứng quan sát một mình hoặc cùng nhau là không đủ.

Cả hai đoạn trích dẫn mà bạn cung cấp đều hữu ích. Tất nhiên giá trị P thay đổi từ thử nghiệm sang thử nghiệm, độ mạnh của bằng chứng trong dữ liệu thay đổi từ thử nghiệm này sang thử nghiệm khác. Giá trị P chỉ là một trích xuất bằng số của bằng chứng đó bằng mô hình thống kê. Do tính chất của giá trị P, rất hiếm khi liên quan đến mục đích phân tích để so sánh giá trị P này với giá trị P khác, vì vậy có lẽ đó là điều mà tác giả trích dẫn đang cố gắng truyền đạt.

Nếu bạn thấy mình muốn so sánh các giá trị P thì có lẽ bạn nên thực hiện một bài kiểm tra quan trọng trên một cách sắp xếp dữ liệu khác nhau để trả lời hợp lý câu hỏi quan tâm. Xem những câu hỏi sau: giá trị p cho giá trị p? Nếu một nhóm có nghĩa khác với 0 nhưng nhóm kia thì không, chúng ta có thể kết luận rằng các nhóm đó khác nhau không?

Vì vậy, câu trả lời cho câu hỏi của bạn rất phức tạp. Tôi không thấy phản hồi phân đôi cho dữ liệu dựa trên giá trị P hoặc kích thước hiệu ứng là hữu ích, vậy kích thước hiệu ứng có cao hơn giá trị P không? Có, không, đôi khi, có thể, và nó phụ thuộc vào mục đích của bạn.


Tôi nghĩ rằng tốt nhất là nên trình bày kích thước hiệu ứng và khoảng tin cậy của nó, miễn là nhà phân tích có thể xác định chính xác kích thước hiệu ứng có ý nghĩa cho nghiên cứu trong tay. Khoảng tin cậy, không giống như giá trị p, mang đến cho người đọc cảm giác về cả độ chính xác của ước tính cũng như độ cực trị của nó.
AdamO

1
@AdamO Vâng, tôi phần lớn đồng ý, nhưng giá trị P có hai điều cần cung cấp và không nên bỏ qua. Nó là một chỉ số về sức mạnh của bằng chứng chống lại null, một thứ chỉ có thể nhận được từ khoảng tin cậy bởi một con mắt rất có kinh nghiệm và giá trị P chính xác không trực tiếp mời sự phân đôi của bên trong / bên ngoài mà khoảng tin cậy thực hiện . Tất nhiên, một chức năng khả năng cung cấp lợi thế hơn cả hai.
Michael Lew - phục hồi Monica

14

Trong bối cảnh nghiên cứu ứng dụng, kích thước hiệu ứng là cần thiết để người đọc giải thích ý nghĩa thực tiễn (trái ngược với ý nghĩa thống kê) của các phát hiện. Nói chung, giá trị p nhạy hơn nhiều so với kích thước mẫu so với kích thước hiệu ứng. Nếu một thử nghiệm đo kích thước hiệu ứng một cách chính xác (nghĩa là nó đủ gần với tham số dân số mà nó đang ước tính) nhưng mang lại giá trị p không đáng kể thì tất cả mọi thứ đều bằng nhau, tăng kích thước mẫu sẽ dẫn đến cùng kích thước hiệu ứng nhưng giá trị p thấp hơn. Điều này có thể được chứng minh bằng các phân tích sức mạnh hoặc mô phỏng.

Theo cách này, có thể đạt được các giá trị p có ý nghĩa cao đối với các kích thước hiệu ứng không có ý nghĩa thực tế. Ngược lại, thiết kế nghiên cứu với công suất thấp có thể tạo ra giá trị p không đáng kể cho kích thước hiệu ứng có tầm quan trọng thực tế lớn.

Thật khó để thảo luận về các khái niệm về ý nghĩa thống kê kích thước hiệu ứng vis-a-vis mà không có một ứng dụng thực tế cụ thể. Ví dụ, xem xét một thí nghiệm đánh giá hiệu quả của phương pháp học tập mới đối với điểm trung bình của học sinh (GPA). Tôi cho rằng kích thước hiệu ứng 0,01 điểm có ít ý nghĩa thực tế (tức là 2,50 so với 2,51). Giả sử cỡ mẫu của 2.000 học sinh ở cả hai nhóm điều trị và đối chứng và độ lệch chuẩn dân số là 0,5 điểm:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

mẫu điều trị trung bình = 2,51

trung bình mẫu kiểm soát = 2,50

kích thước hiệu ứng = 2,51 - 2,50 = 0,01

p = 0,53

Tăng kích thước mẫu lên 20.000 sinh viên và giữ mọi thứ khác không đổi mang lại giá trị p đáng kể:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

mẫu điều trị trung bình = 2,51

trung bình mẫu kiểm soát = 2,50

kích thước hiệu ứng = 2,51 - 2,50 = 0,01

p = 0,044

Rõ ràng việc tăng kích thước mẫu theo một độ lớn không phải là chuyện nhỏ! Tuy nhiên, tôi nghĩ rằng tất cả chúng ta có thể đồng ý rằng cải tiến thực tế được cung cấp bởi phương pháp nghiên cứu này là không đáng kể. Nếu chúng ta chỉ dựa vào giá trị p thì chúng ta có thể tin khác trong trường hợp n = 20.000.

Cá nhân tôi ủng hộ việc báo cáo cả giá trị p và kích thước hiệu ứng. Và điểm thưởng cho thống kê t- hoặc F, mức độ tự do và chẩn đoán mô hình!


2
Darren, vui lòng cho biết ý nghĩa chính xác của bạn trong R hoặc một cái gì đó giống như PO.
dùng138773

7
@Darrent James Không có tầm quan trọng thực tế trong sự khác biệt giữa p = 0,065 và p = 0,043 ngoài giả định đáng tiếc rằng p = 0,05 là một đường sáng cần được tôn trọng. Không giá trị P đại diện cho bằng chứng thuyết phục cho hoặc chống lại bất cứ điều gì của chính nó.
Michael Lew - phục hồi Monica

@Michael Lew Vâng, tôi đồng ý!
Darren James

1
James, đưa ra mã và giải thích của bạn, dường như bạn đã hoàn toàn hiểu sai quan điểm của OP. Mã R của bạn cũng sai! Bởi vì bạn đã KHÔNG thiết lập var.equal = TRUEtrong khi sds của bạn bằng nhau. Với nền tảng như vậy, tôi không chắc tại sao bạn thậm chí đăng một phản hồi như thế này. OP đang hỏi một câu hỏi không có câu trả lời dễ dàng ít nhất là tại thời điểm hiện tại!
user138773

1
Tôi đã thêm var.equal = TRUE vào mã. Nhưng nó không cần thiết trong trường hợp này. Các giá trị p giống nhau thu được với cả var.equal = TRUE và var.equal = FALSE mặc định.
Darren James

5

Tôi hiện đang làm việc trong lĩnh vực khoa học dữ liệu, và trước đó tôi làm việc trong nghiên cứu giáo dục. Mặc dù tại mỗi "nghề nghiệp", tôi đã hợp tác với những người không xuất phát từ nền tảng chính thức trong thống kê và trong đó sự nhấn mạnh của ý nghĩa thống kê (và thực tế) được đặt nhiều vào giá trị p . Tôi đã học bao gồm và nhấn mạnh kích thước hiệu ứng trong các phân tích của mình vì có sự khác biệt giữa ý nghĩa thống kê và ý nghĩa thực tiễn.

Nói chung, những người tôi làm việc cùng quan tâm đến một điều "chương trình / tính năng của chúng tôi có tạo ra và tác động, có hay không?". Đối với một câu hỏi như thế này, bạn có thể làm một việc đơn giản như kiểm tra t và báo cáo với họ "có, chương trình / tính năng của bạn tạo ra sự khác biệt". Nhưng "sự khác biệt" này lớn hay nhỏ như thế nào?

Đầu tiên, trước khi tôi bắt đầu đi sâu vào chủ đề này, tôi muốn tóm tắt những gì chúng ta đề cập đến khi nói về kích thước hiệu ứng

Kích thước hiệu ứng chỉ đơn giản là một cách định lượng kích thước của sự khác biệt giữa hai nhóm. [...] Nó đặc biệt có giá trị để định lượng hiệu quả của một can thiệp cụ thể, liên quan đến một số so sánh. Nó cho phép chúng ta vượt ra ngoài sự đơn giản, 'Nó có hoạt động hay không?' đến mức tinh vi hơn nhiều, 'Nó hoạt động tốt như thế nào trong một loạt các bối cảnh?' Hơn nữa, bằng cách nhấn mạnh vào khía cạnh quan trọng nhất của can thiệp - kích thước của hiệu ứng - thay vì ý nghĩa thống kê của nó (bao gồm kích thước hiệu ứng và cỡ mẫu), nó thúc đẩy cách tiếp cận khoa học hơn đối với việc tích lũy kiến ​​thức. Vì những lý do này, kích thước hiệu ứng là một công cụ quan trọng trong báo cáo và diễn giải hiệu quả.

Đó là Kích thước Hiệu ứng, Ngốc: Kích thước hiệu ứng là gì và tại sao nó quan trọng

α

Tại sao giá trị P không đủ?

Ý nghĩa thống kê là xác suất mà sự khác biệt quan sát được giữa hai nhóm là do tình cờ. Nếu giá trị P lớn hơn mức alpha được chọn (ví dụ: 0,05), bất kỳ sự khác biệt quan sát được giả định sẽ được giải thích bằng biến thiên lấy mẫu. Với một mẫu đủ lớn, một thử nghiệm thống kê hầu như sẽ luôn chứng minh sự khác biệt đáng kể, trừ khi không có ảnh hưởng gì, nghĩa là khi kích thước hiệu ứng chính xác bằng không; nhưng sự khác biệt rất nhỏ, ngay cả khi đáng kể, thường là vô nghĩa. Do đó, chỉ báo cáo giá trị P đáng kể cho một phân tích là không đủ để người đọc hiểu đầy đủ kết quả.

Và để chứng thực ý kiến ​​của @ DarrenJames về kích thước mẫu lớn

Ví dụ: nếu cỡ mẫu là 10 000, giá trị P đáng kể có thể được tìm thấy ngay cả khi sự khác biệt về kết quả giữa các nhóm là không đáng kể và có thể không biện minh cho một can thiệp tốn kém hoặc tốn thời gian so với một can thiệp khác. Mức độ quan trọng của chính nó không dự đoán kích thước hiệu ứng. Không giống như các thử nghiệm quan trọng, kích thước hiệu ứng không phụ thuộc vào kích thước mẫu. Mặt khác, ý nghĩa thống kê phụ thuộc vào cả cỡ mẫu và cỡ hiệu ứng. Vì lý do này, các giá trị P được coi là bị nhầm lẫn do sự phụ thuộc của chúng vào kích thước mẫu. Đôi khi một kết quả có ý nghĩa thống kê chỉ có nghĩa là một cỡ mẫu lớn đã được sử dụng. [Có một quan điểm sai lầm rằng hành vi này thể hiện sự thiên vị chống lại giả thuyết null.Tại sao kiểm tra giả thuyết thường xuyên trở nên thiên vị đối với việc bác bỏ giả thuyết khống với các mẫu đủ lớn? ]

Sử dụng Hiệu ứng Kích thước hoặc Tại sao Giá trị P không đủ

Báo cáo cả giá trị P và kích thước hiệu ứng

Bây giờ để trả lời câu hỏi, là hiệu ứng kích thước vượt trội để p-giá trị ? Tôi sẽ lập luận rằng, mỗi cái này đóng vai trò là thành phần quan trọng trong phân tích thống kê không thể so sánh được trong các điều khoản đó và nên được báo cáo cùng nhau. Các giá trị p là một số liệu thống kê để chỉ ra ý nghĩa thống kê (chênh lệch từ sự phân bố null), nơi ảnh hưởng puts kích thước bằng lời bao nhiêu sự khác biệt có.

Như một ví dụ, nói người giám sát của bạn, Bob, người không phải là rất stats thân thiện được quan tâm khi nhìn thấy nếu có một mối quan hệ đáng kể giữa trọng lượng (trọng lượng) và mpg (dặm mỗi gallon). Bạn bắt đầu phân tích với các giả thuyết

H0:βmpg= =0 đấu với HMột:βmpg0

α= =0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0

Do đó, bạn đã có thể kết luận rằng kết quả có ý nghĩa thống kê và truyền đạt ý nghĩa trong các điều khoản thực tế.

Tôi hy vọng điều này hữu ích trong việc trả lời câu hỏi của bạn.


Jon, cảm ơn, có rất nhiều khu vực màu xám mà tôi hy vọng được nghe nhiều hơn nhưng tôi đã không làm thế. Trong nhiều tình huống, kích thước hiệu ứng và giá trị p không đồng ý. Nhiều kích cỡ hiệu ứng tin cậy trong các tình huống như vậy mà tôi muốn biết tại sao. Tôi đã hy vọng nghe nhiều hơn về các mô phỏng có thể cho thấy những điểm quan trọng. Về vấn đề bạn đưa ra, nghĩa là kích thước hiệu ứng đó có thể rất nhỏ nhưng không chính xác bằng không; phương pháp kiểm tra tương đương đã được thực hiện trong vài năm nay. Tôi thích thử nghiệm tương đương Bayes hơn nữa. Dù sao, tôi có lẽ đã không hỏi câu hỏi của tôi đủ rõ ràng. - Cảm ơn
rnorouzian

BTW, một đồng nghiệp đã nhận xét rằng mã R của Daren là sai, có vẻ như anh ấy đúng. Anh chưa đặt var.equal = TRUE.
rnorouzian

* Trong nhiều tình huống, kích thước hiệu ứng và giá trị p không đồng ý. * - bạn có thể cung cấp thêm thông tin về điều này không? Một ví dụ? Về vấn đề bạn đưa ra, nghĩa là kích thước hiệu ứng đó có thể rất nhỏ nhưng không chính xác bằng 0 - tình huống này có thể dẫn đến kích thước mẫu lớn. Do đó, nếu kích thước hiệu ứng gần bằng 0, thì biến quan tâm có thể không ảnh hưởng đáng kể đến kết quả hoặc mối quan hệ có thể được chỉ định không chính xác (ví dụ: tuyến tính so với phi tuyến).
Jon

Chỉ cần thử công cụ này . Cũng xem tài liệu này . Có vẻ như tôi sẽ cần phải hỏi một câu hỏi khác sau đó bằng cách sử dụng một số mã cho rõ ràng. -- Cảm ơn bạn.
rnorouzian

@rnorouzian, được rồi, tôi đã chạy mã của bạn. Ý bạn là sao?
Jon

4

Tiện ích của kích thước hiệu ứng liên quan đến giá trị p (cũng như các số liệu suy luận thống kê khác) thường xuyên được tranh luận trong lĩnh vực tâm lý học của tôi và cuộc tranh luận hiện tại là Hot hotter, hơn bình thường vì những lý do liên quan đến câu hỏi của bạn. Và mặc dù tôi chắc chắn rằng tâm lý học không nhất thiết là lĩnh vực khoa học phức tạp nhất về mặt thống kê, nó đã dễ dàng thảo luận, nghiên cứu về thời gian và đã chứng minh những hạn chế của các phương pháp khác nhau đối với suy luận thống kê, hoặc ít nhất là chúng bị hạn chế bởi việc sử dụng của con người. Các câu trả lời đã được đăng bao gồm những hiểu biết tốt, nhưng trong trường hợp bạn quan tâm đến một danh sách rộng hơn (và tài liệu tham khảo) về lý do và chống lại từng lý do, hãy xem bên dưới.

Tại sao giá trị p không mong muốn?

  • Như Darren James lưu ý (và các chương trình mô phỏng của ông), giá trị p phần lớn phụ thuộc vào số lượng quan sát mà bạn có (xem Kirk, 2003)
  • Như Jon lưu ý, giá trị p đại diện cho xác suất có điều kiện quan sát dữ liệu là cực trị hoặc cực đoan hơn cho rằng giả thuyết null là đúng. Vì hầu hết các nhà nghiên cứu muốn có xác suất của giả thuyết nghiên cứu và / hoặc giả thuyết null, giá trị p không nói lên xác suất mà các nhà nghiên cứu quan tâm nhất (ví dụ, giả thuyết null hoặc giả thuyết nghiên cứu, xem Điềnes, 2008)
  • Nhiều người sử dụng giá trị p không hiểu ý nghĩa của chúng / không có nghĩa là gì (Schmidt & Hunter, 1997). Tài liệu tham khảo của Michael Lew về bài viết của Gelman và Stern (2006) nhấn mạnh thêm những hiểu lầm của nhà nghiên cứu về những gì người ta có thể (hoặc không thể) giải thích từ giá trị p. Và như một câu chuyện tương đối gần đây trên FiveThentyEight chứng minh, điều này tiếp tục là trường hợp.
  • giá trị p không tốt trong việc dự đoán giá trị p tiếp theo (Cumming, 2008)
  • giá trị p thường bị báo cáo sai (thường có ý nghĩa tăng cao) và việc nhập sai có liên quan đến việc không muốn chia sẻ dữ liệu (Bakker & W Richts, 2011; Nuijten et al., 2016; W Richts et al., 2011)
  • giá trị p có thể (và trong lịch sử, đã bị) chủ động biến dạng thông qua tính linh hoạt phân tích và do đó không đáng tin cậy (John et al., 2012; Simmons et al., 2011)
  • giá trị p có ý nghĩa không tương xứng, vì các hệ thống học thuật dường như thưởng cho các nhà khoa học về ý nghĩa thống kê so với độ chính xác khoa học (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Tại sao kích thước hiệu ứng mong muốn?

Lưu ý rằng tôi đang diễn giải câu hỏi của bạn như đề cập cụ thể đến kích thước hiệu ứng được tiêu chuẩn hóa, như bạn nói họ cho phép các nhà nghiên cứu chuyển đổi kết quả của họ.

  • Như Jon và Darren James chỉ ra, kích thước hiệu ứng cho thấy mức độ ảnh hưởng, không phụ thuộc vào số lượng quan sát (Hiệp hội Tâm lý học Hoa Kỳ 2010; Cumming, 2014) trái ngược với việc đưa ra quyết định phân biệt về việc liệu có hiệu ứng ở đó hay không.
  • Kích thước hiệu ứng rất có giá trị vì chúng có thể phân tích meta và phân tích tổng hợp kiến ​​thức tích lũy (Borenstein và cộng sự, 2009; Chan & Arvey, 2012)
  • Kích thước hiệu ứng giúp tạo thuận lợi cho việc lập kế hoạch kích thước mẫu thông qua phân tích sức mạnh tiên nghiệm và do đó phân bổ nguồn lực hiệu quả trong nghiên cứu (Cohen, 1992)

Tại sao giá trị p mong muốn?

Mặc dù chúng ít được tán thành, giá trị p có một số đặc quyền. Một số là nổi tiếng và lâu đời, trong khi những người khác là tương đối mới.

  • Giá trị P cung cấp một chỉ số thuận tiện và quen thuộc về sức mạnh của bằng chứng chống lại giả thuyết null mô hình thống kê.

  • Khi được tính toán chính xác, giá trị p cung cấp phương tiện để đưa ra quyết định phân đôi (đôi khi cần thiết) và giá trị p giúp giữ tỷ lệ lỗi dương tính lâu dài ở mức chấp nhận được (dienes, 2008; Sakaluk, 2016) [Nó không đúng hoàn toàn để nói rằng giá trị P là bắt buộc cho các quyết định phân đôi. Chúng thực sự được sử dụng rộng rãi theo cách đó, nhưng Neyman & Pearson đã sử dụng 'các khu vực quan trọng' trong không gian thống kê thử nghiệm cho mục đích đó. Xem câu hỏi này và câu trả lời của nó]

  • giá trị p có thể được sử dụng để tạo điều kiện lập kế hoạch kích thước mẫu hiệu quả liên tục (không chỉ phân tích công suất một lần) (Lakens, 2014)
  • giá trị p có thể được sử dụng để tạo điều kiện cho phân tích tổng hợp và đánh giá giá trị bằng chứng (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Xem blogpost này để biết một cuộc thảo luận có thể truy cập về cách phân phối giá trị p có thể được sử dụng theo cách này, cũng như bài đăng CV này cho một cuộc thảo luận liên quan.
  • Giá trị p có thể được sử dụng theo pháp y để xác định liệu các thực tiễn nghiên cứu đáng ngờ có thể đã được sử dụng hay không và kết quả có thể nhân rộng như thế nào (Schimmack, 2014; cũng xem ứng dụng của Schönbrodt, 2015)

Tại sao kích thước hiệu ứng không mong muốn (hoặc được đánh giá cao)?

Có lẽ vị trí phản trực quan nhất đối với nhiều người; Tại sao báo cáo kích thước hiệu ứng được tiêu chuẩn hóa là không mong muốn, hoặc ít nhất, được đánh giá cao?

  • Trong một số trường hợp, kích thước hiệu ứng được tiêu chuẩn hóa không phải là tất cả những gì chúng bị bẻ khóa (ví dụ: Greenland, Schlesselman, & Criqui, 1986). Baguely (2009), đặc biệt, có một mô tả hay về một số lý do tại sao kích thước hiệu ứng thô / không đạt tiêu chuẩn có thể được mong muốn hơn.
  • Mặc dù tiện ích của chúng để phân tích công suất tiên nghiệm, kích thước hiệu ứng không thực sự được sử dụng một cách đáng tin cậy để tạo điều kiện lập kế hoạch cỡ mẫu hiệu quả (Maxwell, 2004)
  • Ngay cả khi kích thước hiệu ứng được sử dụng trong lập kế hoạch kích thước mẫu, bởi vì chúng bị thổi phồng qua độ lệch xuất bản (Rosenthal, 1979) kích thước hiệu ứng được công bố là tiện ích đáng ngờ cho việc lập kế hoạch cỡ mẫu đáng tin cậy (Simonsohn, 2013)
  • Các ước tính kích thước hiệu ứng có thể được sử dụng và đã được tính toán sai hệ thống trong phần mềm thống kê (Levine & HONS, 2002)
  • Kích thước hiệu ứng bị trích xuất sai (và có thể bị báo cáo sai) làm giảm uy tín của các phân tích tổng hợp (Gøtzsche et al., 2007)
  • Cuối cùng, việc sửa lỗi cho sai lệch xuất bản ở kích thước hiệu ứng vẫn không hiệu quả (xem Carter và cộng sự, 2017), nếu bạn tin rằng xu hướng xuất bản tồn tại, sẽ giúp phân tích tổng hợp ít ảnh hưởng hơn.

Tóm lược

Báo lại điểm được thực hiện bởi Michael Lew, giá trị p và kích thước hiệu ứng là hai phần bằng chứng thống kê; Có những người khác đáng xem xét quá. Nhưng giống như giá trị p và kích thước hiệu ứng, các số liệu khác về giá trị chứng minh cũng có chung các vấn đề. Các nhà nghiên cứu thường sử dụng sai khoảng tin cậy và giải thích sai (ví dụ: Hoekstra và cộng sự, 2014; Morey et al., 2016), ví dụ, và kết quả phân tích Bayes có thể bị các nhà nghiên cứu bóp méo, giống như khi sử dụng giá trị p (ví dụ, Simonsohn , 2014).

Tất cả các số liệu bằng chứng đã giành chiến thắng và tất cả phải có giải thưởng.

Người giới thiệu

Hiệp hội tâm lý Mỹ. (2010). Cẩm nang xuất bản của Hiệp hội Tâm lý Hoa Kỳ (tái bản lần thứ 6). Washington, DC: Hiệp hội Tâm lý Hoa Kỳ.

Baguley, T. (2009). Kích thước hiệu ứng chuẩn hoặc đơn giản: Những gì cần được báo cáo?. Tạp chí Tâm lý học Anh, 100 (3), 603-617.

Bakker, M., & W Richts, JM (2011). Báo cáo (mis) về kết quả thống kê trong các tạp chí tâm lý học. Phương pháp nghiên cứu hành vi, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Giới thiệu về phân tích tổng hợp. Tây Sussex, Anh: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, ngày 12 tháng 8). Sửa lỗi cho sai lệch trong tâm lý học: Một so sánh các phương pháp phân tích tổng hợp. Lấy từ osf.io/preprints/psyarxiv/9h3nu

Chân, ME, & Arvey, RD (2012). Phân tích tổng hợp và phát triển kiến ​​thức. Quan điểm về khoa học tâm lý, 7 (1), 79-92.

Cohen, J. (1992). Một mồi điện. Bản tin tâm lý, 112 (1), 155-159. 

Cumming, G. (2008). Sao chép và khoảng p: giá trị p chỉ dự đoán tương lai một cách mơ hồ, nhưng khoảng tin cậy làm tốt hơn nhiều. Quan điểm về khoa học tâm lý, 3, 286 Ảo 300.

Diên, D. (2008). Hiểu tâm lý học như một khoa học: Giới thiệu về suy luận khoa học và thống kê. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). Kết quả tích cực của Hồi giáo làm tăng thứ bậc của các ngành khoa học. PloS một, 5 (4), e10068.

Gelman, A., & Stern, H. (2006). Sự khác biệt giữa những người quan trọng của người Hồi giáo và người khác không có ý nghĩa về bản chất không phải là có ý nghĩa thống kê. Nhà thống kê người Mỹ, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Lỗi trích xuất dữ liệu trong phân tích tổng hợp sử dụng các khác biệt trung bình được tiêu chuẩn hóa. JAMA, 298 (4), 430-437.

Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Sai lầm của việc sử dụng các hệ số hồi quy tiêu chuẩn hóa và các mối tương quan như là các biện pháp hiệu quả. Tạp chí Dịch tễ học Hoa Kỳ, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Giải thích sai về các khoảng tin cậy. Bản tin & đánh giá tâm lý, 21 (5), 1157-1164.

John, LK, Loewenstein, G., & Prelec, D. (2012). Đo lường mức độ phổ biến của thực tiễn nghiên cứu đáng ngờ với các khuyến khích cho việc nói sự thật. Tâm lý học, 23 (5), 524-532.

Kirk, RE (2003). Tầm quan trọng của cường độ hiệu ứng. Trong SF Davis (Ed.), Sổ tay về phương pháp nghiên cứu trong tâm lý học thực nghiệm (trang 83 Công cụ 105). Malden, MA: Blackwell.

Lakens, D. (2014). Thực hiện các nghiên cứu năng lượng cao một cách hiệu quả với các phân tích tuần tự. Tạp chí tâm lý xã hội châu Âu, 44 (7), 701-710.

Levine, TR, & Hullett, CR (2002). Eta bình phương, bình phương một phần và bình luận sai về kích thước hiệu ứng trong nghiên cứu truyền thông. Nghiên cứu truyền thông con người, 28 (4), 612-625.

Maxwell, SE (2004). Sự kiên trì của các nghiên cứu thiếu năng lực trong nghiên cứu tâm lý: nguyên nhân, hậu quả và biện pháp khắc phục. Phương pháp tâm lý, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). Sai lầm của việc đặt niềm tin vào khoảng tin cậy. Bản tin & đánh giá tâm lý, 23 (1), 103-123.

Mũi, BA, Điệp viên, JR, & Motyl, M. (2012). Khoa học không tưởng: II. Tái cơ cấu khuyến khích và thực hành để thúc đẩy sự thật về khả năng xuất bản. Quan điểm về khoa học tâm lý, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & W Richts, JM (2016). Tỷ lệ mắc lỗi báo cáo thống kê trong tâm lý học (1985 đi2013). Phương pháp nghiên cứu hành vi, 48 (4), 1205-1226.

Rosenthal, R. (1979). Các vấn đề ngăn kéo tập tin và dung sai cho kết quả null. Bản tin tâm lý, 86 (3), 638-641.

Sakaluk, JK (2016). Khám phá nhỏ, xác nhận lớn: Một hệ thống thay thế cho các số liệu thống kê mới để thúc đẩy nghiên cứu tâm lý tích lũy và nhân rộng. Tạp chí Tâm lý học xã hội thí nghiệm, 66, 47-54.

Schimmack, Hoa Kỳ (2014). Định lượng toàn vẹn nghiên cứu thống kê: Chỉ số tái tạo. Lấy từ http://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997). Tám phản đối phổ biến nhưng sai đối với việc ngừng thử nghiệm ý nghĩa trong phân tích dữ liệu nghiên cứu. Trong LL Harlow, SA Mulaik, & JH Steiger (Eds.), Nếu không có bài kiểm tra quan trọng thì sao? (trang 37 Tiếng64). Mahwah, NJ: Erlbaum.

Schonbrodt, FD (2015). p-checker: Máy phân tích giá trị p cho tất cả. Lấy từ http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý dương tính giả: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học tâm lý, 22 (11), 1359-1366.

Simonsohn, Hoa Kỳ (2013). Sự điên rồ của các bản sao cung cấp năng lượng dựa trên kích thước hiệu ứng quan sát được. Truy xuất từ http://datacolada.org/4

Simonsohn, Hoa Kỳ (2014). Hậu thế hack. Lấy từ http://datacolada.org/13 .

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Đường cong P: Một phím để ngăn kéo tập tin. Tạp chí Tâm lý học Thực nghiệm: Chung, 143 (2), 534-547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Đường cong P và kích thước hiệu ứng: Sửa lỗi cho sai lệch xuất bản chỉ sử dụng kết quả quan trọng. Quan điểm về khoa học tâm lý, 9 (6), 666-681.

Người giàu hơn, JM, Bakker, M., & Molenaar, D. (2011). Sẵn sàng chia sẻ dữ liệu nghiên cứu có liên quan đến sức mạnh của bằng chứng và chất lượng báo cáo kết quả thống kê. PloS một, 6 (11), e26828.


2
Bộ sưu tập ý tưởng và tài liệu tham khảo rất đẹp. Nó sẽ hữu ích cho những người muốn đào sâu thêm một chút, nhưng lưu ý rằng nhiều điểm có câu hỏi và câu trả lời có liên quan trên trang web này. Liên kết đến những người sẽ giúp quá.
Michael Lew - phục hồi Monica

@MichaelLew Cảm ơn. Tôi sẽ thấy về việc thêm một số liên kết khi tôi có thời gian sau đó - tôi đã mất phần tốt hơn vào buổi chiều để soạn thảo phản hồi này và tập hợp các tài liệu tham khảo. Về chỉnh sửa của bạn, tôi nghĩ rằng quan điểm của bạn được thực hiện tốt, nhưng có lẽ nhiều hơn một bổ sung, trái ngược với một chỉnh sửa? Tôi đã nói giá trị p cung cấp một phương tiện để đưa ra quyết định phân đôi (không phải là "bắt buộc", hoặc cách duy nhất để làm như vậy). Tôi đồng ý rằng các khu vực quan trọng của NP là một cách khác, nhưng tôi đã phản hồi với OP trong bối cảnh giá trị p có thể so với kích thước hiệu ứng được tiêu chuẩn hóa.
jsakaluk

1
jsakaluk, vâng tôi có thể thấy rằng bạn đã dành một thời gian dài cho câu trả lời và nó rất hữu ích và xứng đáng với nỗ lực của bạn. Tôi đã chỉnh sửa mục này về lợi thế của giá trị P vì bạn đã viết "Khi được sử dụng đúng" chúng có thể được phân đôi, trong khi thực tế là việc sử dụng đó bỏ qua phần lớn thông tin được mã hóa trong giá trị P và do đó có thể tranh cãi (và theo ý kiến ​​của tôi) một cách sử dụng không chính xác. Tôi không muốn lật đổ ý định của bạn và vì vậy tôi đã thay đổi "đã sử dụng" thành "tính toán".
Michael Lew - phục hồi Monica

3

Từ quan điểm của một nhà dịch tễ học, về lý do tại sao tôi thích kích thước hiệu ứng hơn giá trị p (mặc dù như một số người đã lưu ý, đó là một sự phân đôi giả):

  1. Kích thước hiệu ứng cho tôi biết những gì tôi thực sự muốn, giá trị p chỉ cho tôi biết nếu nó có thể phân biệt được với null. Rủi ro tương đối 1,0001, 1,5, 5 và 50 đều có thể có cùng giá trị p liên quan đến chúng, nhưng có nghĩa là những điều khác nhau rất lớn về những gì chúng ta có thể cần phải làm ở cấp độ dân số.
  2. Dựa vào giá trị p củng cố quan niệm rằng thử nghiệm giả thuyết dựa trên ý nghĩa là kết quả cuối cùng, là tất cả của bằng chứng. Hãy xem xét hai tuyên bố sau: "Các bác sĩ mỉm cười với bệnh nhân không liên quan đáng kể đến kết quả bất lợi trong thời gian nằm viện." so với "Những bệnh nhân có nụ cười bác sĩ của họ với họ có ít hơn 50% khả năng có kết quả bất lợi (p = 0,086)." Bạn có thể, vẫn có thể, vì nó hoàn toàn không có chi phí, xem xét đề nghị các bác sĩ mỉm cười với bệnh nhân của họ?
  3. Tôi làm việc với rất nhiều mô hình mô phỏng ngẫu nhiên, trong đó kích thước mẫu là một chức năng của sức mạnh tính toán và sự kiên nhẫn, và giá trị p về cơ bản là vô nghĩa. Tôi đã quản lý để có được kết quả p <0,05 cho những thứ hoàn toàn không liên quan đến sức khỏe lâm sàng hoặc công cộng.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.