Hiệu ứng kích thước là gì và tại sao nó thậm chí còn hữu ích?


18

Tôi có một nền tảng thống kê cấp độ sau đại học giới thiệu (giả sử tôi biết thống kê toán học và xác suất ở cấp đại học (ví dụ, Wackerly và cộng sự, Xác suất của Ross) và có một số kiến ​​thức về lý thuyết đo lường).

Gần đây tôi đã bắt đầu một công việc làm thiết kế thử nghiệm và báo cáo thống kê trong thống kê giáo dục, và đã được đặt vào một dự án mà về cơ bản tôi đang đánh giá các số liệu trách nhiệm cho các trường học và phải phân tích dữ liệu, đề xuất thay đổi, v.v. Lưu ý rằng tôi là người duy nhất một trong bộ phận của tôi với một nền tảng thống kê toán học.

Ở vị trí của tôi, mọi người đã đề nghị sử dụng kích thước hiệu ứng để đo lường hiệu quả của các chương trình. Lần duy nhất tôi từng nghe về kích thước hiệu ứng là từ bạn tôi, người nghiên cứu tâm lý học. Ấn tượng của tôi là

Effect Size=Difference of MeansStandard Deviation.

Điều gì rất hữu ích về số liệu này so với thử nghiệm giả thuyết truyền thống, và tại sao tôi nên quan tâm đến nó? Đối với tôi, có vẻ như không có gì khác hơn một thống kê kiểm tra cho một -test hai mẫu . Tôi không thấy điều này hữu ích chút nào ngoài việc có thể đặt mọi thứ lên cùng một tỷ lệ (đó là lý do tại sao bất cứ ai thực sự "bình thường hóa" bất cứ điều gì), nhưng tôi nghĩ rằng số liệu thống kê thử nghiệm (đó là kích thước có vẻ như đối với tôi) đã lỗi thời và giá trị được ưa thích.ptp


Tôi hơi bối rối bởi "nền tảng số liệu thống kê cấp độ giới thiệu"; hai thuật ngữ đầu tiên dường như mâu thuẫn với nhau. Bạn có thể làm rõ những gì bao gồm? Đó có phải là một cái gì đó giống như sự bắt đầu của thống kê cấp độ sau đại học hoặc cái gì khác?
Glen_b -Reinstate Monica

2
@Glen_b Vâng, nó đang bắt đầu thống kê cấp độ sau đại học. Giả sử tôi biết số liệu thống kê và xác suất toán học ở cấp đại học (ví dụ, Wackerly và cộng sự, Xác suất của Ross) và có một số kiến ​​thức về lý thuyết đo lường.
Clarinetist

3
Tôi có thể thông cảm, OP. Xuất thân từ nền tảng toán học / thống kê, thường rất hoang mang khi thảo luận về thống kê với những người được đào tạo về các chương trình tiến sĩ xã hội học hoặc tâm lý học, bởi vì họ có các thuật ngữ khác nhau cho mọi thứ :) và đôi khi có những ý tưởng cứng nhắc về cách làm chính xác, bất kể đó là gì thực tiễn thống kê tốt nhất, ví dụ như cố gắng thuyết phục một nhà phê bình / biên tập cứng đầu rằng mô hình phương trình cấu trúc không phải là giải pháp cho tất cả các vấn đề, hoặc tuyến tính không phải lúc nào cũng là một giả định tốt! Tuy nhiên, tôi đã học được cách kết hợp với cộng đồng đó khá tốt, sau vài năm!
CrockGill

Câu trả lời:


20

Đó là một thước đo kích thước hiệu ứng, nhưng có nhiều thứ khác. Nó chắc chắn không phải là thống kê kiểm tra . Thước đo kích thước hiệu ứng của bạn thường được gọi là Cohen's (nói đúng là chỉ đúng nếu SD được ước tính thông qua MLE cách tức là không có sự điều chỉnh của Bessel ); nói chung hơn, nó được gọi là "sự khác biệt trung bình được tiêu chuẩn hóa". Có lẽ điều này sẽ làm rõ hơn rằng : Đó là, "d t d dtdtd
/

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
/N"Thiếu từ công thức cho sự khác biệt trung bình được tiêu chuẩn hóa.

Tổng quát hơn, lấy cỡ mẫu ra khỏi giá trị cung cấp thông tin thực. Giả sử các hiệu ứng thật sự không phải là chính xác đến chữ số thập phân vô hạn, bạn có thể đạt được bất kỳ mức ý nghĩa bạn có thể muốn có đủ . Giá trị cung cấp thông tin về mức độ tự tin của chúng tôi trong việc bác bỏ giả thuyết khống, nhưng làm như vậy bằng cách kết hợp mức độ ảnh hưởng của nó với lượng dữ liệu bạn có. Thật là tốt khi biết liệu chúng ta nên từ chối giả thuyết khống, nhưng cũng sẽ rất tốt nếu biết hiệu quả của sự can thiệp giáo dục của bạn tạo ra lợi ích lớn cho học sinh hay là tầm thường và chỉ đáng kể do lớn . N p N0NpN


15

Tôi hy vọng ai đó có nền tảng trong một lĩnh vực phù hợp hơn (tâm lý học hoặc giáo dục, nói) sẽ hòa hợp với một câu trả lời tốt hơn, nhưng tôi sẽ cho nó một cú đánh.

" Kích thước hiệu ứng " là một thuật ngữ có nhiều hơn một nghĩa - mà nhiều năm trước đã dẫn đến một số cuộc trò chuyện lẫn lộn cho đến khi tôi cuối cùng nhận ra điều đó. Ở đây chúng tôi rõ ràng đang xử lý phiên bản độ lệch theo tỷ lệ cho tiêu chuẩn ("có bao nhiêu độ lệch chuẩn đã thay đổi?")

Một phần lý do để xem loại "kích thước hiệu ứng" đó trong các lĩnh vực chủ đề mà chúng phổ biến là vì chúng thường có các biến có giá trị cụ thể vốn không có ý nghĩa nhưng được xây dựng để cố gắng đo lường một số điều cơ bản khó có được tại.

Ví dụ, hãy tưởng tượng bạn đang cố gắng đo lường mức độ hài lòng của công việc (có lẽ đối với một mô hình liên quan đến một số biến độc lập, có thể bao gồm một số điều trị quan tâm chẳng hạn). Bạn không có cách nào để lấy nó trực tiếp, nhưng bạn có thể (ví dụ) cố gắng xây dựng một số câu hỏi để có được các khía cạnh khác nhau của nó, có thể sử dụng một cái gì đó như thang đo Likert.

Một nhà nghiên cứu khác nhau có thể có một cách tiếp cận khác nhau để đo lường mức độ hài lòng của công việc, và do đó hai bộ đo lường "Mức độ hài lòng" của bạn không thể so sánh trực tiếp - nhưng nếu chúng có các hình thức hợp lệ khác nhau và do đó những điều này được kiểm tra (để họ có thể đo lường sự hài lòng một cách hợp lý), sau đó họ có thể hy vọng có kích thước hiệu ứng rất giống nhau; ở kích thước hiệu ứng tối thiểu sẽ gần như tương đương.


3
thực hiện một công việc rất hay là giới thiệu ý tưởng về một "công trình" không có kỹ thuật. Nhưng trong công việc của bạn, Clarinetist, bạn sẽ cần hiểu ý tưởng này ở một số chiều sâu. Tôi đánh giá cao nguồn gốc về 'xây dựng tính hợp lệ', bài viết năm 1955 của Cronbach & Meehl trong Bản tin tâm lý: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris

7

Công thức trên là cách bạn tính toán Cohen d cho mẫu liên quan (mà có lẽ những gì bạn có?), Nếu họ không liên quan bạn có thể sử dụng sai gộp thay thế. Có các số liệu thống kê khác nhau sẽ cho bạn biết về kích thước hiệu ứng, nhưng Cohen là một thước đo được tiêu chuẩn hóa có thể thay đổi trong khoảng từ 0 đến 3. Nếu bạn có nhiều biến số khác nhau, thật tuyệt khi có một thước đo được tiêu chuẩn hóa khi bạn nghĩ về tất cả chúng cùng nhau. Mặt khác, nhiều người thích hiểu kích thước hiệu ứng theo các đơn vị được đo. Tại sao tính d khi bạn đã có giá trị p? Đây là một ví dụ từ bộ dữ liệu tôi hiện đang làm việc. Tôi đang xem xét một can thiệp hành vi được thực hiện trong các trường học, được đo bằng các câu hỏi tâm lý được xác thực (tạo ra dữ liệu Likert). Hầu như tất cả các biến của tôi cho thấy sự thay đổi có ý nghĩa thống kê, có lẽ không có gì đáng ngạc nhiên khi tôi có một mẫu lớn (n = ~ 250). Tuy nhiên, đối với một số biến, Cohen's dlà khá nhỏ, giả sử 0.12 chỉ ra rằng mặc dù có sự thay đổi chắc chắn, nó có thể không phải là một thay đổi quan trọng về mặt lâm sàng và vì vậy điều quan trọng là thảo luận và giải thích những gì đang diễn ra trong dữ liệu. Khái niệm này được sử dụng rộng rãi trong tâm lý học và khoa học sức khỏe nơi các học viên (hoặc trường học, trong trường hợp của bạn) cần xem xét tiện ích lâm sàng thực tế của phương pháp điều trị (hoặc bất cứ điều gì họ đang thử nghiệm). Cohen's d giúp chúng tôi trả lời các câu hỏi về việc có thực sự can thiệp hay không (bất kể giá trị p). Trong khoa học y tế, họ cũng thích xem xét NNT và đánh giá điều này về mức độ nghiêm trọng của tình trạng này. Hãy xem tài nguyên tuyệt vời này từ @krstoffr http://rpsychologist.com/d3/cohend/



2

Trên thực tế, giá trị p cuối cùng cũng đã lỗi thời: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Thử nghiệm ý nghĩa giả thuyết Null (NHST) tạo ra ít hơn một mô tả về cỡ mẫu của bạn. (*) Bất kỳ can thiệp thử nghiệm nào cũng sẽ có một số ảnh hưởng, có nghĩa là giả thuyết null đơn giản về 'không ảnh hưởng' luôn sai theo nghĩa nghiêm ngặt . Do đó, thử nghiệm 'không đáng kể' chỉ đơn giản có nghĩa là cỡ mẫu của bạn không đủ lớn; một bài kiểm tra 'đáng kể' có nghĩa là bạn đã thu thập đủ dữ liệu để 'tìm' thứ gì đó.

"Kích thước hiệu ứng" thể hiện nỗ lực khắc phục điều này, bằng cách đưa ra một biện pháp theo thang đo tự nhiên của vấn đề. Trong y học, nơi các phương pháp điều trị luôn có một số hiệu quả (ngay cả khi đó là hiệu ứng giả dược), khái niệm 'hiệu quả có ý nghĩa lâm sàng' được đưa ra để bảo vệ chống lại xác suất trước 50% rằng 'phương pháp điều trị' sẽ được tìm thấy ' về mặt thống kê) hiệu quả tích cực đáng kể '(tuy nhiên rất nhỏ) trong một nghiên cứu lớn tùy ý.

Nếu tôi hiểu bản chất công việc của bạn, Clarinetist, thì vào cuối ngày, mục đích chính đáng của nó là thông báo các hành động / can thiệp để cải thiện giáo dục trong các trường học dưới tầm nhìn của bạn. Do đó, thiết lập của bạn là một lý thuyết quyết định và phương pháp Bayes là cách tiếp cận phù hợp nhất (và duy nhất mạch lạc [1] ).

Thật vậy, cách tốt nhất để hiểu các phương pháp thường xuyên là gần đúng với các phương pháp Bayes . Kích thước hiệu ứng ước tính có thể được hiểu là nhằm mục đích đo lường tính trung tâm cho phân bố sau của Bayes , trong khi giá trị p có thể được hiểu là nhằm mục đích đo một đuôi của hậu thế đó. Như vậy, cùng hai đại lượng này có chứa một số ý chính sơ bộ hậu Bayesian đó được hiểu là đầu vào tự nhiên để một cái nhìn quyết định lý thuyết về vấn đề của bạn. (Ngoài ra, khoảng tin cậy thường xuyên về kích thước hiệu ứng có thể được hiểu tương tự như khoảng tin cậy của Wannabe .)

Trong các lĩnh vực tâm lý học và giáo dục, phương pháp Bayes thực sự khá phổ biến. Một lý do cho điều này là rất dễ cài đặt 'cấu trúc' vào các mô hình Bayes, như các biến tiềm ẩn. Bạn có thể muốn xem 'cuốn sách cún con' của John K. Kruschke , một nhà tâm lý học. Trong giáo dục (nơi bạn có học sinh lồng nhau trong lớp học, lồng trong trường học, lồng trong quận, ...), mô hình phân cấp là không thể tránh khỏi. Và các mô hình Bayes cũng rất tốt cho mô hình phân cấp. Trên tài khoản này, bạn có thể muốn kiểm tra Gelman & Hill [2].

[1]: Robert, Christian P. Sự lựa chọn Bayes: Từ nền tảng quyết định-lý thuyết đến thực hiện tính toán. Tái bản lần 2 Các văn bản Springer trong Thống kê. New York: Springer, 2007.

[2]: Gelman, Andrew và Jennifer Hill. Phân tích dữ liệu bằng mô hình hồi quy và đa cấp / phân cấp. Phương pháp phân tích cho nghiên cứu xã hội. Cambridge; New York: Nhà xuất bản Đại học Cambridge, 2007.


Để biết thêm về 'sự gắn kết' từ quan điểm không nhất thiết phải đập bạn-trên-đầu-với-một-Bayesian , xem [3].

[3]: Robins, James và Larry Wasserman. Điều hòa nhiệt độ, khả năng thích ứng và sự gắn kết: Đánh giá một số khái niệm nền tảng. Tạp chí của Hiệp hội thống kê Hoa Kỳ 95, không. 452 (ngày 1 tháng 12 năm 2000): 1340 Từ46. doi: 10.1080 / 01621459.2000.10474344.

(*) Trong [4], Meehl quét NHST thanh lịch hơn nhiều, nhưng không kém phần mài mòn, như tôi làm:

Do giả thuyết không có giá trị luôn luôn sai, các bảng tóm tắt nghiên cứu về các mẫu của sự khác biệt đáng kể, nên ít nhiều phức tạp, kết quả không thể giải thích được của các hàm quyền lực thống kê.

[4]: Meehl, Paul. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Và đây là một trích dẫn có liên quan từ Tukey: /stats//a/728/41404


1
" Bất kỳ can thiệp thử nghiệm nào cũng sẽ có hiệu quả" (nhấn mạnh của tôi) là một tuyên bố khá mạnh mẽ, cũng như "luôn luôn" sau đó. Trong một số lĩnh vực nghiên cứu có lẽ đó là một quy tắc tuyệt vời, nhưng tôi nghĩ có những nguy hiểm khi quá càn quét. Tôi cũng đề xuất rằng "[NHST] tạo ra ít hơn một mô tả về kích thước mẫu của bạn" là có thể tranh cãi: giá trị p xuất hiện từ sự tương tác giữa cả kích thước của mẫu kích thước của hiệu ứng.
Cá bạc

@Silverfish, cảm ơn bạn đã trả lời. Tôi muốn mời bạn cung cấp một ví dụ trong đó quan điểm của tôi về giá trị p sẽ là 'nguy hiểm'. (BTW, tôi đã đặt một số chữ in nghiêng và sử dụng cụm từ "theo nghĩa chặt chẽ" để dự đoán một khiếu nại như của bạn. Yêu cầu của tôi vẫn đứng vững.) Hơn nữa, mặc dù giá trị p thực sự "xuất hiện từ sự tương tác" của hai yếu tố khác, một trong số đó (cỡ mẫu) phần lớn là tham số thiết kế miễn phí, được chọn tùy ý. Sự lựa chọn tùy ý đó là những gì giá trị p do đó phản ánh. Hai số rõ ràng là cần thiết; Tại sao không phải là điểm cuối của khoảng tin cậy?
David C. Norris

2
Ví dụ: bất kỳ trường hợp nào mà chúng tôi có thể mong đợi một cách hợp lý giả thuyết null là đúng hoặc ít nhất là chúng tôi không thể nói rõ rằng chúng tôi chắc chắn rằng nó sai mà không cần phải tiến hành một thử nghiệm hoặc xem xét dữ liệu. Không phải tất cả các giá trị đều sai: xem xét nghiên cứu về cận lâm sàng, chẳng hạn như thí nghiệm thần giao cách cảm và tiên đoán, nhưng nhiều null là đúng trong các lĩnh vực mà bạn có thể xem là "có giá trị khoa học" hơn như genomics.
Cá bạc

5
-1, có rất nhiều vấn đề ở đây, IMO. Việc 1 tạp chí tâm lý học nhỏ bị cấm giá trị p không có nghĩa là "giá trị p cuối cùng đã" lỗi thời ". Lệnh cấm đã bị chỉ trích rộng rãi (bao gồm một tuyên bố lịch sự của ASA & đã không được đưa lên bởi bất kỳ tạp chí nào khác trong những tháng kể từ đó. Tôi lưu ý rằng tạp chí không yêu cầu chuyển sang phương pháp Bayes (mà tôi thu thập là sở thích của bạn) , nhưng sẽ chỉ xem xét nó trên cơ sở từng trường hợp cụ thể.
gung - Tái lập Monica

3
Tuy nhiên, trong một thí nghiệm thực sự, quá trình ngẫu nhiên các đơn vị phá vỡ các con đường nội sinh liên quan đến thử nghiệm đường dẫn nhân quả trực tiếp từ X đến Y. Đây là một tuyên bố siêu hình kỳ lạ để khẳng định rằng tất cả các biến được kết nối trực tiếp theo cả hai hướng, nhưng nếu bạn đừng giữ điều này, sẽ không nhất quán khi cho rằng giả thuyết null null về 'không ảnh hưởng' luôn luôn là sai.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.