Thống kê mô tả không phải là kích thước hiệu ứng?


12

Wikipedia nói

kích thước hiệu ứng là thước đo cường độ của một hiện tượng hoặc ước tính dựa trên mẫu của đại lượng đó. Kích thước hiệu ứng được tính từ dữ liệu là một thống kê mô tả truyền đạt mức độ ước tính của mối quan hệ mà không đưa ra bất kỳ tuyên bố nào về việc liệu mối quan hệ rõ ràng trong dữ liệu có phản ánh mối quan hệ thực sự trong dân số hay không.

Để hiểu rõ hơn, tôi đã tự hỏi những gì thống kê mô tả không phải là kích thước hiệu ứng, ngoại trừ biểu đồ và sơ đồ.


Đồ thị và sơ đồ thực sự có thể là tuyệt vời để đánh giá kích thước của hiệu ứng theo những cách trực quan hơn so với các biện pháp kích thước hiệu ứng. Nếu bạn thực sự thấy sự chồng chéo giữa hai nhóm trên một số biện pháp (tương đương với một d nhỏ hơn ), có lẽ dễ dàng nhận ra rằng một sự khác biệt đáng kể không có nghĩa là tất cả các thành viên của một nhóm đều có điểm thấp hơn các thành viên của nhóm khác , v.v.
Gala

Câu trả lời:


18

Kích thước ảnh hưởng

  • Kích thước hiệu ứng tiêu chuẩn hóa thông thường thường định lượng số lượng hoặc mức độ của một mối quan hệ hoặc hiệu ứng. Các biện pháp kích thước hiệu ứng phổ biến nhất có lẽ là cohen d, Pearson's r và tỷ lệ chênh lệch (đặc biệt đối với công cụ dự đoán nhị phân).
  • Các biện pháp kích thước hiệu ứng ít phổ biến hơn:Điều đó nói rằng, bạn có thể có các biện pháp kích thước hiệu ứng tiêu chuẩn và không chuẩn. Bất kỳ thống kê nào truyền đạt mức độ của các mối quan hệ và không bị ô nhiễm đặc biệt bởi kích thước mẫu có thể là thước đo kích thước hiệu ứng. Do đó, các hệ số Beta, bình phương R, hiệp phương sai, khác biệt trung bình thô giữa các nhóm, v.v ... đều nắm bắt được mức độ hiệu quả. Điều đó nói rằng, tôi thấy rằng một số nhà nghiên cứu áp dụng các biện pháp kích thước hiệu ứng có phần mù quáng và quên rằng mục đích rộng hơn là mang đến cho độc giả cảm giác về mức độ hiệu quả. Và do đó, họ thường không nhận ra rằng các biện pháp như sự khác biệt trung bình hoặc hệ số hồi quy thô theo một nghĩa nào đó là thước đo kích thước hiệu ứng. Một ví dụ khác về việc sử dụng mù các kích thước hiệu ứng liên quan đến việc sử dụng các biện pháp kích thước hiệu ứng không có diễn giải trực quan, nhưng đã được một số sách giáo khoa khuyến nghị.

Không phải kích cỡ hiệu ứng:

  • Hầu hết các thống kê kiểm tra không phải là kích thước hiệu ứng. Ví dụ: kiểm tra Chi-vuông, kiểm tra t, kiểm tra z, kiểm tra F. Chúng trở nên lớn hơn khi kích thước của hiệu ứng dân số tăng và khi kích thước mẫu tăng. Trong nhiều khía cạnh, toàn bộ ngôn ngữ của kích thước hiệu ứng đã được nhấn mạnh trong những năm gần đây bởi vì các nhà nghiên cứu đã tập trung quá nhiều vào số liệu thống kê thử nghiệm của họ lớn hơn thay vì kích thước hiệu ứng của họ lớn như thế nào. Điều này đặc biệt quan trọng khi bạn có cỡ mẫu lớn khi các hiệu ứng nhỏ thậm chí có thể có ý nghĩa thống kê.
  • Hầu hết các thống kê đơn biến không phải là kích thước hiệu ứng. Đối với hầu hết các mục đích, kích thước hiệu ứng quan tâm đến mối quan hệ giữa ít nhất hai biến. Do đó, giá trị trung bình của mẫu, độ lệch chuẩn, độ lệch, độ nhiễu, cực tiểu, cực đại, v.v không phải là các số đo kích thước hiệu ứng.
  • Thống kê không liên quan đến mức độ của mối quan hệ không phải là biện pháp kích thước hiệu quả. Ví dụ, các bài kiểm tra về tính quy tắc đa biến, giá trị riêng của ma trận, v.v ... nói chung không trực tiếp nhằm mục đích định lượng một hiệu ứng theo nghĩa thông thường của từ này.

Cân nhắc rộng hơn

  • Cân nhắc mở rộng: Tiện ích của một thống kê như thước đo kích thước hiệu ứng phần lớn liên quan đến khả năng truyền đạt kích thước của hiệu ứng. Đôi khi điều này đạt được bằng cách sử dụng các biện pháp hiệu quả được tiêu chuẩn hóa quen thuộc (ví dụ, cohen's d). Những lần khác, việc xem xét cẩn thận về tỷ lệ của các biến có thể mang lại một sự giải thích rõ ràng hơn nữa về kích thước của hiệu ứng. Ví dụ, giả sử tôi đã có một nghiên cứu về một chương trình đào tạo về mức thu nhập. Tôi có thể báo cáo rằng chương trình đào tạo đã tăng thu nhập bằng 0 độ lệch chuẩn hoặc tôi có thể nói rằng chương trình này đã tăng thu nhập thêm $ 3.500 đô la Mỹ. Cả hai đều hữu ích; cả hai đều là biện pháp kích thước hiệu ứng. Đầu tiên là tiêu chuẩn hóa (cohen's d), thứ hai là không chuẩn hóa (sự khác biệt có nghĩa là nhóm thô).
  • Độ chính xác trong việc ước tính kích thước hiệu ứng: Chúng tôi thường trích xuất các ước tính mẫu về các biện pháp kích thước hiệu ứng (ví dụ: cohen's d, pearson's r, v.v.). Bối cảnh này có thể dẫn đến sự tương phản của thử nghiệm ý nghĩa với các biện pháp kích thước hiệu ứng. Tuy nhiên, mục tiêu vẫn là ước tính một cách chính xác và không thiên vị, quy mô hiệu ứng dân số. Từ quan điểm thường xuyên, khoảng tin cậy xung quanh kích thước hiệu ứng cung cấp ước tính độ chính xác. Từ quan điểm của Bayes, có mật độ sau về kích thước hiệu ứng. Trong nhiều trường hợp, cần cẩn thận để đảm bảo rằng bạn đang sử dụng thước đo hiệu ứng không thiên vị.

1
(+1) Câu trả lời hay.
chl

Điểm thứ ba và cuối cùng có lẽ giải thích (các) tác giả của bài viết Wikipedia đến từ đâu. Đặt trọng tâm vào tâm lý học, tôi nghĩ rằng điểm này không quá giống với kích thước hiệu ứng tương phản với các thống kê mô tả khác mà là với các thống kê kiểm tra và giá trị p (tức là thống kê suy luận) và nhấn mạnh rằng các biện pháp kích thước hiệu ứng không nói gì về độ biến thiên của mẫu.
Gala

Cảm ơn rất nhiều cho câu trả lời tốt đẹp của bạn. Tôi có một câu hỏi mặc dù: bạn có nghĩa là khoảng tin cậy không thể được sử dụng làm thước đo kích thước hiệu ứng, bởi vì nó liên quan trực tiếp đến kích thước mẫu? (theo khoảng tin cậy, ý tôi là giá trị được thêm vào hoặc trừ đi từ mức độ phổ biến, giá trị trung bình, v.v. - không phải giới hạn trên và dưới của CI).
Vic

2
@Vic bạn có thể có khoảng tin cậy trên thước đo kích thước hiệu ứng, nhưng bản thân khoảng tin cậy không phải là kích thước hiệu ứng.
Jeromy Anglim

Uh rất cám ơn Jeromy thân yêu. Trong tất cả những năm này, tôi đã nhầm. :)
Vic

6

Đầu tiên, kích thước hiệu ứng có thể được sử dụng suy luận cũng như mô tả. r và OR đều là kích thước hiệu ứng và chắc chắn tất cả đều được sử dụng trong các số liệu thống kê suy luận.

Thống kê đơn biến thường không phải là kích thước hiệu ứng, mặc dù chúng có thể. Ví dụ: Nếu bạn đang so sánh độ tuổi của nam và nữ kết hôn với nhau, tuổi trung bình của nam giới không phải là kích thước hiệu ứng (thì sự khác biệt của phương tiện sẽ là một kích thước hiệu ứng). Nhưng nếu bạn muốn xem giá trị trung bình của thứ gì đó bằng 0 thì giá trị trung bình sẽ là kích thước hiệu ứng.

Nếu nó đo hiệu ứng, đó là kích thước hiệu ứng!


Tôi đoán đó là sự thật @Peter, nhưng kích thước hiệu ứng là một thuật ngữ được Cohen định nghĩa hẹp hơn: (Mean1-Mean2) / PooledSD. Điều này nghe có vẻ giống như sự khác biệt có ý nghĩa hoặc chỉ có ý nghĩa thống kê - việc sử dụng các từ phổ biến để định nghĩa một thuật ngữ thống kê.
doug.numbers

2
Cohen định nghĩa nó theo cách nào? Nếu bạn muốn nói cuốn sách của ông về Phân tích sức mạnh, tôi nghĩ rằng ông sử dụng nó như là một loại tiêu chuẩn để chuyển đổi các kích thước hiệu ứng khác thành. Nhưng mỗi bảng phân tích sức mạnh trong cuốn sách đó (và có RẤT NHIỀU) sử dụng một số kích thước hiệu ứng (và không phải tất cả đều sử dụng bảng đó)
Peter Flom - Tái lập Monica

1
Cohen d luôn là cách tôi hiểu. Tương tự như mô tả en.wikipedia.org/wiki/Effect_size . Nhưng bạn hoàn toàn đúng, có rất nhiều phương pháp được mô tả là kích thước hiệu ứng.
doug.numbers

4
Thử nghiệm t và thử nghiệm z không phải là kích thước hiệu ứng. cùng kích thước hiệu ứng sẽ mang lại giá trị t và z khác nhau đáng kể cho các cỡ mẫu khác nhau.
Jeromy Anglim

1
@JeromyAnglim là đúng; +1. Tôi đã chỉnh sửa câu trả lời của mình
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.