Hiển thị kích thước hiệu ứng nhị thức (BESD) có phải là đại diện sai lệch về kích thước hiệu ứng không?


10

Thật khó cho tôi để chấp nhận rằng Donald Rubin sẽ nghĩ ra một kỹ thuật thực sự. Tuy nhiên, đó là nhận thức của tôi về BESD [ 1 , 2 , 3 ].

Bài báo gốc của Rosenthal và Rubin (1982) tuyên bố rằng có giá trị trong việc hiển thị "cách lấy lại bất kỳ mối tương quan thời điểm sản phẩm nào với màn hình [2x2], cho dù dữ liệu gốc là liên tục hay phân loại."

Bảng dưới đây là từ p. 451 của liên kết thứ 2 ở trên:

nhập mô tả hình ảnh ở đây

Kỹ thuật này dường như phóng đại cường độ của hầu hết mọi kích thước hiệu ứng. Ở đây, từ dữ liệu gốc = 0,01, nhưng khi "dịch" thành bảng dự phòng 2x2, chúng ta dường như phải đối mặt với hiệu ứng mạnh hơn nhiều. Tôi không phủ nhận rằng, khi dữ liệu được định dạng lại thành định dạng phân loại theo cách này, thực sự = .1, nhưng tôi cảm thấy có gì đó đã bị biến dạng trong bản dịch.R2ϕ

Tôi có thiếu một cái gì đó thực sự có giá trị ở đây? Ngoài ra, tôi có ấn tượng rằng trong khoảng 10 năm trở lại đây, cộng đồng thống kê đã và lớn đã bác bỏ điều này như một phương pháp hợp pháp. Tôi có sai về điều đó không?

Phương trình để tính tỷ lệ thành công thử nghiệm ( ) và kiểm soát ( ) ( ), tương ứng, chỉ đơn giản là:ECsr

Esr=.50+r/2

Csr=.50r/2


Tài liệu tham khảo:

Rosenthal, R., & Rubin, DB (1982). Một mục đích chung đơn giản hiển thị độ lớn của hiệu ứng thí nghiệm. Tạp chí Tâm lý giáo dục, 74 , 166 Công169.


Bạn đã bao giờ tìm thấy một câu trả lời cho điều này? Tôi hiện đang thực hiện một số công cụ mô phỏng để xem liệu nó có bị sai lệch hay không, nhưng nó được tính trực tiếp từ , vì vậy tôi không nhận được bất kỳ sai lệch nào trong ước tính điểm của BESD. Tôi cũng có linh cảm rằng điều này đánh giá quá cao các hiệu ứng, nhưng tôi cũng không thể đặt ngón tay của mình vào lý do. r
Đánh dấu trắng

Ý tưởng tốt của bạn là phản hồi hoặc câu trả lời duy nhất tôi đã thấy.
rolando2

2
Tôi chưa đọc nó, nhưng điều này có vẻ rất phù hợp: Hsu, LM (2004). Xu hướng chênh lệch tỷ lệ thành công được hiển thị trong hiển thị kích thước hiệu ứng nhị thức. Phương pháp tâm lý, 9 (2), 183-197. Một số lời chỉ trích cũng được thảo luận trong: Randolph, JJ, & Edmondson, RS (2005). Sử dụng Hiển thị kích thước hiệu ứng nhị thức (BESD) để trình bày mức độ của các kích thước hiệu ứng cho đối tượng đánh giá. Đánh giá thực tế, nghiên cứu và đánh giá, 10 (14).
Wolfgang

Câu trả lời:


4

Tôi có thể chứng minh rằng nó thiên vị (tôi nghĩ), nhưng tôi không thể giải thích tại sao. Tôi hy vọng ai đó có thể thấy câu trả lời của tôi và giúp giải thích thêm.

Như trong nhiều phân tích tổng hợp và hình ảnh bạn đã đăng, nhiều người giải thích BESD là: Nếu bạn phân chia trung bình cả hai biến, bạn sẽ đặt chính xác mọi người vào các ô "bên phải" của bảng dự phòng 2 x 2 thời gian.

Vì vậy, nếu , mọi người có thể nói: "Với điều này được quan sát , bạn có thể nghĩ về nó như thế này: Những người ở trên trung vị trong X cũng sẽ ở trên trung bình trong 70% thời gian. " Đây là phần nào cách Kraus (1995, trang 69) diễn giải nó (anh ta dựa vào một tình huống giả định trong đó một biến thực sự phân đôi, trong khi biến còn lại là phân chia trung bình):.50+r/2=.70r

nhập mô tả hình ảnh ở đây

Mọi người cũng thường sử dụng các phép ẩn dụ y tế: " này tương ứng với sự khác biệt về 40 điểm phần trăm giữa những người trong điều kiện kiểm soát và thử nghiệm."r

Để xem cách giải thích trung bình-tách-esque có sai lệch hay không, tôi đã mô phỏng một dân số 1.000.000 trường hợp trong đó dân số thực sự . Sau đó, tôi đã thu hút 100 người từ dân số này, tính "tỷ lệ chính xác" của BESD (nghĩa là, ), và sau đó tính các ô phân chia trung bình thực tế cho bảng dự phòng 2 x 2, giống như mô tả ở trên để phân loại người "chính xác." Tôi đã làm điều này 10.000 lần.r=.38.50+r/2

Sau đó tôi lấy giá trị trung bình và độ lệch chuẩn của mỗi vectơ có độ dài 10.000 này. Mật mã:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Dựa trên BESD, chúng tôi nhận được bảng này, ở đó v1v2tham khảo các biến lowhightham khảo bên dưới và bên trên trung vị, tương ứng:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Dựa trên việc thực sự phân chia trung bình với dữ liệu thô, chúng ta có được bảng này:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Vì vậy, trong khi ai đó có thể tranh luận, sử dụng BESD, rằng có "sự khác biệt 38 điểm phần trăm trong kiểm soát và thử nghiệm", thì sự phân chia trung bình thực tế có con số này là 24.

Tôi không chắc tại sao điều này xảy ra, hoặc nếu nó phụ thuộc vào kích thước và tương quan mẫu (người ta có thể dễ dàng thực hiện nhiều mô phỏng hơn để tìm ra), tôi nghĩ rằng điều này cho thấy nó bị sai lệch. Tôi rất thích nếu ai đó có thể hòa nhập với một bài toán toán học chứ không phải là lời giải thích về tính toán.


2

Trực giác của Mark White là không chính xác. BESD không thực sự mô hình hóa sự phân chia trung bình. Một phân chia trung bình có liên quan đến mất thông tin thống kê thực sự - nó làm suy giảm một cách có hệ thống các mối quan hệ (xem http://psycnet.apa.org/record/1990-24322-001), đó là lý do tại sao các giá trị phân chia trung bình cho thấy độ chính xác nhỏ hơn BESD. BESD đang chứng minh độ chính xác phân loại như thể các biến thực sự phân đôi, không phân đôi giả tạo thông qua sự phân chia trung bình. Để thấy điều này, hãy tính toán mối tương quan trên dữ liệu phân chia trung bình. Bạn sẽ thấy rằng nó nhỏ hơn tương quan cho các biến ban đầu. Nếu các biến ban đầu là nhị phân, hai phương thức sẽ đồng ý. Theo bản chất của nó, BESD đang hiển thị các biến như thể chúng thực sự là nhị phân. Khi nó được sử dụng cho các biến liên tục, điều này nhất thiết đại diện cho một sự trừu tượng - không thực sự có các nhóm "thành công" và "thất bại" hay "điều trị" và "kiểm soát",

BESD không thiên vị. Nó phản ánh chính xác tác động của một điều trị cụ thể đến độ chính xác phân loại nếu chúng ta đang làm việc với hai biến nhị phân. Nó là một màn hình hữu ích để chứng minh giá trị thực tế tiềm năng của một biện pháp hoặc điều trị, và, vâng, nó chứng minh rằng ngay cả các hiệu ứng với phương sai nhỏ chiếm số liệu thống kê có thể có ý nghĩa quan trọng. BESD được sử dụng rộng rãi trong thực tiễn tâm lý và tổ chức ứng dụng, và nó đồng ý mạnh mẽ với các hiển thị kích thước hiệu ứng thực tế khác (ví dụ: việc chọn từ trên xuống một nhóm sử dụng thước đo có tương quan hợp lệ r = 0,25 sẽ dẫn đến 0,25 SD tăng hiệu suất kết quả giữa các nhóm được chọn so với một nhóm không được chọn).

Phương sai chiếm số liệu thống kê luôn dẫn đến sự hiểu lầm và đánh giá thấp về quy mô của các mối quan hệ thay đổi bởi vì hoạt động bình phương là phi tuyến. Nhiều nhà phương pháp học ứng dụng (ví dụ: https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) không khuyến khích mạnh mẽ việc sử dụng chúng có lợi cho căn bậc hai của chúng (truyền đạt chính xác hơn kích thước của Các hiệu ứng).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.