Tôi có thể chứng minh rằng nó thiên vị (tôi nghĩ), nhưng tôi không thể giải thích tại sao. Tôi hy vọng ai đó có thể thấy câu trả lời của tôi và giúp giải thích thêm.
Như trong nhiều phân tích tổng hợp và hình ảnh bạn đã đăng, nhiều người giải thích BESD là: Nếu bạn phân chia trung bình cả hai biến, bạn sẽ đặt chính xác mọi người vào các ô "bên phải" của bảng dự phòng 2 x 2 thời gian.
Vì vậy, nếu , mọi người có thể nói: "Với điều này được quan sát , bạn có thể nghĩ về nó như thế này: Những người ở trên trung vị trong X cũng sẽ ở trên trung bình trong 70% thời gian. " Đây là phần nào cách Kraus (1995, trang 69) diễn giải nó (anh ta dựa vào một tình huống giả định trong đó một biến thực sự phân đôi, trong khi biến còn lại là phân chia trung bình):.50+r/2=.70r
Mọi người cũng thường sử dụng các phép ẩn dụ y tế: " này tương ứng với sự khác biệt về 40 điểm phần trăm giữa những người trong điều kiện kiểm soát và thử nghiệm."r
Để xem cách giải thích trung bình-tách-esque có sai lệch hay không, tôi đã mô phỏng một dân số 1.000.000 trường hợp trong đó dân số thực sự . Sau đó, tôi đã thu hút 100 người từ dân số này, tính "tỷ lệ chính xác" của BESD (nghĩa là, ), và sau đó tính các ô phân chia trung bình thực tế cho bảng dự phòng 2 x 2, giống như mô tả ở trên để phân loại người "chính xác." Tôi đã làm điều này 10.000 lần.r=.38.50+r/2
Sau đó tôi lấy giá trị trung bình và độ lệch chuẩn của mỗi vectơ có độ dài 10.000 này. Mật mã:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
Dựa trên BESD, chúng tôi nhận được bảng này, ở đó v1
và v2
tham khảo các biến low
và high
tham khảo bên dưới và bên trên trung vị, tương ứng:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
Dựa trên việc thực sự phân chia trung bình với dữ liệu thô, chúng ta có được bảng này:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
Vì vậy, trong khi ai đó có thể tranh luận, sử dụng BESD, rằng có "sự khác biệt 38 điểm phần trăm trong kiểm soát và thử nghiệm", thì sự phân chia trung bình thực tế có con số này là 24.
Tôi không chắc tại sao điều này xảy ra, hoặc nếu nó phụ thuộc vào kích thước và tương quan mẫu (người ta có thể dễ dàng thực hiện nhiều mô phỏng hơn để tìm ra), tôi nghĩ rằng điều này cho thấy nó bị sai lệch. Tôi rất thích nếu ai đó có thể hòa nhập với một bài toán toán học chứ không phải là lời giải thích về tính toán.