Tôi có thể sử dụng các bài kiểm tra hoán vị để tránh vấn đề so sánh nhiều trong bối cảnh tỷ lệ không?


9

Tôi đang đánh giá hiệu quả của 5 phương pháp khác nhau để dự đoán một kết quả nhị phân cụ thể (gọi chúng là 'Thành công' và 'Thất bại'). Các dữ liệu trông giống như vậy:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Tôi muốn thực hiện một thử nghiệm trong số 5 phương pháp này để đánh giá tính ưu việt tương đối của các phương pháp. Nói cách khác, tôi muốn sắp xếp các phương thức theo thứ tự hiệu suất như phương pháp 1> phương pháp 2> ... phương pháp 5. Để tránh vấn đề nhiều so sánh, tôi dự định thực hiện một bài kiểm tra hoán vị dọc theo các dòng sau:

Bước 1: Tập hợp tất cả dữ liệu sao cho kích thước mẫu tổng thể là 114 với tổng số 37 thành công.

Bước 2: Chia ngẫu nhiên dữ liệu thành 5 nhóm với các cỡ mẫu tương ứng là 28, 19, 24, 21 và 22.

Bước 3: Tăng bộ đếm nếu thứ tự được quan sát của Percent_Success từ bước 2 phù hợp với thứ tự dữ liệu của tôi.

Bước 4: Lặp lại bước 2 và 3 nhiều lần (giả sử 10000).

Giá trị p mong muốn = Giá trị bộ đếm cuối cùng / 10000.

Câu hỏi:

  1. Thủ tục trên có ổn không?

  2. Có điều gì trong R cho phép tôi thực hiện bài kiểm tra trên không?

  3. Bất kỳ đề xuất cải tiến hoặc phương pháp thay thế sẽ hữu ích.


@whuber Bạn có mã R có lẽ để chia sẻ về cách bạn đã làm điều này?
B_Miner

Câu trả lời:


6

Các thủ tục đề xuất không trả lời câu hỏi của bạn. Nó chỉ ước tính tần suất, theo giả thuyết null, theo đó thứ tự quan sát của bạn sẽ xảy ra. Nhưng dưới giá trị đó, với một xấp xỉ tốt, tất cả các đơn đặt hàng đều có khả năng như nhau, tính toán của bạn sẽ tạo ra giá trị gần bằng 1/5! = khoảng 0,83%. Điều đó cho chúng ta không có gì.

Một quan sát rõ ràng hơn: thứ tự, dựa trên dữ liệu của bạn, là 4> 5> 3> 2> 1. Ước tính của bạn về ưu thế tương đối của chúng là 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, v.v.

Bây giờ, giả sử câu hỏi của bạn liên quan đến mức độ mà bất kỳ trong số khác biệt về tỷ lệ có thể là do cơ hội theo giả thuyết không có sự khác biệt. Bạn thực sự có thể đánh giá mười câu hỏi này với một bài kiểm tra hoán vị. Tuy nhiên, trong mỗi lần lặp, bạn cần theo dõi mười chỉ số về sự khác biệt tương đối về tỷ lệ, không phải là một chỉ số toàn cầu của tổng đơn hàng.(52)=10

Đối với dữ liệu của bạn, một mô phỏng với 100.000 lần lặp cho kết quả

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Sự khác biệt về tỷ lệ giữa phương pháp 4 và phương pháp 1, 2 và 3 dường như không phải là do cơ hội (với xác suất ước tính 0,03%, 0,37%, 0,88%, tương ứng) nhưng sự khác biệt khác có thể là. Có một số bằng chứng (p = 2,44%) về sự khác biệt giữa phương pháp 1 và 5. Do đó, có vẻ như bạn có thể tin tưởng rằng sự khác biệt về tỷ lệ liên quan đến các mối quan hệ 4> 3, 4> 2 và 4> 1 đều tích cực và rất có thể là sự khác biệt trong 5> 1.


1
Đó là một câu trả lời tốt hơn nhiều so với của tôi! Tôi không đọc được câu hỏi đúng cách tôi sợ (đặc biệt là Bước 3). Tôi đã nghĩ đến việc xóa câu trả lời của mình, nhưng tôi đứng trước khả năng diễn giải lớn hơn của cách tiếp cận Bayes là nó thực sự là thứ hạng được quan tâm.
vào

Chỉ để đảm bảo tôi hiểu chính xác- Chỉ báo theo dõi sự khác biệt tương đối giữa phương pháp 4 và 5 sẽ được cập nhật bất cứ khi nào chúng tôi thấy sự khác biệt lớn hơn 0,21.
sxv

@sxv Vâng, đúng vậy. (Chà, tôi thực sự đã sử dụng nhiều hơn hoặc bằng. Các mối quan hệ xảy ra. Tôi nghĩ bao gồm sự bình đẳng giữa các kết quả quan trọng là điều nên làm, bởi vì chúng tôi đang đánh giá xác suất rằng sự khác biệt lớn hoặc lớn hơn này có thể xảy ra do tình cờ.)
whuber

1

Quy trình kiểm tra hoán vị Monte-Carlo được đề xuất của bạn sẽ tạo ra giá trị p cho kiểm tra giả thuyết khống rằng xác suất thành công là giống nhau cho tất cả các phương pháp. Nhưng có rất ít lý do để thực hiện kiểm tra hoán vị Monte Carlo ở đây khi thử nghiệm hoán vị chính xác tương ứng là hoàn toàn khả thi. Đó là thử nghiệm chính xác của Fisher (tốt, một số người dành tên đó cho các bảng 2x2, trong trường hợp đó là thử nghiệm chính xác có điều kiện). Tôi vừa nhập dữ liệu của bạn vào Stata và -tabi ..., chính xác - đã cho p = 0,0067 (để so sánh, kiểm tra chi bình phương của Pearson cho p = 0,0059). Tôi chắc chắn có một chức năng tương đương trong R mà các bậc thầy R sẽ sớm thêm vào.

Nếu bạn thực sự muốn xem xét xếp hạng, bạn có thể sử dụng phương pháp Bayes tốt nhất, vì nó có thể đưa ra một cách giải thích đơn giản vì xác suất mỗi phương pháp thực sự là tốt nhất, tốt nhất thứ hai, tốt nhất thứ ba, .... Điều đó đi kèm với cái giá là đòi hỏi bạn phải đặt linh mục vào xác suất của bạn, tất nhiên. Ước tính khả năng tối đa của các cấp bậc chỉ đơn giản là thứ tự được quan sát, nhưng rất khó để định lượng sự không chắc chắn trong xếp hạng theo khung thường xuyên theo cách có thể dễ dàng giải thích, theo như tôi biết.

Tôi nhận ra tôi đã không đề cập đến nhiều so sánh, nhưng tôi không thấy điều đó xảy ra như thế nào.


2
Kiểm tra chính xác của Fisher và kiểm tra chi bình phương của Pearson kiểm tra giả thuyết khống rằng tất cả 5 phương pháp đều có hiệu quả như nhau đối với phương án thay thế ít nhất 1 tốt hơn các phương pháp khác. Các giá trị p cho tôi biết rằng null bị từ chối. Vì vậy, nếu tôi muốn tìm ra phương pháp nào thực sự tốt hơn các phương pháp khác, tôi sẽ không phải thực hiện 10 phép so sánh theo cặp?
sxv
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.