Điều đơn giản nhất để làm có lẽ là một bài kiểm tra dấu hiệu. Giả thuyết khống là mỗi kết quả có xác suất dương hoặc âm bằng nhau (như lật một đồng xu công bằng). Mục tiêu của bạn là xác định xem các kết quả quan sát được có đủ khả năng theo giả thuyết không có giá trị này mà bạn có thể từ chối hay không.
Xác suất nhận được 80 đầu trở lên trong số 100 lần tung đồng xu là gì? Bạn có thể tính toán điều này bằng cách sử dụng phân phối nhị thức. Trong R
, hàm có liên quan được gọi pbinom
và bạn có thể nhận giá trị p (một phía) bằng cách sử dụng dòng mã sau:
pbinom(80, size = 100, prob = 0.5, lower.tail = FALSE)
Theo thử nghiệm này, trực giác của bạn là chính xác, bạn sẽ cực kỳ khó có thể đạt được 80 kết quả dương tính nếu điều trị không có kết quả.
Một lựa chọn liên quan chặt chẽ sẽ là sử dụng một cái gì đó giống như bài kiểm tra xếp hạng có chữ ký của Wilcoxon .
Một cách tiếp cận tốt hơn , nếu bạn thực sự muốn ước tính kích thước của hiệu ứng (thay vì chỉ xác định xem nó có xu hướng lớn hơn 0 hay không), có lẽ sẽ là mô hình phân cấp ("hỗn hợp").
Ở đây, mô hình nói rằng kết quả 100 cá nhân của bạn đến từ một phân phối và mục tiêu của bạn là xem giá trị trung bình của phân phối đó là bao nhiêu (cùng với khoảng tin cậy).
Các mô hình hỗn hợp cho phép bạn nói thêm một chút về kích thước hiệu ứng của bạn: sau khi lắp mô hình, bạn có thể nói điều gì đó như "chúng tôi ước tính rằng việc điều trị của chúng tôi có xu hướng cải thiện kết quả trung bình ba đơn vị, mặc dù dữ liệu phù hợp với mức trung bình thực kích thước hiệu ứng ở bất kỳ nơi nào từ 1,5 đến 4,5 đơn vị. Ngoài ra, có một số biến thể giữa các cá nhân, vì vậy một người nhất định có thể thấy hiệu ứng ở bất kỳ đâu từ -0,5 đến +6,5 đơn vị ".
Đó là một tập hợp các tuyên bố rất chính xác và hữu ích - tốt hơn nhiều so với chỉ "hiệu quả có thể là tích cực, trung bình", đó là lý do tại sao phương pháp này có xu hướng được các nhà thống kê ưa chuộng. Nhưng nếu bạn không cần tất cả chi tiết đó, cách tiếp cận đầu tiên tôi đề cập cũng có thể ổn.