Nếu mục tiêu của một mô hình như vậy là dự đoán, thì bạn không thể sử dụng hồi quy logistic không trọng số để dự đoán kết quả: bạn sẽ dự đoán rủi ro. Điểm mạnh của các mô hình logistic là tỷ lệ chênh lệch (OR) - "độ dốc" đo lường mối liên hệ giữa yếu tố rủi ro và kết quả nhị phân trong mô hình logistic - là bất biến đối với việc lấy mẫu phụ thuộc kết quả. Vì vậy, nếu các trường hợp được lấy mẫu theo tỷ lệ 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 đối với các điều khiển, thì đơn giản là không có vấn đề gì: OR vẫn không thay đổi trong cả hai trường hợp miễn là lấy mẫu là vô điều kiện trên tiếp xúc (sẽ giới thiệu thiên vị của Berkson). Thật vậy, lấy mẫu phụ thuộc vào kết quả là một nỗ lực tiết kiệm chi phí khi việc lấy mẫu ngẫu nhiên hoàn toàn đơn giản sẽ không xảy ra.
Tại sao các dự đoán rủi ro bị sai lệch so với lấy mẫu phụ thuộc kết quả bằng các mô hình logistic? Kết quả lấy mẫu phụ thuộc tác động đến việc đánh chặn trong một mô hình logistic. Điều này làm cho đường cong liên kết hình chữ S "trượt lên trục x" bởi sự khác biệt về tỷ lệ log của việc lấy mẫu một trường hợp trong một mẫu ngẫu nhiên đơn giản trong dân số và tỷ lệ log của việc lấy mẫu một trường hợp trong giả -population của thiết kế thử nghiệm của bạn. (Vì vậy, nếu bạn có các trường hợp 1: 1 để kiểm soát, có 50% cơ hội lấy mẫu một trường hợp trong dân số giả này). Trong các kết quả hiếm hoi, đây là một sự khác biệt khá lớn, hệ số 2 hoặc 3.
Khi bạn nói về những mô hình như vậy là "sai", bạn phải tập trung vào việc mục tiêu là suy luận (đúng) hay dự đoán (sai). Điều này cũng giải quyết tỷ lệ kết quả cho các trường hợp. Ngôn ngữ bạn có xu hướng nhìn thấy xung quanh chủ đề này là việc gọi một nghiên cứu như vậy là một nghiên cứu "kiểm soát trường hợp", đã được viết về rộng rãi. Có lẽ ấn phẩm yêu thích của tôi về chủ đề này là Breslow và Ngày , như một nghiên cứu mang tính bước ngoặt đặc trưng cho các yếu tố nguy cơ gây ra bệnh ung thư (trước đây không thể thực hiện được do sự hiếm gặp của các sự kiện). Các nghiên cứu kiểm soát trường hợp đã gây ra một số tranh cãi xung quanh việc giải thích sai các phát hiện thường xuyên: đặc biệt kết hợp OR với RR (phóng đại các phát hiện) và cũng là "cơ sở nghiên cứu" như một trung gian của mẫu và dân số giúp tăng cường phát hiện.cung cấp một lời chỉ trích tuyệt vời của họ. Tuy nhiên, không có phê bình nào đã tuyên bố các nghiên cứu kiểm soát trường hợp vốn không hợp lệ, ý tôi là làm thế nào bạn có thể? Họ đã nâng cao sức khỏe cộng đồng ở vô số đại lộ. Bài báo của Miettenen rất hay chỉ ra rằng, bạn thậm chí có thể sử dụng các mô hình rủi ro tương đối hoặc các mô hình khác trong lấy mẫu phụ thuộc kết quả và mô tả sự khác biệt giữa kết quả và kết quả mức dân số trong hầu hết các trường hợp: nó không thực sự tồi tệ hơn vì OR thường là một tham số cứng để giải thích.
Có lẽ cách tốt nhất và dễ nhất để vượt qua sai lệch quá mức trong dự đoán rủi ro là sử dụng khả năng có trọng số.
Scott và Wild thảo luận về trọng số và cho thấy nó sửa chữa thuật ngữ chặn và dự đoán rủi ro của mô hình. Đây là cách tiếp cận tốt nhất khi có kiến thức tiên nghiệm về tỷ lệ các trường hợp trong dân số. Nếu tỷ lệ kết quả thực sự là 1: 100 và bạn lấy mẫu các trường hợp để kiểm soát theo kiểu 1: 1, bạn chỉ cần kiểm soát cân nặng theo cường độ 100 để có được các thông số thống nhất về dân số và dự đoán rủi ro không thiên vị. Nhược điểm của phương pháp này là nó không tính đến sự không chắc chắn về tỷ lệ dân số nếu nó được ước tính có lỗi ở nơi khác. Đây là một khu vực rộng lớn của nghiên cứu mở, Lumley và Breslowđã đi rất xa với một số lý thuyết về lấy mẫu hai pha và công cụ ước tính mạnh gấp đôi. Tôi nghĩ đó là thứ cực kỳ thú vị. Chương trình của Zelig dường như chỉ đơn giản là triển khai tính năng trọng lượng (có vẻ hơi dư thừa vì chức năng glm của R cho phép cân).