Một mô hình thống kê có thể nói gì về quan hệ nhân quả? Cần cân nhắc những gì khi đưa ra suy luận nguyên nhân từ mô hình thống kê?
Điều đầu tiên cần làm rõ là bạn không thể suy luận nguyên nhân từ một mô hình thống kê thuần túy. Không có mô hình thống kê nào có thể nói bất cứ điều gì về quan hệ nhân quả mà không có giả định nguyên nhân. Đó là, để làm cho suy luận nhân quả, bạn cần một mô hình nhân quả .
Ngay cả trong một cái gì đó được coi là tiêu chuẩn vàng, chẳng hạn như Thử nghiệm ngẫu nhiên (RCTs), bạn cần đưa ra các giả định nguyên nhân để tiến hành. Hãy để tôi làm rõ điều này. Ví dụ: giả sử là thủ tục ngẫu nhiên, xử lý lãi và kết quả quan tâm. Khi giả định một RCT hoàn hảo, đây là những gì bạn đang giả định:ZXY
Trong trường hợp này để mọi thứ hoạt động tốt. Tuy nhiên, giả sử bạn có tuân thủ không hoàn hảo dẫn đến một mối quan hệ xấu hổ giữa và . Sau đó, bây giờ, RCT của bạn trông như thế này:P(Y|do(X))=P(Y|X)XY
Bạn vẫn có thể thực hiện một ý định để điều trị phân tích. Nhưng nếu bạn muốn ước tính hiệu quả thực tế của mọi thứ không còn đơn giản nữa. Đây là một cài đặt biến công cụ và bạn có thể xác định hoặc thậm chí xác định hiệu ứng nếu bạn thực hiện một số giả định tham số .X
Điều này có thể thậm chí còn phức tạp hơn. Bạn có thể có các vấn đề lỗi đo lường, các đối tượng có thể bỏ nghiên cứu hoặc không làm theo hướng dẫn, trong số các vấn đề khác. Bạn sẽ cần phải đưa ra các giả định về cách những điều đó có liên quan đến thủ tục với suy luận. Với dữ liệu quan sát "thuần túy", điều này có thể gây ra nhiều vấn đề hơn, bởi vì thông thường các nhà nghiên cứu sẽ không có ý tưởng tốt về quy trình tạo dữ liệu.
Do đó, để rút ra các kết luận nguyên nhân từ các mô hình, bạn cần đánh giá không chỉ các giả định thống kê của nó, mà quan trọng nhất là các giả định nguyên nhân của nó. Dưới đây là một số mối đe dọa phổ biến để phân tích nguyên nhân:
- Dữ liệu không đầy đủ / không chính xác
- Số lượng quan tâm nhân quả mục tiêu không được xác định rõ (Hiệu ứng nhân quả mà bạn muốn xác định là gì? Dân số mục tiêu là gì?)
- Bối rối (gây nhiễu không quan sát)
- Lựa chọn thiên vị (tự chọn, mẫu cắt ngắn)
- Lỗi đo lường (có thể gây nhiễu, không chỉ nhiễu)
- Saipecification (ví dụ, hình thức chức năng sai)
- Vấn đề giá trị bên ngoài (suy luận sai về dân số mục tiêu)
Đôi khi, yêu cầu vắng mặt của những vấn đề này (hoặc yêu cầu giải quyết những vấn đề này) có thể được hỗ trợ bởi chính thiết kế của nghiên cứu. Đó là lý do tại sao dữ liệu thử nghiệm thường đáng tin cậy hơn. Tuy nhiên, đôi khi, mọi người sẽ bỏ qua những vấn đề này bằng lý thuyết hoặc để thuận tiện. Nếu lý thuyết là mềm (như trong khoa học xã hội), sẽ khó hơn để đưa ra kết luận theo mệnh giá.
Bất cứ khi nào bạn nghĩ rằng có một giả định không thể sao lưu, bạn nên đánh giá mức độ nhạy cảm của kết luận đối với các vi phạm hợp lý của các giả định đó --- điều này thường được gọi là phân tích độ nhạy.