Andrew Gelman trong một trong những bài đăng trên blog gần đây của mình nói:
Tôi không nghĩ rằng các tác dụng phụ hoặc kết quả tiềm năng là cần thiết cho nghịch lý của Simpson. Tôi nói điều này bởi vì người ta có thể thiết lập nghịch lý của Simpson với các biến không thể thao tác được hoặc do đó các thao tác không được quan tâm trực tiếp.
Nghịch lý của Simpson là một phần của một vấn đề tổng quát hơn mà hồi quy có thể thay đổi nếu bạn thêm nhiều yếu tố dự đoán, việc lật dấu hiệu là không thực sự cần thiết.
Đây là một ví dụ mà tôi sử dụng trong giảng dạy minh họa cả hai điểm:
Tôi có thể chạy hồi quy dự đoán thu nhập từ tình dục và chiều cao. Tôi thấy rằng giá trị giới tính là 10.000 đô la (nghĩa là so sánh một người đàn ông và một người phụ nữ có cùng chiều cao, trung bình người đàn ông sẽ kiếm thêm 10.000 đô la) và hệ số chiều cao là 500 đô la (tức là so sánh hai người đàn ông hoặc hai người phụ nữ có chiều cao khác nhau, trung bình người cao hơn sẽ kiếm thêm 500 đô la cho mỗi inch chiều cao).
Làm thế nào tôi có thể giải thích những coefs này? Tôi cảm thấy rằng chiều cao của chiều cao rất dễ diễn giải (thật dễ tưởng tượng khi so sánh hai người cùng giới tính với các chiều cao khác nhau), thực sự có vẻ như bằng cách nào đó, Sai đã sai khi thoái lui về chiều cao mà không kiểm soát được giới tính, nhiều như vậy sự khác biệt giữa người thấp và người cao có thể được giải thích bởi sự khác biệt giữa nam và nữ. Nhưng ví dụ về tình dục trong mô hình trên có vẻ rất khó diễn giải: tại sao lại so sánh một người đàn ông và một người phụ nữ đều cao 66 inch chẳng hạn? Đó sẽ là so sánh của một người đàn ông thấp với một người phụ nữ cao. Tất cả lý do này có vẻ mơ hồ là nguyên nhân nhưng tôi không nghĩ sẽ hợp lý khi nghĩ về việc sử dụng kết quả tiềm năng.
Tôi đã suy ngẫm về nó (và thậm chí bình luận trên bài đăng) và nghĩ rằng có một cái gì đó xin được hiểu với sự rõ ràng hơn ở đây.
Cho đến khi phần giải thích về giới tính thì không sao. Nhưng tôi không thấy vấn đề gì đằng sau việc so sánh một người đàn ông thấp và một người phụ nữ cao. Đây là quan điểm của tôi: Trên thực tế, nó thậm chí còn có ý nghĩa lớn hơn (với giả định rằng đàn ông cao hơn trung bình). Bạn không thể so sánh một người đàn ông 'ngắn' và một phụ nữ 'ngắn' vì cùng một lý do, rằng sự khác biệt về thu nhập được giải thích ở một phần nào đó bởi sự khác biệt về chiều cao. Điều tương tự cũng xảy ra với những người đàn ông cao và phụ nữ cao và thậm chí nhiều hơn đối với những người phụ nữ thấp và những người đàn ông cao (điều này không còn nữa, có thể nói là như vậy). Vì vậy, về cơ bản, ảnh hưởng của chiều cao chỉ bị loại bỏ trong trường hợp khi so sánh đàn ông và phụ nữ cao (và điều này giúp giải thích hệ số về giới tính). Nó không rung chuông về các khái niệm cơ bản tương tự đằng sau các mô hình phù hợp phổ biến?
Ý tưởng đằng sau nghịch lý của Simpson là hiệu ứng dân số có thể khác với hiệu ứng khôn ngoan của nhóm phụ. Điều này theo một nghĩa nào đó liên quan đến điểm 2 của anh ấy và thực tế là anh ấy thừa nhận rằng chiều cao không nên được kiểm soát một mình (những gì chúng ta nói bỏ qua sai lệch biến). Nhưng tôi không thể liên hệ điều này với cuộc tranh cãi về hệ số về giới tính.
Có lẽ bạn có thể thể hiện nó rõ ràng hơn? Hoặc nhận xét về sự hiểu biết của tôi?