Liên kết giữa các phương thức như khớp và kiểm soát thống kê cho các biến là gì?


10

Thông thường trong các bài báo nghiên cứu bạn đọc các nhà nghiên cứu đã kiểm soát các biến nhất định. Điều này có thể được thực hiện bằng các phương pháp như khớp, chặn, v.v.

Nhưng tôi luôn nghĩ rằng việc kiểm soát các biến là một việc được thực hiện theo thống kê bằng cách đo một số biến có thể ảnh hưởng và thực hiện một số phân tích thống kê về các biến đó, có thể được thực hiện trong cả thí nghiệm thực và gần đúng. Vì vậy, ví dụ, bạn sẽ có một cuộc khảo sát hoặc thử nghiệm khác trong đó bạn có thể đo lường biến độc lập và một số biến có thể gây nhiễu và thực hiện một số phân tích.

  • Có thể kiểm soát các biến trong các thí nghiệm gần đúng không?
  • Liên kết giữa các phương thức như khớp và kiểm soát thống kê cho các biến là gì?

Câu trả lời:


6

Như với AdamO, tôi nghĩ chìa khóa để trả lời câu hỏi này là khái niệm suy luận nguyên nhân và làm thế nào để "hướng tới" một mô hình nhân quả bằng cách sử dụng các thiết lập quan sát.

Trong một thế giới hoàn hảo, chúng ta sẽ có một thứ gọi là dân số đối nghịch - dân số nghiên cứu, giống hệt nhau về mọi phương diện ngoại trừ điều duy nhất chúng ta quan tâm. Sự khác biệt giữa hai quần thể đó, dựa trên sự khác biệt đó, là kết quả nguyên nhân thực sự.

Rõ ràng, chúng ta không thể có điều này.

Tuy nhiên, có nhiều cách để cố gắng tiếp cận nó:

  • Ngẫu nhiên: Về mặt lý thuyết (nếu ngẫu nhiên được thực hiện chính xác) sẽ cung cấp cho bạn hai quần thể giống hệt nhau, ngoại trừ điều trị sau ngẫu nhiên.

  • Sự phân tầng: Bạn có thể xem xét một quần thể trong các mức độ đồng biến, nơi bạn đang thực hiện các so sánh "giống với thích". Điều này hoạt động tuyệt vời cho số lượng nhỏ cấp độ, nhưng nhanh chóng trở nên cồng kềnh.

  • Kết hợp: Kết hợp là một nỗ lực để tập hợp một nhóm nghiên cứu sao cho Nhóm A giống với Nhóm B, và do đó có thể so sánh được.

  • Điều chỉnh thống kê: Bao gồm các hiệp phương sai trong mô hình hồi quy cho phép ước tính hiệu ứng trong các mức của hiệp phương sai - một lần nữa, so sánh like với like hoặc ít nhất là cố gắng.

Tất cả là một nỗ lực để đến gần hơn với dân số phản tác dụng đó. Làm thế nào để đạt được điều đó tốt nhất phụ thuộc vào những gì bạn muốn thoát ra, và nghiên cứu của bạn trông như thế nào.


Giải thích tuyệt vời. Ngắn gọn hơn nhiều và giải quyết tốt hơn các câu hỏi ban đầu. Hãy để tôi thêm rằng các phương pháp này, chỉ điều chỉnh thống kê là không ảnh hưởng đến vấn đề có các tầng trống. Trong một nghiên cứu kiểm soát trường hợp, nếu chúng ta muốn phân tầng dân số theo độ tuổi, sự phù hợp, phân tầng và ngẫu nhiên (khối) theo độ tuổi đòi hỏi phải thô hoặc tạo thùng để so sánh trường hợp 50 tuổi với kiểm soát 51 tuổi.
AdamO

Tuy nhiên, trong hồi quy logistic, bạn có thể sử dụng thông tin liên tục để ngầm mượn thông tin giữa các nhóm, như tuổi điều chỉnh spline tuyến tính hoặc cơ sở để thực hiện so sánh đó. Điều này làm cho mô hình hồi quy trở thành một trong những phương pháp thống kê mạnh mẽ và hữu ích nhất hiện có.
AdamO

@AdamO Đồng ý - trong câu trả lời của tôi trong câu hỏi được liên kết ở trên, tôi đề cập rằng nó có thể được sử dụng để làm mịn các khu vực không có thông tin, miễn là việc thiếu thông tin là do cơ hội và việc đóng thùng. Nhưng có - có một hồi quy lý do là tuyệt vời.
Fomite

2

Tôi nghĩ mô hình nhân quả là chìa khóa để trả lời câu hỏi này. Người ta phải đối mặt ngay từ đầu để xác định hiệu quả quan tâm được điều chỉnh / phân tầng / kiểm soát chính xác trước khi nhìn vào dữ liệu. Nếu tôi ước tính mối quan hệ chiều cao / dung tích phổi ở người trưởng thành, tôi sẽ điều chỉnh tình trạng hút thuốc vì sự phát triển của các pha nguy hiểm và ảnh hưởng đến dung tích phổi. Các yếu tố gây nhiễu là các biến có liên quan đến nguyên nhân của yếu tố dự đoán lợi ích và có liên quan đến kết quả của mối quan tâm. Xem Nhân quả từ Judea Pearl, tái bản lần 2. Người ta phải xác định và cung cấp năng lượng cho phân tích của họ cho các biến gây nhiễu chính xác trước khi quá trình thu thập dữ liệu thậm chí bắt đầu sử dụng logic hợp lý và kiến ​​thức trước từ các nghiên cứu khám phá trước đó.

R2cho các mô hình tuyến tính cho các biến điều chỉnh này. Một quá trình phổ biến khác trong dịch tễ học là ở đó các biến chỉ được thêm vào mô hình nếu chúng thay đổi ước tính của hiệu ứng chính (như tỷ lệ chênh lệch hoặc tỷ lệ nguy hiểm) ít nhất 10%. Mặc dù điều này "đúng" hơn so với lựa chọn mô hình dựa trên AIC, tôi vẫn nghĩ rằng có những cảnh báo chính trong phương pháp này.

Khuyến nghị của tôi là giả định phân tích mong muốn như là một phần của giả thuyết. Nguy cơ hút thuốc / ung thư được điều chỉnh theo độ tuổi là một thông số khác nhau và dẫn đến suy luận khác nhau trong một nghiên cứu có kiểm soát so với nguy cơ hút thuốc / ung thư thô. Sử dụng kiến ​​thức về chủ đề là cách tốt nhất để chọn các yếu tố dự đoán để điều chỉnh trong phân tích hồi quy, hoặc như phân tầng, khớp hoặc biến trọng số trong các loại phân tích "kiểm soát" khác nhau của thiết kế thử nghiệm và chuẩn tinh.


2

Câu chuyện về mối quan hệ giữa kết hợp và hồi quy được tóm tắt ngắn gọn trong một bài đăng trên blog ở đây . Nói ngắn gọn

"Hồi quy trên D [một chỉ số điều trị] một tập hợp đầy đủ các mô hình giả (nghĩa là bão hòa) cho X [hiệp phương sai]. Ước tính kết quả về hiệu quả của D bằng với khớp trên X và trọng số trên các tế bào đồng biến theo phương sai điều trị có điều kiện trên X "

Xem thêm phần 3.3 của Kinh tế lượng chủ yếu vô hại hoặc phần 5.3 của Phản tác dụng và Suy luận nguyên nhân để thảo luận kỹ lưỡng, bao gồm cả ưu và nhược điểm của trọng số D được đưa ra mà hồi quy ngầm cung cấp.

@EpiGrad cho một khởi đầu tốt cho câu hỏi đầu tiên của bạn. Những cuốn sách liên kết ở trên đối xử với nó gần như độc quyền. Nếu bạn không có nền tảng khoa học / toán học máy tính, bạn có thể thấy Pearl khó khăn (mặc dù cuối cùng cũng có giá trị!)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.