Điều chỉnh cho tất cả mọi thứ bạn có trong điểm số xu hướng?


9

Tôi có một câu hỏi về phương pháp luận, và do đó không có tập dữ liệu mẫu nào được đính kèm.

Tôi đang lên kế hoạch thực hiện hồi quy Cox điều chỉnh điểm số nhằm mục đích kiểm tra xem một loại thuốc nhất định có làm giảm nguy cơ kết quả hay không. Nghiên cứu là quan sát, bao gồm 10.000 cá nhân.

Tập dữ liệu chứa 60 biến. Tôi đánh giá rằng 25 trong số này có thể ảnh hưởng đến phân bổ điều trị. Tôi sẽ không bao giờ điều chỉnh cho tất cả 25 trong số này theo hồi quy Cox, nhưng tôi đã nghe nói rằng bạn có thể bao gồm nhiều biến đó như là các yếu tố dự đoán trong một điểm số và sau đó chỉ bao gồm phân lớp điểm số và biến điều trị trong hồi quy Cox.

(các đồng biến sẽ không bằng nhau sau khi điều chỉnh điểm prop tất nhiên sẽ phải được đưa vào hồi quy Cox).

Điểm mấu chốt, có thực sự thông minh khi đưa nhiều dự đoán vào điểm số prop?


@Dimitriy V. Masterov Cảm ơn bạn đã chia sẻ những sự thật quan trọng này. Trái với những cuốn sách và bài báo đang xem xét các khung hồi quy khác, tôi không thấy bất kỳ hướng dẫn nào (đọc sách Rosenbaums) về lựa chọn mô hình trong các phân tích điểm xu hướng. Mặc dù sách giáo khoa / bài viết đánh giá tiêu chuẩn dường như luôn khuyến nghị lựa chọn biến nghiêm ngặt và giữ số lượng người dự đoán thấp, tôi vẫn chưa thấy nhiều cuộc thảo luận này trong các phân tích điểm prop. Bạn viết: (1) "Hiểu biết lý thuyết, kiến ​​thức thể chế và nghiên cứu tốt nên hướng dẫn lựa chọn Xs". Tôi đồng ý nhưng có những trường hợp chúng tôi có sẵn một biến số và không thực sự biết (nhưng có thể là có thể) nếu biến số đó ảnh hưởng đến phân bổ điều trị hoặc kết quả. Ví dụ: tôi nên bao gồm chức năng thận, như đo bằng tốc độ lọc, trong một số điểm nhằm mục đích điều chỉnh cho điều trị bằng statin. Điều trị bằng statin không liên quan gì đến chức năng thận và tôi đã bao gồm một loạt các biến số sẽ ảnh hưởng đến việc điều trị bằng statin. Nhưng nó vẫn hấp dẫn để bao gồm chức năng thận; nó có thể điều chỉnh nhiều hơn Bây giờ một số người sẽ nói rằng nó nên được đưa vào vì nó ảnh hưởng đến kết quả, nhưng tôi có thể cho bạn một ví dụ khác (chẳng hạn như biến nhị phân thành thị / nông thôn) của một biến không ảnh hưởng đến điều trị cũng như kết quả, theo như chúng ta biết. Nhưng tôi muốn bao gồm nó, miễn là nó không ' t ảnh hưởng đến độ chính xác của điểm prop. (2)"Bao gồm các X bị ảnh hưởng bởi việc điều trị, kể cả bài đăng cũ hoặc tiền đề trước khi điều trị, sẽ làm mất hiệu lực giả định". Tôi không chắc ý của bạn ở đây. Nhưng nếu tôi nghiên cứu ảnh hưởng của statin đến kết quả tim mạch, tôi sẽ bao gồm các phép đo khác nhau về lipid máu trong điểm số của xu hướng. Lipid máu được thực hiện bằng cách điều trị. Tôi đoán tôi đã hiểu nhầm câu nói này.

@statsRus cảm ơn bạn đã chia sẻ sự thật, đặc biệt là những gì bạn gọi là "một lưu ý khi chọn đầu vào". Tôi nghĩ rằng tôi lý do nhiều như bạn làm.

Thật không may, các phương pháp điểm số thảo luận về các chiến lược điều chỉnh khác nhau thay vì các chiến lược lựa chọn mô hình. Có lẽ mô hình phù hợp là không quan trọng. Nếu đó là trường hợp, tôi sẽ điều chỉnh cho mọi biến có sẵn có thể ảnh hưởng đến kết quả và phân bổ điều trị một chút. Tôi không phải là người tĩnh, nhưng nếu sự phù hợp của mô hình không quan trọng thì tôi muốn điều chỉnh cho tất cả các biến có thể ảnh hưởng đến phân bổ và kết quả điều trị. Điều này trong nhiều trường hợp có nghĩa là bao gồm các biến sẽ được thực hiện trong điều trị.

Hơn nữa, một số người đề xuất rằng hồi quy Cox tiếp theo chỉ nên bao gồm biến điều trị và phân lớp điểm prop. Trong khi những người khác đề xuất rằng điều chỉnh cox nên bao gồm điểm prop thêm vào tất cả các biến khác mà bạn sẽ điều chỉnh.

Câu trả lời:


8

Cá nhân tôi đã hỏi câu hỏi này trong ít nhất 5 năm kể từ đó đối với tôi, đó là câu hỏi thực tế "lớn" trong việc sử dụng điểm số phù hợp với dữ liệu quan sát để ước tính các tác động nhân quả. Đây là một câu hỏi tuyệt vời và có một sự bất đồng tinh tế chạy sâu trong các số liệu thống kê so với các cộng đồng khoa học máy tính.

Theo kinh nghiệm của tôi, các nhà thống kê có xu hướng ủng hộ việc "ném bồn rửa chén" các đầu vào có thể quan sát vào ước tính điểm số, trong khi các nhà khoa học máy tính có xu hướng ủng hộ một lý do lý thuyết cho các đầu vào (mặc dù các nhà thống kê đôi khi có thể đề cập đến tầm quan trọng của lý thuyết trong việc biện minh cho việc lựa chọn đầu vào vào mô hình điểm xu hướng). Sự khác biệt, tôi tin rằng, xuất phát từ thực tế là các nhà khoa học máy tính (đặc biệt là Judea Pearl) có xu hướng nghĩ về nhân quả theo các biểu đồ chu kỳ theo hướng. Khi xem quan hệ nhân quả thông qua các biểu đồ chu kỳ có hướng, khá dễ dàng để thấy rằng bạn có thể dựa vào biến được gọi là biến "collider", có thể "bỏ chặn" các đường dẫn backlink và thực sự gây ra sai lệch trong ước tính của bạn về hiệu ứng nhân quả.

Takeaway của tôi? Nếu bạn có lý thuyết vững chắc về những gì ảnh hưởng đến việc lựa chọn điều trị, hãy sử dụng điều đó trong ước tính điểm số xu hướng. Sau đó tiến hành phân tích độ nhạy để xác định mức độ nhạy cảm của ước tính của bạn đối với các biến gây nhiễu không quan sát được. Nếu bạn gần như không có lý thuyết nào để hướng dẫn bạn, thì hãy ném vào "bồn rửa trong bếp" và sau đó tiến hành phân tích độ nhạy.

Lưu ý khi chọn đầu vào cho mô hình điểm xu hướng (điều này có thể rõ ràng nhưng đáng chú ý đối với những người khác không quen với việc ước tính tác động nhân quả từ dữ liệu quan sát): Không kiểm soát các biến sau xử lý. Đó là, bạn muốn đầu vào của bạn trong mô hình điểm xu hướng được đo trước khi điều trị và kết quả của bạn sẽ được đo sau khi điều trị. Trong dữ liệu quan sát, điều này thực tế có nghĩa là bạn cần ba sóng dữ liệu, với một bộ cơ sở chi tiết của hiệp phương sai, điều trị được đo ở sóng thứ hai và kết quả được đo trong sóng cuối cùng.


Đây là một bài báo gần đây đề cập đến vấn đề điều hòa trên biến collider (bài báo của họ cho thấy M-bias có lẽ là nhỏ, cho vay tín dụng đối với phương pháp "bồn rửa nhà bếp" khi ném đầu vào vào mô hình điểm số: arxiv.org/abs /1408.0324
liệu thống kê

7

P

Có nhiều ưu điểm của điều chỉnh đồng biến bằng cách sử dụng PS logit. Tôi thường chia nhỏ logit của PS để đưa vào như một biến điều chỉnh tự do nhiều mức độ, sau khi thực hiện thẩm định đối với các vùng không chồng lấp. Xem http://www.citeulike.org/user/harrelfe/article/13340175http://www.citeulike.org/user/harrelfe/article/13265389 và nhiều bài viết khác trong http://www.citeulike.org/ người dùng / harrelfe / tag / xu hướng-điểm .

Y

Tôi nghi ngờ về bất kỳ phương pháp đối sánh nào dẫn đến việc loại bỏ các quan sát phù hợp hoặc phụ thuộc nhiều vào thứ tự dữ liệu. Các quan sát bị loại bỏ có rất nhiều điều để nói về cách ước tính các hiệu ứng đồng biến.


Các liên kết bị hỏng. Bạn có thể giải thích những lợi thế của việc sử dụng logit của PS thay vì PS thô để khớp không?
DS_Enthusiast

Đối với nó không quan trọng. Nhưng tôi khuyên bạn không nên sử dụng kết hợp.
Frank Harrell

3

X

XXtrong dự đoán điều trị, sẽ làm mất hiệu lực giả định. Ví dụ, nếu một đại lý biết rằng vắc-xin đang đến, anh ta có thể điều chỉnh hành vi bắn trước của mình. Bao gồm các công cụ - các biến ảnh hưởng đến sự tham gia và không kết quả - cũng là một ý tưởng tồi. Họ sẽ không giúp đỡ với sự lựa chọn thiên vị và có thể làm trầm trọng thêm vấn đề hỗ trợ. Ví dụ: nếu một số người được khuyến khích điều trị, bạn không muốn điều kiện đó. Việc bao gồm các biến không liên quan trong đặc tả điểm xu hướng có thể làm tăng phương sai do một số được xử lý phải được loại bỏ khỏi các đơn vị phân tích hoặc điều khiển phải được sử dụng nhiều lần hoặc do băng thông phải tăng. Nói tóm lại, cách tiếp cận bồn rửa nhà bếp chắc chắn không được khuyến khích.

CIA không thể được kiểm tra mà không có dữ liệu thử nghiệm hoặc các giả định "xác định quá mức" (như trong trường hợp thử nghiệm trước chương trình hoặc các thử nghiệm giả dược khác). Nếu bạn có đủ dữ liệu lịch sử, tôi chắc chắn sẽ thử cái sau trên bộ được quản lý cẩn thận của bạn.


Phản hồi để chỉnh sửa:
Tôi không thể nhận xét về thận vì nó ở quá xa khu vực của tôi (trừ bánh nướng, mà tôi biết vài thứ về nó). Thành thị dường như là một biến số ảnh hưởng đến cả sự tham gia và kết quả thông qua các chi phí liên quan đến việc đi đến bệnh viện để điều trị và kiểm tra. Nó có thể nhặt một số vật không quan sát được khiến chúng ta thức đêm. Câu chuyện dự đoán mà tôi có trong đầu là mọi người có thể điều chỉnh hành vi của mình nếu họ biết rằng họ sẽ được điều trị trong tương lai, ví dụ bằng cách thay đổi chế độ ăn uống.


2

Bởi vì mô hình điểm xu hướng hoàn toàn là dự đoán - bạn không quan tâm đến bất kỳ hệ số nào - Tôi luôn hiểu nó hơn là bạn có thể vượt qua tất cả các biến số ảnh hưởng đến cả mục nhập và kết quả của đoàn hệ. Bạn có thể xoắn các biến này theo ý muốn - bình phương chúng, root chúng, tất cả các loại tương tác, v.v. - miễn là bạn đang tăng chất lượng dự đoán của mô hình.

Về lý thuyết, bạn thậm chí không phải lo lắng về dữ liệu tạm giữ cho mô hình dự đoán của mình vì bạn không muốn khái quát hóa các kết quả này qua mẫu của bạn (về cơ bản, nguy cơ 'quá mức' không phải là vấn đề). Cuối cùng, bạn không phải giới hạn bản thân trong hồi quy logistic; khi bạn lập mô hình đầu ra nhị phân, bạn thậm chí có thể sử dụng mô hình GAM - về cơ bản, bất cứ điều gì để cải thiện tỷ lệ dự đoán.

(Tôi phải thêm một lưu ý trái ngược với quan điểm sử dụng của @statsRus: theo kinh nghiệm của tôi, đó là các nhà khoa học máy tính sử dụng tất cả các biến trong khi các nhà thống kê xem xét cẩn thận từng biến. Tôi đoán nền tảng công việc khác nhau tạo ra thói quen làm việc khác nhau.)

Đối với việc sử dụng điểm số, người ta thường không khuyến khích sử dụng nó như một đồng biến - nó có ít tác động hơn - và chắc chắn không cùng với các biến được sử dụng để tạo biến số cho điểm. Một đối số có thể được đưa ra nếu, trong điểm số xu hướng, bạn đã phân loại một biến liên tục - ví dụ: tuổi - trong đó bạn có thể bao gồm phiên bản liên tục trong mô hình nhưng thực sự, không phân loại biến đầu tiên ...

Sử dụng điểm số để khớp (với calipers - đặc biệt là biến 1: N khớp) là phổ biến nhưng tôi tin rằng kỹ thuật có tác động mạnh nhất là Trọng lượng điều trị theo tỷ lệ nghịch (IPTW) - mặc dù tôi chưa sử dụng phương pháp này và tôi không thể nhớ nó hoạt động

Hãy thử nhìn vào công việc của Peter C. Austin tại Đại học Toronto - anh ấy đã viết rất nhiều bài báo về điểm số của xu hướng. Đây là một trong những ví dụ phù hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.