Phản ứng nhị phân đa biến - lời khuyên về chiến lược hồi quy


7

Tôi sẽ biết ơn lời khuyên về cách tiếp cận tình huống sau: Tôi có một biến đếm X và bốn biến nhị phân A, B, C, D. Biến đếm là biến độc lập (nó đề cập đến số lượng trải nghiệm bất lợi trong thời thơ ấu ) và các nhị phân là các biến phụ thuộc (chúng đề cập đến các kết quả bất lợi nhất định ở tuổi trưởng thành). Một người trả lời trong bộ dữ liệu có thể có bất kỳ kết hợp kết quả nào, ví dụ A, AC, BCD, v.v. Tôi muốn đo lường mức độ liên kết giữa biến đếm X và kết quả A, B, C, D có điều kiện theo các mức của kết quả khác.

Tôi không chắc làm thế nào tốt nhất để tiếp cận điều này. Nó sẽ được biện minh để đảo ngược vai trò của các biến và coi biến đếm X là kết quả và AD là các yếu tố dự đoán? Vì vậy, đây sẽ là hồi quy nhị thức âm (có sự quá mức). Theo cách này, sự liên kết giữa X và A (B, Cạn) sẽ được ước tính giữ các biến nhị phân khác không đổi. Nhưng dường như với tôi, về mặt logic, nó sẽ tinh ranh vì chúng ta sẽ dự đoán điều gì đó xảy ra trước đó với điều gì đó xảy ra sau đó.

Hoặc tôi nên sử dụng MANOVA thay thế (nhưng tôi đã đọc ở đâu đó rằng việc giải thích kết quả không đơn giản).

Hoặc tôi nên sử dụng mô hình hỗn hợp tuyến tính tổng quát (chưa từng thử trước đây) như được đề xuất tại đây https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/ .


3
Tôi rất vui khi thấy câu hỏi này được hỏi và hy vọng sẽ thấy bạn nhận được câu trả lời đa dạng từ cộng đồng. Ban đầu, hãy để tôi chỉ cho bạn một ví dụ về cách bạn có thể không muốn tiến hành. Bài đăng trên blog này kể câu chuyện về sự phân tích lại quan trọng của một bài nghiên cứu trong lĩnh vực của bạn đã bị hủy hoại bởi sự thất bại của nó trong việc đối mặt với các câu hỏi về tính hợp lệ và bởi sự phụ thuộc vào phân tích hồi quy liên quan, vô căn cứ.
David C. Norris

3
Dường như có sự thiếu quyết đoán trong những gì bạn thực sự muốn. measure the strength of the association between the count variable X and the outcomes A, B, C, D conditional on the levels of the other outcomesĐiều đó 'có điều kiện' cho thấy thực sự các kết quả nhị phân là các yếu tố dự đoán. predicting something that happened earlier with something that happened laterkhông phải là vấn đề vì chúng ta đang ở trong lĩnh vực phân tích, không phải là "bản chất".
ttnphns

(tt) Tuy nhiên, vấn đề là ở chỗ bạn đang đặt lỗi ngẫu nhiên - trong kết quả của bạn hoặc trong số X của bạn. Nếu bạn muốn hồi quy với ước lượng khoảng hoặc giá trị p của các tham số - điều đó tạo ra sự khác biệt. Nếu bạn chỉ cần đo liên kết (bao gồm cả điều kiện / một phần) - thì không.
ttnphns

Không đơn giản hơn để "phân chia" vấn đề: đo lường mối liên hệ giữa biến độc lập X của bạn và từng kết quả riêng biệt bằng cách sử dụng 4 mô hình, ví dụ hồi quy logistic? (để đo lường kết quả có liên quan có điều kiện, kết quả 'trái' bạn có thể đưa chúng làm dự đoán)
matteo

Câu trả lời:


9

Bạn đang đưa ra một giả định mạnh mẽ rằng tất cả các sự kiện thời thơ ấu có trọng lượng tương đương trong việc dự đoán kết quả của người lớn. Nhưng cho rằng, có một số cách có thể để tiến hành. Đây là ba cách tiếp cận chính, một trong số đó bạn đã đề cập.

  1. Xoay ngược vấn đề để dự đoán số lượng sự kiện thời thơ ấu với tình trạng kết quả của 4 sự kiện. Sử dụng một mô hình bán tổng thể để không áp đặt phân phối cho số đếm, nghĩa là mô hình logistic tỷ lệ cược tỷ lệ cược. Các thông số của mô hình ngược này sẽ khó diễn giải nhưng thử nghiệm tổng thể về liên kết và các biện pháp tổng thể về sức mạnh của liên kết sẽ có ý nghĩa. Các mô hình ngược, khi chỉ có một yếu tố dự đoán ban đầu (như trong trường hợp của bạn) là hữu ích vì mức độ X dự đoán Y giống như mức độ mà Y dự đoán X theo nghĩa thống kê thuần túy.
  2. Sử dụng mô hình đa biến đầy đủ cho 4 kết quả nhị phân. Có một số mô hình từ kinh tế lượng sẽ xử lý tình huống này. Xem cuốn sách Phân tích kinh tế lượng của Greene .
  3. Tạo một thứ tự phân cấp của A, B, C, D và gán cho mỗi người những điều tồi tệ nhất trong 4 sự kiện đã xảy ra với họ. Dự đoán kết quả thứ tự này với một mô hình đáp ứng thứ tự bán tổng thể.

Bạn đã không đề cập đến kích thước mẫu của bạn nhưng đó có thể là một vấn đề. Ít nhất 96 quan sát là cần thiết chỉ để ước tính một tỷ lệ đơn giản không có đồng biến.


4
+1. Frank, bạn có thể bỏ thêm vài dòng về Pt.2 không? Tức là các thủ tục đa biến cho các phản ứng nhị phân cụ thể?
ttnphns

1

Mô hình probit đa biến có thể được xem xét, như được mô tả trong cuốn sách Greene được đề cập bởi Frank Harrell. Xem thêm (Lesaffre và Mohlenberghs, 1991 Stat. Med 10, 1391-1403). Ý tưởng là nghĩ về sự phân phối xu hướng hoặc dung sai đa biến (4 chiều) cho mỗi sự kiện. Bạn mô hình vectơ trung bình đa biến là bốn hàm của (các) biến độc lập. Ước tính xác suất của mỗi sự kiện cho vectơ trung bình thông qua hàm liên kết probit.

Google cuốn sách Greene. Bạn sẽ tìm thấy một số "liên kết" hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.