Làm thế nào để tránh cộng tuyến của các biến phân loại trong hồi quy logistic?


9

Tôi có một vấn đề sau: Tôi đang thực hiện hồi quy logistic nhiều trên một số biến mà mỗi biến có thang đo danh nghĩa. Tôi muốn tránh đa cộng đồng trong hồi quy của tôi. Nếu các biến liên tục, tôi có thể tính hệ số lạm phát phương sai (VIF) và tìm kiếm các biến có VIF cao. Nếu các biến được chia tỷ lệ thông thường, tôi có thể tính các hệ số tương quan xếp hạng của Spearman cho một số cặp biến và so sánh giá trị được tính với một ngưỡng nhất định. Nhưng tôi phải làm gì nếu các biến chỉ được chia tỷ lệ? Một ý tưởng sẽ là thực hiện một bài kiểm tra chi bình phương theo cặp để độc lập, nhưng các biến khác nhau không có cùng một miền. Vì vậy, đó sẽ là một vấn đề khác. Có khả năng để giải quyết vấn đề này?


1
Không phải là một bản sao, nhưng là một bản sao tương tự: stats.stackexchange.com/questions/200720/ . Đừng bị đánh lừa bởi tiêu đề, OP của câu hỏi đó có nghĩa là các biến độc lập. Ngoài ra, hãy xem câu trả lời của Peter Flom cho câu hỏi này: stats.stackexchange.com/questions/72992/ mẹo
TEG

4
Tại sao bạn "muốn tránh đa cộng đồng"? Đôi khi, điều đó là không thể tránh khỏi, thậm chí hữu ích và có thể được giải quyết bằng các phương pháp như hồi quy sườn núi. Nếu các biến danh nghĩa của bạn là các mục riêng lẻ tạo thành thang đo Likert, thì bạn thực sự sẽ phụ thuộc vào tính đa hình của chúng và có thể sử dụng tổng của các mục đó làm công cụ dự đoán. Vì vậy, những gì đặc biệt về nghiên cứu của bạn làm cho nó rất cần thiết để tránh đa cộng đồng?
EdM

Câu trả lời:


6

Tôi sẽ thứ hai bình luận của @ EdM (+1) và đề nghị sử dụng phương pháp hồi quy chính quy.

Tôi nghĩ rằng một phương pháp hồi quy mạng lưới / sườn đàn hồi sẽ cho phép bạn đối phó với các yếu tố dự đoán cộng tuyến. Chỉ cần cẩn thận để chuẩn hóa ma trận tính năng của bạn một cách thích hợp trước khi sử dụng nó, nếu không, bạn sẽ có nguy cơ thường xuyên hóa từng tính năng một cách không tương xứng (vâng, ý tôi là các cột , bạn nên chia tỷ lệ chúng sao cho mỗi cột có phương sai đơn vị và có nghĩa là ).X0/10

Rõ ràng bạn sẽ phải xác nhận chéo kết quả của bạn để đảm bảo một số khái niệm về sự ổn định. Tôi cũng lưu ý rằng sự không ổn định không phải là một vấn đề lớn bởi vì nó thực sự gợi ý rằng không có giải pháp rõ ràng / kết quả suy luận và chỉ đơn giản là giải thích thủ tục GLM là "sự thật nền tảng" là không mạch lạc.


3

ViF vẫn là một biện pháp hữu ích trong trường hợp của bạn, nhưng số điều kiện của ma trận thiết kế của bạn là một cách tiếp cận phổ biến hơn cho dữ liệu phân loại.

Tài liệu tham khảo ban đầu ở đây:

Belsley, David A.; Kuh, Edwin; Welsch, Roy E. (1980). "Số điều kiện". Chẩn đoán hồi quy: Xác định dữ liệu có ảnh hưởng và nguồn của cộng tác. New York: John Wiley & Sons. tr 100 100104104.

Và đây là các liên kết hữu ích hơn:
https://en.wikipedia.org/wiki/Condition_number

https://epub.ub.uni-muenchen.de/2081/1/report008_statistic.pdf


1
+1. Hừm ... Một chút "vụ nổ từ quá khứ" mà báo cáo nhưng thú vị. Tôi nghi ngờ rằng cách tiếp cận này sẽ là một nỗi đau khi xử lý nhiều biến có nhiều cấp độ (ứng dụng của chúng là biến phân loại nhị phân hoặc nhị phân) nhưng vâng, đọc thú vị!
usεr11852

1

Một cách tiếp cận khác là thực hiện Phân tích tương ứng nhiều lần (MCA) trên các biến độc lập đa hướng của bạn. Sau đó, bạn sẽ kết thúc với các thành phần trực giao (hoàn toàn độc lập) mà bạn có thể sử dụng làm IV trong mô hình của mình. Sẽ không có sự hiện diện của cộng đồng, nhưng sẽ khó có thể ảnh hưởng đến các biến ban đầu của bạn. Mặt khác, nếu có tính đa hướng, MCA sẽ hợp nhất các hiệu ứng biến IV tương quan của bạn thành các hiệu ứng tổng quát hơn, mà bạn có thể thấy thậm chí còn dễ hiểu và hợp lý hơn.


0

Bạn có thể kiểm tra mối tương quan hai biến bằng cách sử dụng thứ tự xếp hạng hoặc kiểm tra không tham số khác cho các biến phân loại. Nó giống như bạn kiểm tra ma trận tương quan cho một nhóm các biến liên tục, chỉ cần sử dụng thử nghiệm khác nhau.


OP đã nói rằng anh ta đã từ chối điều này vì các biến của anh ta không được sắp xếp theo thứ tự.
mdewey
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.