Trong một hồi quy tuyến tính đa biến với các hồi quy tương quan cao, chiến lược tốt nhất để sử dụng là gì? Đây có phải là một cách tiếp cận hợp pháp để thêm sản phẩm của tất cả các biến hồi quy tương quan?
Trong một hồi quy tuyến tính đa biến với các hồi quy tương quan cao, chiến lược tốt nhất để sử dụng là gì? Đây có phải là một cách tiếp cận hợp pháp để thêm sản phẩm của tất cả các biến hồi quy tương quan?
Câu trả lời:
Các thành phần chính có rất nhiều ý nghĩa ... về mặt toán học. Tuy nhiên, tôi sẽ cảnh giác khi chỉ cần sử dụng một số mẹo toán học trong trường hợp này và hy vọng rằng tôi không cần phải suy nghĩ về vấn đề của mình.
Tôi khuyên bạn nên suy nghĩ một chút về loại dự đoán nào tôi có, biến độc lập là gì, tại sao các yếu tố dự đoán của tôi lại tương quan với nhau, liệu một số dự đoán của tôi có thực sự đo lường cùng một thực tế cơ bản hay không (nếu vậy, liệu tôi có thể làm việc với một đo lường đơn lẻ và dự đoán nào của tôi sẽ là tốt nhất cho điều này), những gì tôi đang thực hiện phân tích - nếu tôi không quan tâm đến suy luận, chỉ trong dự đoán, thì tôi thực sự có thể để mọi thứ như vậy, miễn là tương lai giá trị dự đoán tương tự như quá khứ.
Bạn có thể sử dụng các thành phần chính hoặc hồi quy sườn để giải quyết vấn đề này. Mặt khác, nếu bạn có hai biến tương quan đủ cao để gây ra vấn đề với ước lượng tham số, thì bạn gần như chắc chắn có thể bỏ một trong hai biến mà không mất nhiều về mặt dự đoán - bởi vì hai biến mang cùng thông tin . Tất nhiên, điều đó chỉ hoạt động khi vấn đề là do hai nền độc lập có tương quan cao. Khi vấn đề liên quan đến nhiều hơn hai biến gần nhau (gần như hai biến có thể chỉ có tương quan vừa phải), có lẽ bạn sẽ cần một trong các phương pháp khác.
Đây là một suy nghĩ khác được lấy cảm hứng từ câu trả lời của Stephan :
Nếu một số biến hồi quy tương quan của bạn có liên quan một cách có ý nghĩa (ví dụ: chúng là các thước đo khác nhau của trí thông minh, ví dụ như bằng lời nói, toán học, v.v.) thì bạn có thể tạo một biến duy nhất đo cùng một biến bằng một trong các kỹ thuật sau:
Tính tổng các biến hồi quy (thích hợp nếu các biến hồi quy là thành phần của tổng thể, ví dụ: IQ bằng lời nói + IQ toán học = IQ tổng thể)
Trung bình của các biến hồi quy (thích hợp nếu các biến hồi quy đang đo cùng một cấu trúc cơ bản, ví dụ: kích thước của giày trái, kích thước của giày phải để đo chiều dài của bàn chân)
Phân tích nhân tố (để tính sai số trong các phép đo và trích xuất một yếu tố tiềm ẩn)
Sau đó, bạn có thể loại bỏ tất cả các biến hồi quy tương quan và thay thế chúng bằng một biến xuất hiện từ phân tích trên.
Tôi đã định nói nhiều điều tương tự như Stephan Kolassa ở trên (vì vậy đã nêu lên câu trả lời của anh ấy). Tôi chỉ nói thêm rằng đôi khi tính đa hình có thể là do sử dụng các biến mở rộng có tương quan cao với một số thước đo kích thước và mọi thứ có thể được cải thiện bằng cách sử dụng các biến số chuyên sâu, tức là chia mọi thứ cho một số đo kích thước. Ví dụ: nếu đơn vị của bạn là các quốc gia, bạn có thể chia theo dân số, khu vực hoặc GNP, tùy thuộc vào ngữ cảnh.
Ồ - và để trả lời phần thứ hai của câu hỏi ban đầu: Tôi không thể nghĩ về bất kỳ tình huống nào khi thêm sản phẩm của tất cả các biến hồi quy tương quan sẽ là một ý tưởng tốt. Nó sẽ giúp như thế nào? Nó có nghĩa là gì?
Tôi không phải là chuyên gia về vấn đề này, nhưng suy nghĩ đầu tiên của tôi sẽ là chạy một phân tích thành phần chính trên các biến dự đoán, sau đó sử dụng các thành phần chính kết quả để dự đoán biến phụ thuộc của bạn.
Một trong những cách để giảm tác động của tương quan là chuẩn hóa các biến hồi quy . Trong tiêu chuẩn hóa, tất cả các biến hồi quy được trừ bằng phương tiện tương ứng và chia cho độ lệch chuẩn tương ứng của chúng. Cụ thể, nếu là ma trận hồi quy:
Đây không phải là một biện pháp khắc phục, nhưng chắc chắn là một bước đi đúng hướng.