Xử lý các biến hồi quy tương quan


23

Trong một hồi quy tuyến tính đa biến với các hồi quy tương quan cao, chiến lược tốt nhất để sử dụng là gì? Đây có phải là một cách tiếp cận hợp pháp để thêm sản phẩm của tất cả các biến hồi quy tương quan?


1
Tôi rất tiếc khi thấy câu trả lời của @ Suncoolsu đã bị xóa. Nó và các ý kiến ​​theo sau đã làm rõ một sự khác biệt giữa đa cộng đồng và điều kiện xấu. Ngoài ra, trong một bình luận Suncoolsu đã chỉ ra cách tiêu chuẩn hóa sơ bộ có thể giúp với hồi quy đa thức. Nếu nó xuất hiện trở lại, tôi sẽ bỏ phiếu ;-).
whuber

@ Ας: Sản phẩm có khả năng không ổn định trong nhiều ứng dụng. Nó có thể bị quấy rầy bởi nhiều số không nếu các biến hồi quy riêng lẻ có một số 0; giá trị tuyệt đối của nó có khả năng có độ lệch dương mạnh mẽ, làm tăng một số điểm đòn bẩy cao; nó có thể khuếch đại dữ liệu bên ngoài, đặc biệt là các ngoại lệ đồng thời, thêm vào đòn bẩy của chúng. Cũng có thể khá khó để giải thích, đặc biệt nếu các biến hồi quy đã là biểu thức lại của các biến ban đầu (như nhật ký hoặc gốc).
whuber

Câu trả lời:


13

Các thành phần chính có rất nhiều ý nghĩa ... về mặt toán học. Tuy nhiên, tôi sẽ cảnh giác khi chỉ cần sử dụng một số mẹo toán học trong trường hợp này và hy vọng rằng tôi không cần phải suy nghĩ về vấn đề của mình.

Tôi khuyên bạn nên suy nghĩ một chút về loại dự đoán nào tôi có, biến độc lập là gì, tại sao các yếu tố dự đoán của tôi lại tương quan với nhau, liệu một số dự đoán của tôi có thực sự đo lường cùng một thực tế cơ bản hay không (nếu vậy, liệu tôi có thể làm việc với một đo lường đơn lẻ và dự đoán nào của tôi sẽ là tốt nhất cho điều này), những gì tôi đang thực hiện phân tích - nếu tôi không quan tâm đến suy luận, chỉ trong dự đoán, thì tôi thực sự có thể để mọi thứ như vậy, miễn là tương lai giá trị dự đoán tương tự như quá khứ.


4
Hoàn toàn đồng ý, +1. Nhưng đặc tính của PCA là một "mánh toán học" không công bằng chê bai nó, IMHO. Nếu bạn đồng ý (tôi không chắc là bạn) rằng việc tổng hợp hoặc tính trung bình các nhóm hồi quy, như Srikant gợi ý, sẽ được chấp nhận, thì PCA nên được chấp nhận và nó thường cải thiện sự phù hợp. Hơn nữa, các thành phần chính có thể cung cấp cái nhìn sâu sắc về các nhóm dự đoán tương quan và cách chúng tương quan: đó là một công cụ tuyệt vời cho suy nghĩ bạn đang ủng hộ.
whuber

2
@whuber, tôi thấy và đồng ý với quan điểm của bạn và tôi không muốn chê bai PCA, nên chắc chắn là +1. Tôi chỉ muốn chỉ ra rằng sử dụng PCA một cách mù quáng mà không nhìn vào và suy nghĩ về vấn đề tiềm ẩn (mà không ai ở đây đang ủng hộ) sẽ khiến tôi có cảm giác tồi tệ ...
S. Kolassa - Tái lập lại

11

Bạn có thể sử dụng các thành phần chính hoặc hồi quy sườn để giải quyết vấn đề này. Mặt khác, nếu bạn có hai biến tương quan đủ cao để gây ra vấn đề với ước lượng tham số, thì bạn gần như chắc chắn có thể bỏ một trong hai biến mà không mất nhiều về mặt dự đoán - bởi vì hai biến mang cùng thông tin . Tất nhiên, điều đó chỉ hoạt động khi vấn đề là do hai nền độc lập có tương quan cao. Khi vấn đề liên quan đến nhiều hơn hai biến gần nhau (gần như hai biến có thể chỉ có tương quan vừa phải), có lẽ bạn sẽ cần một trong các phương pháp khác.


2
(+1) Bây giờ, vấn đề là OP không cho biết có bao nhiêu biến vào mô hình, bởi vì trong trường hợp chúng có rất nhiều, có thể tốt hơn để thực hiện cả co rút và chọn biến, ví dụ như tiêu chí co giãn (là kết hợp hình phạt của Lasso và Ridge).
chl

3

Đây là một suy nghĩ khác được lấy cảm hứng từ câu trả lời của Stephan :

Nếu một số biến hồi quy tương quan của bạn có liên quan một cách có ý nghĩa (ví dụ: chúng là các thước đo khác nhau của trí thông minh, ví dụ như bằng lời nói, toán học, v.v.) thì bạn có thể tạo một biến duy nhất đo cùng một biến bằng một trong các kỹ thuật sau:

  • Tính tổng các biến hồi quy (thích hợp nếu các biến hồi quy là thành phần của tổng thể, ví dụ: IQ bằng lời nói + IQ toán học = IQ tổng thể)

  • Trung bình của các biến hồi quy (thích hợp nếu các biến hồi quy đang đo cùng một cấu trúc cơ bản, ví dụ: kích thước của giày trái, kích thước của giày phải để đo chiều dài của bàn chân)

  • Phân tích nhân tố (để tính sai số trong các phép đo và trích xuất một yếu tố tiềm ẩn)

Sau đó, bạn có thể loại bỏ tất cả các biến hồi quy tương quan và thay thế chúng bằng một biến xuất hiện từ phân tích trên.


1
Điều này có ý nghĩa nếu tất cả các biến hồi quy được đo trên cùng một thang đo. Trong tâm lý học, các phạm vi con khác nhau thường được đo trên các thang đo khác nhau (và vẫn tương quan), do đó, một tổng hoặc trung bình có trọng số (thực sự giống nhau ở đây) sẽ phù hợp. Và tất nhiên, người ta có thể xem PCA chỉ cung cấp loại trọng số này bằng cách tính các trục có phương sai tối đa.
S. Kolassa - Tái lập Monica

2

Tôi đã định nói nhiều điều tương tự như Stephan Kolassa ở trên (vì vậy đã nêu lên câu trả lời của anh ấy). Tôi chỉ nói thêm rằng đôi khi tính đa hình có thể là do sử dụng các biến mở rộng có tương quan cao với một số thước đo kích thước và mọi thứ có thể được cải thiện bằng cách sử dụng các biến số chuyên sâu, tức là chia mọi thứ cho một số đo kích thước. Ví dụ: nếu đơn vị của bạn là các quốc gia, bạn có thể chia theo dân số, khu vực hoặc GNP, tùy thuộc vào ngữ cảnh.

Ồ - và để trả lời phần thứ hai của câu hỏi ban đầu: Tôi không thể nghĩ về bất kỳ tình huống nào khi thêm sản phẩm của tất cả các biến hồi quy tương quan sẽ là một ý tưởng tốt. Nó sẽ giúp như thế nào? Nó có nghĩa là gì?


Ý tưởng ban đầu của tôi là thêm tính đến sự tương tác theo cặp của các biến hồi quy
Ηλίας

Nó thường là một ý tưởng tốt để đưa vào tài khoản tương tác cặp. Nhưng không phải tất cả đều là chúng: Bạn cần phải nghĩ máng có ý nghĩa!
kjetil b halvorsen

1

Tôi không phải là chuyên gia về vấn đề này, nhưng suy nghĩ đầu tiên của tôi sẽ là chạy một phân tích thành phần chính trên các biến dự đoán, sau đó sử dụng các thành phần chính kết quả để dự đoán biến phụ thuộc của bạn.


kk

Theo cách tiếp cận giải thích, sau đó bạn phải giải thích cách (các) kết hợp tuyến tính của bạn pcác biến liên quan đến kết quả và điều này đôi khi có thể khó khăn.
chl

@chl Điểm tốt. Nhưng vì các thành phần chính là kết hợp tuyến tính, nên đơn giản (mặc dù đôi khi hơi đau) để soạn mô hình hồi quy được trang bị (= một biến đổi tuyến tính) với phép chiếu lên các thành phần (= biến đổi tuyến tính khác) để có được mô hình tuyến tính có thể hiểu được liên quan đến tất cả các biến ban đầu. Điều này hơi giống với các kỹ thuật trực giao. Cũng lưu ý rằng, các đề xuất mới nhất của Srikant (tổng hoặc trung bình các biến hồi quy) về cơ bản gần đúng với trình xác định chính nhưng gây ra những khó khăn giải thích tương tự.
whuber

@whuber Vâng, tôi đồng ý với cả hai điểm của bạn. Tôi đã sử dụng rộng rãi hồi quy PLS và CCA, vì vậy trong trường hợp này chúng ta phải xử lý các kết hợp tuyến tính ở cả hai bên (tiêu chí hiệp phương sai hoặc tiêu chí tương quan tối đa); với một số lượng lớn các dự đoán, việc giải thích các vectơ chính tắc là khó khăn, vì vậy chúng tôi chỉ xem xét các biến đóng góp nhất. Bây giờ, tôi có thể tưởng tượng rằng không có quá nhiều dự đoán để tất cả các đối số của bạn (@Stephan, @Mike) có ý nghĩa.
chl

-1

Một trong những cách để giảm tác động của tương quanchuẩn hóa các biến hồi quy . Trong tiêu chuẩn hóa, tất cả các biến hồi quy được trừ bằng phương tiện tương ứng và chia cho độ lệch chuẩn tương ứng của chúng. Cụ thể, nếuX là ma trận hồi quy:

xtôijStmộtndmộtrdtôized= =xtôij-x.j¯Sj

Đây không phải là một biện pháp khắc phục, nhưng chắc chắn là một bước đi đúng hướng.


8
Các phép biến đổi tuyến tính (như thế này) không bao giờ thay đổi các hệ số tương quan. Điểm để chuẩn hóa là cải thiện điều hòa của ma trận bình thường.
whuber

1
Chuẩn hóa các biến sẽ không ảnh hưởng đến mối tương quan giữa các biến độc lập và sẽ không "làm giảm ảnh hưởng của tương quan" theo bất kỳ cách nào tôi có thể nghĩ về vấn đề này.
Brett

2
@Brett, một ví dụ điển hình trong đó tiêu chuẩn hóa giúp là Hồi quy đa thức . Nó luôn luôn được khuyến nghị để chuẩn hóa các biến hồi quy. Chuẩn hóa không thay đổi ma trận tương quan, nhưng làm cho ma trận var cov (hiện là ma trận tương quan) hoạt động tốt (được gọi là điều hòa bởi @whuber chỉ vào số điều kiện của ma trận, IMHO).
suncoolsu

Đã đồng ý. Định tâm rất hữu ích khi nhập các thuật ngữ bậc cao hơn, như các thuật ngữ đa thức hoặc tương tác. Điều đó dường như không phải là trường hợp ở đây và sẽ không giúp đỡ với vấn đề của các yếu tố dự đoán tương quan.
Brett

Tôi đã xóa nó vì tôi không muốn làm mọi người nhầm lẫn với câu trả lời sai. Có lẽ người điều hành đã đưa nó lên một lần nữa.
suncoolsu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.