Tôi có thể chỉ cần loại bỏ một trong hai biến dự đoán có tương quan tuyến tính cao không?


18

Sử dụng Hệ số tương quan của Pearson, tôi có một số biến có tương quan cao ( và cho 2 cặp biến trong mô hình của tôi).ρ=0.978ρ=0.989

Các lý do một số biến có tương quan cao là bởi vì một biến được sử dụng trong tính toán cho một biến khác.

Thí dụ:

B=V/3000E=VD

BEρ=0.989

Có thể cho tôi chỉ "vứt bỏ" một trong các biến?

Câu trả lời:


26

Cả B và E đều có nguồn gốc từ V. B và E rõ ràng không thực sự là các biến "độc lập" với nhau. Biến cơ bản thực sự quan trọng ở đây là V. Có lẽ bạn nên coi thường cả B và E trong trường hợp này và chỉ giữ V.

Trong một tình huống tổng quát hơn, khi bạn có hai biến độc lập có mối tương quan rất cao, bạn chắc chắn nên loại bỏ một trong số chúng bởi vì bạn gặp phải câu hỏi hóc búa đa biến và hệ số hồi quy của mô hình hồi quy liên quan đến hai biến tương quan cao sẽ không đáng tin cậy. Ngoài ra, trong tiếng Anh đơn giản nếu hai biến có tương quan cao đến mức rõ ràng chúng sẽ truyền đạt gần như chính xác thông tin tương tự cho mô hình hồi quy của bạn. Nhưng, bằng cách bao gồm cả hai bạn đang thực sự làm suy yếu mô hình. Bạn không thêm thông tin gia tăng. Thay vào đó, bạn đang truyền tải mô hình của bạn với tiếng ồn. Không phải là một điều tốt.

Một cách bạn có thể giữ các biến tương quan cao trong mô hình của mình là sử dụng thay vì hồi quy mô hình Phân tích thành phần chính (PCA). Các mô hình PCA được tạo ra để loại bỏ tính đa hình. Sự đánh đổi là bạn kết thúc với hai hoặc ba thành phần chính trong mô hình của bạn thường chỉ là các cấu trúc toán học và khá khó hiểu về mặt logic. Do đó, PCA thường bị bỏ rơi như một phương pháp bất cứ khi nào bạn phải trình bày kết quả của mình cho đối tượng bên ngoài như quản lý, cơ quan quản lý, v.v ... Các mô hình PCA tạo ra các hộp đen khó hiểu rất khó giải thích.


1
(+1) để giải thích về PCA.
steffen

1
Cảm ơn, đây là một lời giải thích tuyệt vời. Tôi đã nghe và đọc về PCA, nhưng đây là dự án cuối cùng cho khóa học sau đại học "hồi quy" mà tôi đang tham gia, và giáo sư chỉ muốn chúng tôi sử dụng LR. Bất kể, tôi thực sự đánh giá cao lời giải thích của PCA và có thể sẽ sử dụng nó cho vui.
TheCloudlessSky

3
Trong một số trường hợp nhất định, các khuyến nghị trong câu trả lời này sẽ không hoạt động. Ví dụ, nếu mối quan hệ thực sự là Y = B + E = V / 3000 + V * D thì sao? Sau đó, các biến xảy ra có tương quan cao do phạm vi của V và D trong tập dữ liệu - đó là (hoặc có thể) là tai nạn thuần túy - trong khi vứt bỏ một trong hai B hoặc E sẽ dẫn đến mô hình sai. Nói tóm lại, "sự phụ thuộc" nói chung không phải là lý do hợp lệ để loại bỏ một số biến khỏi mô hình; bao gồm các biến phụ thuộc mạnh không nhất thiết "làm suy yếu" một mô hình; PCA không phải lúc nào cũng là lối thoát.
whuber

@whuber, tôi không chắc là tôi đồng ý với ý kiến ​​của bạn. Tôi nghĩ rằng "sự phụ thuộc" nói chung là một lý do khá hợp lệ để loại bỏ một số biến khỏi mô hình hồi quy. Mặt khác, hệ số hồi quy của bạn không thể tin cậy được. Trong ví dụ bạn sử dụng có vấn đề cho hồi quy, một giải pháp đơn giản là sử dụng toàn bộ biểu thức (V / 3000 + V * D) làm một biến duy nhất.
Sympa

3
Tổng quát hơn, nếu mô hình là beta1 * (V / 3000) + beta2 * (V D), bạn không thể làm điều này: nói cách khác, đề xuất của bạn cho rằng bạn biết ràng buộc tuyến tính giữa các hệ số. Đúng là các hệ số hồi quy có thể có * VIF tương đối lớn hoặc sai số chuẩn, nhưng với lượng dữ liệu đủ - hoặc với các quan sát được chọn tốt - các ước tính sẽ đủ đáng tin cậy. Vì vậy, chúng tôi đồng ý có một vấn đề và thực sự tôi đồng ý với giải pháp của bạn là một trong một số lựa chọn thay thế để xem xét . Tôi không đồng ý rằng nó là chung chung và cần thiết như bạn đưa ra.
whuber

7

Đây là một câu trả lời từ quan điểm của một người học máy, mặc dù tôi sợ rằng tôi sẽ bị đánh bại bởi các nhà thống kê thực sự cho nó.

Có thể cho tôi chỉ "vứt bỏ" một trong các biến?

Vâng, câu hỏi là loại mô hình bạn muốn sử dụng để dự đoán. Nó phụ thuộc vào ...

  • mô hình với các yếu tố dự đoán tương quan? Ví dụ, mặc dù về mặt lý thuyết NaiveBayes có vấn đề với các biến tương quan, các thí nghiệm đã chỉ ra rằng nó vẫn có thể hoạt động tốt.
  • Làm thế nào để mô hình xử lý các biến dự đoán? Ví dụ, sự khác biệt giữa B và V sẽ được chuẩn hóa trong ước tính mật độ xác suất, có thể giống nhau đối với E và V tùy thuộc vào phương sai của D (như euphoria đã nói)
  • sự kết hợp sử dụng nào của B và E (một, không, cả hai) mang lại kết quả tốt nhất, được ước tính bằng cách xác định giá trị chéo + một bài kiểm tra trên tập hợp giữ?

Đôi khi chúng ta học máy thậm chí thực hiện tối ưu hóa di truyền để tìm ra sự kết hợp số học tốt nhất của một tập hợp các yếu tố dự đoán.


7

B là một biến đổi tuyến tính của V. E thể hiện sự tương tác giữa V và D. Bạn đã xem xét việc chỉ định một mô hình là Y = Intercept + V + D + V: D chưa? Như @ euphoria83 gợi ý, có vẻ như có ít biến thể trong D, vì vậy nó có thể không giải quyết được vấn đề của bạn; tuy nhiên, ít nhất nó phải làm cho sự đóng góp độc lập của V và D rõ ràng. Hãy chắc chắn để trung tâm cả V và D trước.


4
+1: Không chỉ đề xuất này là một cách tiếp cận tốt cho vấn đề đang được đề cập, nó cho thấy rằng việc vứt bỏ các biến không phải lúc nào cũng là cách tiếp cận đúng (hoặc thậm chí là tốt) để giải quyết các vấn đề về cộng sự.
whuber

0

Nếu D không phải là hằng số, thì B và E thực sự là hai biến khác nhau do các biến thể trong D. Tương quan cao cho thấy D thực tế là hằng số trong suốt dữ liệu huấn luyện. Nếu đó là trường hợp, sau đó bạn có thể loại bỏ B hoặc E.


1
Bản thân D cũng là một phương trình khác được tính bởi các biến khác : . Điều này vẫn còn áp dụng? D=n12N2n2
TheCloudlessSky

Nếu bạn loại bỏ B hoặc E và coi chúng là tương đương thì bạn hoàn toàn khẳng định rằng V là tất cả những gì thực sự quan trọng. Nếu đó là trường hợp, bạn nên giữ lại B trong mô hình vì cách giải thích của nó là rõ ràng. Hơn nữa, nếu bạn giữ lại E, nhưng D thực sự có phương sai hạn chế, tính hợp lệ của việc giải thích kết quả của bạn thậm chí sẽ nghi ngờ hơn (so với thông thường) đối với các giá trị khác nhau của D.
russellpierce
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.