Có nên quan tâm đến đa cộng tuyến khi sử dụng các mô hình phi tuyến tính?


13

Nói rằng chúng tôi có một vấn đề phân loại nhị phân với các tính năng chủ yếu là phân loại. Chúng tôi sử dụng một số mô hình phi tuyến tính (ví dụ XGBoost hoặc Random Forests) để tìm hiểu nó.

  • Người ta vẫn nên quan tâm đến đa cộng đồng? Tại sao?
  • Nếu câu trả lời ở trên là đúng, làm thế nào người ta nên đấu tranh với nó khi xem xét rằng người ta đang sử dụng các loại mô hình phi tuyến tính này?

Câu trả lời:


7

Đa cộng tuyến sẽ không là vấn đề đối với một số mô hình nhất định. Chẳng hạn như rừng ngẫu nhiên hoặc cây quyết định. Ví dụ: nếu chúng ta có hai cột giống nhau, cây quyết định / rừng ngẫu nhiên sẽ tự động "thả" một cột ở mỗi lần phân tách. Và mô hình vẫn sẽ hoạt động tốt.

Ngoài ra, chính quy là một cách để "khắc phục" vấn đề Đa cộng tuyến. Câu trả lời của tôi Phương pháp chính quy cho hồi quy logistic cung cấp chi tiết.


5
Tôi nghĩ rằng điều này sẽ được cải thiện nếu bạn giải thích chính xác vấn đề được "khắc phục" bằng cách chính quy là gì.
Matthew Drury

2

Đến bữa tiệc muộn, nhưng dù sao đây cũng là câu trả lời của tôi và đó là "Có", người ta phải luôn quan tâm đến sự cộng tác, bất kể mô hình / phương pháp có tuyến tính hay không, hoặc nhiệm vụ chính là dự đoán hoặc phân loại.

Giả sử một số phép toán / tính năng tương quan tuyến tính có trong tập dữ liệu và Rừng ngẫu nhiên làm phương thức. Rõ ràng, lựa chọn ngẫu nhiên trên mỗi nút chỉ có thể chọn (hoặc hầu hết) các tính năng cộng tuyến có thể / sẽ dẫn đến sự phân chia kém và điều này có thể xảy ra lặp đi lặp lại, do đó ảnh hưởng tiêu cực đến hiệu suất.

Bây giờ, các tính năng cộng tuyến có thể ít thông tin về kết quả hơn các tính năng khác (không phải thông đồng) và do đó chúng nên được xem xét để loại bỏ khỏi bộ tính năng. Tuy nhiên, giả sử rằng các tính năng được xếp hạng cao trong danh sách 'tầm quan trọng của tính năng' do RF sản xuất. Vì vậy, chúng sẽ được giữ trong tập dữ liệu làm tăng kích thước một cách không cần thiết. Vì vậy, trong thực tế, tôi luôn luôn, như một bước khám phá (trong số nhiều liên quan) kiểm tra sự liên kết theo cặp của các tính năng, bao gồm cả tương quan tuyến tính.


Tôi tin rằng có những trường hợp khi đa cộng tuyến có thể được bỏ qua một cách an toàn, một số trường hợp sẽ được thảo luận ở đây: statisticalhorizons.com/multicollinearity
Tiến sĩ Nisha Arora

0
  1. Người ta vẫn nên quan tâm đến đa cộng đồng? Tại sao?

Nếu mô hình phi tuyến tính là mô hình dựa trên cây, thì bạn không nên xem xét nó nghiêm trọng. Mô hình cây khác nhau sẽ có phương thức xử lý khác nhau, chẳng hạn như rừng ngẫu nhiên sẽ giữ cả hai (vì chúng xây dựng cây độc lập và chọn ngẫu nhiên tính năng cho mỗi cây), nhưng nó không ảnh hưởng đến hiệu suất dự đoán, ngay cả khi bạn loại bỏ dư thừa một. Nhưng đối với xgboost, nó sẽ chọn bất kỳ ai trong số họ và sử dụng nó cho đến khi xây dựng cây cuối cùng.

  1. Nếu câu trả lời ở trên là đúng, làm thế nào người ta nên đấu tranh với nó khi xem xét rằng người ta đang sử dụng các loại mô hình phi tuyến tính này?

Nó chỉ là về ý nghĩa giải thích, vì vậy loại bỏ các biến tương quan cao được đề xuất.


-3

Đa cộng tuyến luôn là một vấn đề có thể xảy ra. Các biến là các yếu tố dự đoán trong mô hình sẽ ảnh hưởng đến dự đoán khi chúng có liên quan tuyến tính (nghĩa là khi có cộng tuyến).


1
Cảm ơn, nếu (1) trọng tâm là hiệu suất dự đoán (chứ không phải khả năng diễn giải) và (2) mô hình là phi tuyến tính, bạn có phiền khi giải thích tại sao điều này vẫn có thể là một vấn đề? (và chính xác nó sẽ tự biểu hiện như thế nào?)
Josh

Các biến này là các yếu tố dự đoán trong mô hình sẽ ảnh hưởng đến dự đoán khi chúng có liên quan tuyến tính (tức là có cộng tuyến).
Michael R. Chernick

1
Ảnh hưởng đến dự đoán như thế nào, chính xác? BTW, stats.stackexchange.com/a/138082/99274 , đặt một số liên kết trong câu trả lời của bạn hoặc đối mặt với cơn thịnh nộ của đám đông "đã ở đó, đã làm điều đó".
Carl

7
Vì phân loại có liên quan mật thiết đến dự đoán và dự đoán có xu hướng không bị đa hình, điều quan trọng là phải hỗ trợ bạn tranh luận rằng đó luôn là "vấn đề có thể xảy ra", đặc biệt đối với các mô hình cụ thể được đề cập trong câu hỏi. Cách thức vấn đề đó sẽ được phân loại và tại sao?
whuber

12
Tôi khá chắc chắn rằng bạn đang cầu xin câu hỏi. Whuber hỏi tại sao dự đoán bị đa hình và về cơ bản bạn đã trả lời "Dự đoán bị đa hình vì dự đoán bị đa hình."
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.