Trong học tập có giám sát, tại sao nó có các tính năng tương quan?


35

Tôi đọc ở đâu đó rằng nếu chúng ta có các tính năng quá tương quan, chúng ta phải loại bỏ một tính năng, vì điều này có thể làm xấu đi mô hình. Rõ ràng là các tính năng tương quan có nghĩa là chúng mang cùng thông tin, vì vậy việc loại bỏ một trong số chúng là hợp lý. Nhưng tôi không thể hiểu tại sao điều này có thể làm xấu đi mô hình.


3
Quy tắc này áp dụng mạnh mẽ hơn trong một số mô hình và phân tích so với những mô hình khác. Bất kỳ cơ hội nào bạn có thể thêm một số bối cảnh vào "Tôi đã đọc ở đâu đó" - ví dụ: nó có liên quan đến việc đào tạo một mô hình cụ thể không?
Neil Slater

3
Các tính năng tương quan sẽ không nhất thiết làm xấu đi một mô hình. Loại bỏ các tính năng tương quan giúp suy ra ý nghĩa về các tính năng.
Hobbes

Câu trả lời:


31

Các tính năng tương quan nói chung không cải thiện các mô hình (mặc dù nó phụ thuộc vào các đặc điểm cụ thể của vấn đề như số lượng biến số và mức độ tương quan), nhưng chúng ảnh hưởng đến các mô hình cụ thể theo các cách khác nhau và theo mức độ khác nhau:

  1. Đối với các mô hình tuyến tính (ví dụ: hồi quy tuyến tính hoặc hồi quy logistic), đa tuyến có thể mang lại các giải pháp rất khác nhau và có thể không ổn định về số lượng .

  2. Rừng ngẫu nhiên có thể tốt trong việc phát hiện các tương tác giữa các tính năng khác nhau, nhưng các tính năng tương quan cao có thể che dấu các tương tác này.

Tổng quát hơn, đây có thể được xem là trường hợp đặc biệt của dao cạo Occam . Một mô hình đơn giản hơn là thích hợp hơn, và theo một cách nào đó, một mô hình có ít tính năng thì đơn giản hơn. Khái niệm về chiều dài mô tả tối thiểu làm cho điều này chính xác hơn.


4
Không có sự ổn định về mặt số, dự đoán được đưa ra bởi mô hình OLS sẽ không bị ảnh hưởng bởi tính đa tuyến, vì hiệu ứng tổng thể của các biến dự đoán không bị ảnh hưởng bởi sự hiện diện của đa tuyến. Đó là giải thích về tác động của các biến dự đoán riêng lẻ không đáng tin cậy khi hiện diện đa tuyến.
Akavall

11

(Giả sử bạn đang nói về việc học có giám sát)

Các tính năng tương quan sẽ không luôn làm xấu đi mô hình của bạn, nhưng chúng cũng sẽ không luôn cải thiện nó.

Có ba lý do chính khiến bạn loại bỏ các tính năng tương quan:

  • Làm cho thuật toán học nhanh hơn

Do lời nguyền của chiều, ít tính năng thường có nghĩa là cải thiện cao về tốc độ.

Nếu tốc độ không phải là vấn đề, có lẽ đừng xóa các tính năng này ngay lập tức (xem điểm tiếp theo)

  • Giảm sai lệch có hại

Các từ khóa có hại. Nếu bạn có các tính năng tương quan nhưng chúng cũng tương quan với mục tiêu, bạn muốn giữ chúng. Bạn có thể xem các tính năng dưới dạng gợi ý để đưa ra dự đoán tốt, nếu bạn có hai gợi ý về cơ bản là giống nhau, nhưng chúng là gợi ý tốt, có thể là khôn ngoan khi giữ chúng.

Một số thuật toán như Naive Bayes thực sự được hưởng lợi trực tiếp từ các tính năng tương quan "tích cực". Và những người khác như rừng ngẫu nhiên có thể gián tiếp hưởng lợi từ họ.

Hãy tưởng tượng có 3 tính năng A, B và C. A và B có mối tương quan cao với mục tiêu và với nhau, và C hoàn toàn không. Nếu bạn lấy mẫu trong số 3 tính năng, bạn có 2/3 cơ hội để có được tính năng "tốt", trong khi nếu bạn loại bỏ B chẳng hạn, cơ hội này giảm xuống còn 1/2

Tất nhiên, nếu các tính năng tương quan không phải là siêu thông tin ngay từ đầu, thuật toán có thể không bị ảnh hưởng nhiều.

Vì vậy, đạo đức của câu chuyện, loại bỏ các tính năng này có thể là cần thiết do tốc độ, nhưng hãy nhớ rằng bạn có thể làm cho thuật toán của bạn tồi tệ hơn trong quá trình. Ngoài ra, một số thuật toán như cây quyết định có lựa chọn tính năng được nhúng trong chúng.

Một cách tốt để giải quyết vấn đề này là sử dụng phương pháp trình bao bọc để lựa chọn tính năng. Nó sẽ loại bỏ các tính năng dư thừa chỉ khi chúng không đóng góp trực tiếp vào hiệu suất. Nếu chúng hữu ích như trong vịnh ngây thơ, chúng sẽ được giữ lại. (Mặc dù hãy nhớ rằng các phương thức trình bao bọc rất tốn kém và có thể dẫn đến quá mức)

  • Khả năng diễn giải mô hình của bạn

Nếu mô hình của bạn cần có thể diễn giải được, bạn có thể buộc phải làm cho nó đơn giản hơn. Hãy nhớ ghi nhớ dao cạo của Occam. Nếu mô hình của bạn không "nhiều" tệ hơn với ít tính năng hơn, thì có lẽ bạn nên sử dụng ít tính năng hơn.


2

Đôi khi các tính năng tương quan - và sự trùng lặp thông tin cung cấp - không làm tổn thương hệ thống dự đoán. Xem xét một tập hợp các cây quyết định, mỗi cây xem xét một mẫu các hàng và một mẫu cột. Nếu hai cột có tương quan cao, có khả năng một trong số chúng sẽ không được chọn trong mẫu cột của một cây cụ thể và cây đó sẽ phụ thuộc vào cột còn lại. Các tính năng tương quan có nghĩa là bạn có thể giảm quá mức (thông qua lấy mẫu cột) mà không từ bỏ quá nhiều chất lượng dự đoán.


2

Đưa ra quyết định nên được thực hiện trên các biến cần thiết tối thiểu để làm như vậy. Đây là, như đã đề cập ở trên, việc chính thức hóa dao cạo của Occam với độ dài mô tả tối thiểu ở trên. Tôi thích cái đó

Tôi có xu hướng mô tả hiện tượng này trong một cái gì đó giống như HDDT có nghĩa là cây hiệu quả nhất không đưa ra quyết định giả dựa trên dữ liệu có sẵn và tránh tất cả các trường hợp quyết định có thể được đưa ra trên nhiều điểm dữ liệu mà không hiểu rằng chúng có tương quan .


Về datascience.stackexchange.com/users/38887/valentin-calomme nhận xét: "Các tính năng tương quan sẽ không luôn làm xấu đi mô hình của bạn, nhưng chúng cũng sẽ không luôn cải thiện nó." Tôi không thấy hoặc không thể nghĩ đến việc có mối tương quan cao giữa các biến không làm cho mô hình của bạn tệ hơn. Ít nhất theo nghĩa, được đưa ra lựa chọn: Tôi muốn đào tạo một mạng với các tính năng ít tương quan hơn. Bất cứ điều gì khác hơn là chức năng và chứng minh tồi tệ hơn. Có những trường hợp khi điều này không đúng?
tjborromeo

1

Theo quan điểm lưu trữ dữ liệu trong cơ sở dữ liệu, lưu trữ các tính năng tương quan bằng cách nào đó tương tự như lưu trữ thông tin dư thừa có thể gây lãng phí lưu trữ và cũng có thể gây ra dữ liệu không nhất quán sau khi cập nhật hoặc chỉnh sửa bộ dữ liệu.

Nếu chúng ta thêm quá nhiều tính năng tương quan vào mô hình, chúng ta có thể khiến mô hình xem xét các tính năng không cần thiết và chúng ta có thể có lời nguyền về vấn đề chiều cao , tôi đoán đây là lý do làm xấu đi mô hình được xây dựng.

Trong bối cảnh học máy, chúng ta thường sử dụng PCAđể giảm kích thước của các mẫu đầu vào. Cách tiếp cận này xem xét loại bỏ các tính năng tương quan bằng cách nào đó (sử dụng SVD) và là một cách tiếp cận không giám sát. Điều này được thực hiện để đạt được các mục đích sau:

Mặc dù điều này có vẻ không ổn nhưng tôi đã thấy những người sử dụng loại bỏ các tính năng tương quan để tránh bị quá mức nhưng tôi không nghĩ rằng đó là một cách thực hành tốt. Để biết thêm thông tin tôi rất khuyên bạn nên xem ở đây .

Một lý do khác là trong các mô hình học sâu, như MLPsnếu bạn thêm các tính năng tương quan, bạn chỉ cần thêm thông tin không cần thiết sẽ thêm nhiều tính toán và tham số cho mô hình.


0

Câu trả lời cho câu hỏi này phụ thuộc rất lớn vào mục đích của mô hình. Trong suy luận, các tính năng tương quan cao là một vấn đề nổi tiếng. Ví dụ, hai tính năng có mối tương quan cao với nhau và với y, cả hai có thể xuất hiện dưới dạng không đáng kể trong mô hình suy luận, có khả năng thiếu một tín hiệu giải thích quan trọng. Do đó, trong suy luận, nó thường được khuyến khích để làm mỏng chúng ra.

Nếu việc học có giám sát của bạn là để dự đoán, câu trả lời - phản lại sự khôn ngoan thông thường - thường ngược lại. Lý do duy nhất để loại bỏ các tính năng tương quan cao là lưu trữ và mối quan tâm về tốc độ. Ngoài ra, điều quan trọng về các tính năng là liệu chúng có đóng góp cho dự đoán hay không và liệu chất lượng dữ liệu của chúng có đủ hay không.

Các tính năng bị nhiễu sẽ có xu hướng ít tương quan với các tính năng khác, hơn các tính năng tương quan với y. Do đó, như đã đề cập ở trên trong ví dụ của Valentin, làm mỏng cái sau sẽ làm tăng tỷ lệ của cái trước.

Cụ thể, các phương pháp như rừng ngẫu nhiên và KNN xử lý tất cả các tính năng như nhau, do đó, làm mỏng các tính năng tương quan trực tiếp làm giảm tỷ lệ tín hiệu trên tạp âm của chúng.

Các phương thức tự động chọn các tính năng như cây đơn, Lasso "thuần túy" hoặc mạng lưới thần kinh, có thể ít bị ảnh hưởng hơn. Nhưng ngay cả sau đó, ngoài thời gian tính toán dài hơn, hiếm khi có bất cứ điều gì để mất dự đoán khôn ngoan từ việc giữ các tính năng tương quan trong hỗn hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.