Việc xem xét đa hướng là rất quan trọng trong phân tích hồi quy bởi vì, trong extrema , nó trực tiếp quyết định liệu hệ số của bạn có được xác định duy nhất trong dữ liệu hay không. Trong trường hợp ít nghiêm trọng hơn, nó vẫn có thể gây rối với các ước tính hệ số của bạn; những thay đổi nhỏ trong dữ liệu được sử dụng để ước tính có thể gây ra sự thay đổi lớn trong các hệ số ước tính. Đây có thể là vấn đề từ quan điểm suy luận: Nếu hai biến có tương quan cao, tăng trong một biến có thể được bù bằng giảm ở một biến khác để hiệu ứng kết hợp là phủ định lẫn nhau. Với nhiều hơn hai biến, hiệu ứng có thể còn tinh tế hơn, nhưng nếu dự đoán ổn định, điều đó thường đủ cho các ứng dụng học máy.
Xem xét lý do tại sao chúng ta thường xuyên hóa trong bối cảnh hồi quy: Chúng ta cần hạn chế mô hình quá linh hoạt. Áp dụng đúng số lượng chính quy sẽ làm tăng nhẹ độ lệch cho phương sai giảm lớn hơn. Ví dụ kinh điển về điều này là thêm các thuật ngữ đa thức và hiệu ứng tương tác vào hồi quy: Trong trường hợp suy biến, phương trình dự đoán sẽ nội suy các điểm dữ liệu, nhưng có lẽ rất tệ khi cố gắng dự đoán các giá trị của các điểm dữ liệu không nhìn thấy. Thu hẹp các hệ số đó sẽ có khả năng giảm thiểu hoặc loại bỏ hoàn toàn một số hệ số đó và cải thiện tổng quát hóa.
Tuy nhiên, một khu rừng ngẫu nhiên có thể được xem là có tham số chính quy thông qua số lượng biến được lấy mẫu ở mỗi lần phân tách: bạn sẽ phân chia tốt hơn khi lớn hơn mtry
(nhiều tính năng để lựa chọn; một số trong số chúng tốt hơn các biến khác), nhưng điều đó cũng làm cho mỗi cây có mối tương quan cao hơn với các cây khác, phần nào làm giảm bớt hiệu quả đa dạng hóa của việc ước tính nhiều cây ở vị trí đầu tiên. Vấn đề nan giải này buộc người ta phải tìm sự cân bằng phù hợp, thường đạt được bằng cách sử dụng xác nhận chéo. Điều quan trọng, và ngược lại với phân tích hồi quy, không có phần nào của mô hình rừng ngẫu nhiên bị tổn hại bởi các biến cộng tuyến cao: ngay cả khi hai trong số các biến cung cấp độ tinh khiết của nút con giống nhau, bạn chỉ có thể chọn một biến mà không làm giảm chất lượng của kết quả.
Tương tự, đối với một cái gì đó giống như một SVM, bạn có thể bao gồm nhiều dự đoán hơn các tính năng vì thủ thuật kernel cho phép bạn chỉ hoạt động trên sản phẩm bên trong của các vectơ tính năng đó. Có nhiều tính năng hơn các quan sát sẽ là một vấn đề trong hồi quy, nhưng thủ thuật kernel có nghĩa là chúng ta chỉ ước tính một hệ số cho mỗi mẫu, trong khi tham số chính quy làm giảm tính linh hoạt của giải pháp - điều này được coi là một điều tốt, vì ước tính tham số choCNNcác quan sát theo cách không bị hạn chế sẽ luôn tạo ra một mô hình hoàn hảo trên dữ liệu thử nghiệm - và chúng tôi đi đến vòng tròn đầy đủ, trở lại kịch bản hồi quy mạng sườn / LASSO / đàn hồi trong đó chúng tôi có tính linh hoạt của mô hình bị hạn chế khi kiểm tra mô hình quá lạc quan. Một đánh giá về các điều kiện KKT của vấn đề SVM cho thấy giải pháp SVM là duy nhất, vì vậy chúng tôi không phải lo lắng về các vấn đề nhận dạng phát sinh trong trường hợp hồi quy.
Cuối cùng, hãy xem xét tác động thực tế của đa cộng đồng. Nó không thay đổi công suất dự đoán của mô hình (ít nhất là trên dữ liệu huấn luyện) nhưng nó không phù hợp với ước tính hệ số của chúng tôi. Trong hầu hết các ứng dụng ML, chúng tôi không quan tâm đến hệ số tự, chỉ là mất dự đoán mô hình của chúng tôi, vì vậy theo nghĩa đó, kiểm tra VIF không thực sự trả lời một câu hỏi hệ quả. (Nhưng nếu một thay đổi nhỏ trong dữ liệu gây ra sự dao động lớn về hệ số [một triệu chứng kinh điển của đa cộng đồng], thì nó cũng có thể thay đổi dự đoán, trong trường hợp chúng tôi quan tâm - nhưng tất cả điều này [chúng tôi hy vọng!] Được đặc trưng khi chúng tôi thực hiện xác nhận chéo, dù sao cũng là một phần của quy trình mô hình hóa.) Hồi quy dễ hiểu hơn, nhưng giải thích có thể không phải là mục tiêu quan trọng nhất đối với một số nhiệm vụ.