Tại sao đa cộng đồng không được kiểm tra trong thống kê hiện đại / học máy


44

Trong thống kê truyền thống, trong khi xây dựng mô hình, chúng tôi kiểm tra tính đa hình bằng các phương pháp như ước tính hệ số lạm phát phương sai (VIF), nhưng trong học máy, thay vào đó, chúng tôi sử dụng chính quy để lựa chọn tính năng và dường như không kiểm tra xem các tính năng có tương quan hay không ở tất cả. Tại sao chúng ta làm điều đó?

Câu trả lời:


51

Việc xem xét đa hướng là rất quan trọng trong phân tích hồi quy bởi vì, trong extrema , nó trực tiếp quyết định liệu hệ số của bạn có được xác định duy nhất trong dữ liệu hay không. Trong trường hợp ít nghiêm trọng hơn, nó vẫn có thể gây rối với các ước tính hệ số của bạn; những thay đổi nhỏ trong dữ liệu được sử dụng để ước tính có thể gây ra sự thay đổi lớn trong các hệ số ước tính. Đây có thể là vấn đề từ quan điểm suy luận: Nếu hai biến có tương quan cao, tăng trong một biến có thể được bù bằng giảm ở một biến khác để hiệu ứng kết hợp là phủ định lẫn nhau. Với nhiều hơn hai biến, hiệu ứng có thể còn tinh tế hơn, nhưng nếu dự đoán ổn định, điều đó thường đủ cho các ứng dụng học máy.

Xem xét lý do tại sao chúng ta thường xuyên hóa trong bối cảnh hồi quy: Chúng ta cần hạn chế mô hình quá linh hoạt. Áp dụng đúng số lượng chính quy sẽ làm tăng nhẹ độ lệch cho phương sai giảm lớn hơn. Ví dụ kinh điển về điều này là thêm các thuật ngữ đa thức và hiệu ứng tương tác vào hồi quy: Trong trường hợp suy biến, phương trình dự đoán sẽ nội suy các điểm dữ liệu, nhưng có lẽ rất tệ khi cố gắng dự đoán các giá trị của các điểm dữ liệu không nhìn thấy. Thu hẹp các hệ số đó sẽ có khả năng giảm thiểu hoặc loại bỏ hoàn toàn một số hệ số đó và cải thiện tổng quát hóa.

Tuy nhiên, một khu rừng ngẫu nhiên có thể được xem là có tham số chính quy thông qua số lượng biến được lấy mẫu ở mỗi lần phân tách: bạn sẽ phân chia tốt hơn khi lớn hơn mtry(nhiều tính năng để lựa chọn; một số trong số chúng tốt hơn các biến khác), nhưng điều đó cũng làm cho mỗi cây có mối tương quan cao hơn với các cây khác, phần nào làm giảm bớt hiệu quả đa dạng hóa của việc ước tính nhiều cây ở vị trí đầu tiên. Vấn đề nan giải này buộc người ta phải tìm sự cân bằng phù hợp, thường đạt được bằng cách sử dụng xác nhận chéo. Điều quan trọng, và ngược lại với phân tích hồi quy, không có phần nào của mô hình rừng ngẫu nhiên bị tổn hại bởi các biến cộng tuyến cao: ngay cả khi hai trong số các biến cung cấp độ tinh khiết của nút con giống nhau, bạn chỉ có thể chọn một biến mà không làm giảm chất lượng của kết quả.

Tương tự, đối với một cái gì đó giống như một SVM, bạn có thể bao gồm nhiều dự đoán hơn các tính năng vì thủ thuật kernel cho phép bạn chỉ hoạt động trên sản phẩm bên trong của các vectơ tính năng đó. Có nhiều tính năng hơn các quan sát sẽ là một vấn đề trong hồi quy, nhưng thủ thuật kernel có nghĩa là chúng ta chỉ ước tính một hệ số cho mỗi mẫu, trong khi tham số chính quy làm giảm tính linh hoạt của giải pháp - điều này được coi là một điều tốt, vì ước tính tham số choCNNcác quan sát theo cách không bị hạn chế sẽ luôn tạo ra một mô hình hoàn hảo trên dữ liệu thử nghiệm - và chúng tôi đi đến vòng tròn đầy đủ, trở lại kịch bản hồi quy mạng sườn / LASSO / đàn hồi trong đó chúng tôi có tính linh hoạt của mô hình bị hạn chế khi kiểm tra mô hình quá lạc quan. Một đánh giá về các điều kiện KKT của vấn đề SVM cho thấy giải pháp SVM là duy nhất, vì vậy chúng tôi không phải lo lắng về các vấn đề nhận dạng phát sinh trong trường hợp hồi quy.

Cuối cùng, hãy xem xét tác động thực tế của đa cộng đồng. Nó không thay đổi công suất dự đoán của mô hình (ít nhất là trên dữ liệu huấn luyện) nhưng nó không phù hợp với ước tính hệ số của chúng tôi. Trong hầu hết các ứng dụng ML, chúng tôi không quan tâm đến hệ số tự, chỉ là mất dự đoán mô hình của chúng tôi, vì vậy theo nghĩa đó, kiểm tra VIF không thực sự trả lời một câu hỏi hệ quả. (Nhưng nếu một thay đổi nhỏ trong dữ liệu gây ra sự dao động lớn về hệ số [một triệu chứng kinh điển của đa cộng đồng], thì nó cũng có thể thay đổi dự đoán, trong trường hợp chúng tôi quan tâm - nhưng tất cả điều này [chúng tôi hy vọng!] Được đặc trưng khi chúng tôi thực hiện xác nhận chéo, dù sao cũng là một phần của quy trình mô hình hóa.) Hồi quy dễ hiểu hơn, nhưng giải thích có thể không phải là mục tiêu quan trọng nhất đối với một số nhiệm vụ.


1
Đối với mô hình hồi quy nguyên nhân, sử dụng các kỹ thuật như ghi điểm xu hướng hoặc điều chỉnh hồi quy, cộng tuyến có thể là một vấn đề ngay cả đối với dự đoán, bởi vì thông thường mục tiêu là phù hợp với một mô hình chỉ dựa trên nhóm kiểm soát / không phơi sáng và sau đó ước tính kết quả bằng mô hình đó trên một thử nghiệm nhóm, hoặc người khác kết hợp hai nhóm nhưng sử dụng một biến chỉ báo để đo lường hiệu ứng, kiểm soát các yếu tố khác, nằm trong nhóm thử nghiệm.
ely

1
Nếu cộng tuyến tạo ra lỗi trong các hệ số, thì hồi quy mở rộng cho nhóm thử nghiệm sẽ không hoạt động. Tương tự, ước tính hệ số cho biến chỉ số nhận được điều trị có thể bị loại bỏ, nếu thực hiện hồi quy đơn trên cả hai mẫu phụ. Các kỹ thuật máy học hiện đại thường không được sử dụng để phân tích các loại vấn đề nhân quả này, và vì vậy không ai phải đối mặt với nhu cầu về công cụ để giải quyết nó.
ely

@ely, trong ví dụ đầu tiên của bạn, colinearity (trong số các đồng biến, không phải điều trị) không gây ra vấn đề gì, bởi vì một lần nữa mục tiêu là dự đoán về kết quả phản tác dụng, và colinearity không phải là vấn đề với dự đoán. Ngoài ra, các phương pháp ML hiện đại thường được sử dụng trong suy luận nguyên nhân; mô hình hóa được tăng cường tổng quát và các khu rừng ngẫu nhiên được sử dụng rộng rãi để ước tính điểm số xu hướng và TMLE sử dụng các phương pháp ML để áp đặt các kết quả phản tác dụng. Tôi sẽ tranh luận một điểm mạnh của các phương pháp nhân quả là colinearity thường không phải là vấn đề đối với họ.

@Noah Thông thường, việc giải thích hệ số phơi nhiễm là vấn đề quan trọng (và cả việc giải thích các ước tính hiệu ứng khác nữa), và không chỉ là độ chính xác dự đoán thô. Tôi nhận ra nhận xét của tôi đã không làm rõ điều này, nhưng đó là lý do tại sao nó là một vấn đề. Nếu dự đoán tổng thể là tốt, nhưng không bị chi phối bởi thực sự liên quan đến hệ số ước tính phơi nhiễm, thì đó thường là một mô hình không mong muốn cho suy luận nguyên nhân.
ely

21

Lý do là vì các mục tiêu của "thống kê truyền thống" khác với nhiều kỹ thuật Machine Learning.

Theo "thống kê truyền thống", tôi giả sử bạn có nghĩa là hồi quy và các biến thể của nó. Trong hồi quy, chúng tôi đang cố gắng hiểu tác động của các biến độc lập đối với biến phụ thuộc. Nếu có tính đa hình mạnh, điều này đơn giản là không thể. Không có thuật toán sẽ sửa lỗi này. Nếu sự hiếu học có tương quan với việc tham gia lớp học và điểm số, chúng ta không thể biết điều gì thực sự khiến điểm số tăng lên - điểm danh hay sự hiếu học.

Tuy nhiên, trong các kỹ thuật Machine Learning tập trung vào độ chính xác dự đoán, tất cả những gì chúng tôi quan tâm là làm thế nào chúng ta có thể sử dụng một bộ biến để dự đoán một bộ khác. Chúng tôi không quan tâm đến tác động của các biến này đối với nhau.

Về cơ bản, việc chúng ta không kiểm tra tính đa hình trong các kỹ thuật Machine Learning không phải là hệ quả của thuật toán, đó là hệ quả của mục tiêu. Bạn có thể thấy điều này bằng cách nhận thấy rằng sự cộng tác mạnh mẽ giữa các biến không làm ảnh hưởng đến độ chính xác dự đoán của các phương pháp hồi quy.


11

Dường như có một giả định cơ bản ở đây rằng không kiểm tra cộng tuyến là một thực tiễn hợp lý hoặc thậm chí tốt nhất. Điều này có vẻ thiếu sót. Ví dụ: kiểm tra cộng tuyến hoàn hảo trong bộ dữ liệu có nhiều yếu tố dự đoán sẽ tiết lộ liệu hai biến có thực sự giống nhau hay không, ví dụ ngày sinh và tuổi (ví dụ được lấy từ Dormann et al. (2013), Ecography , 36 , 1, trang 27 ). Đôi khi tôi cũng thấy vấn đề của các yếu tố dự đoán tương quan hoàn toàn nảy sinh trong các cuộc thi Kaggle nơi các đối thủ trên diễn đàn cố gắng loại bỏ các dự đoán tiềm năng đã được ẩn danh (ví dụ như nhãn dự đoán bị ẩn, một vấn đề phổ biến trong các cuộc thi giống Kaggle và Kaggle).

Vẫn còn một hoạt động trong học máy chọn các yếu tố dự đoán - xác định các yếu tố dự đoán có tương quan cao có thể cho phép công nhân tìm ra các yếu tố dự đoán là một biến số tiềm ẩn khác và ẩn một biến làm công việc tốt nhất để biểu thị biến tiềm ẩn hoặc cách khác đề xuất các biến có thể được kết hợp (ví dụ thông qua PCA).

Do đó, tôi sẽ đề xuất rằng mặc dù các phương pháp học máy thường (hoặc ít nhất là thường xuyên) được thiết kế để trở nên mạnh mẽ khi đối mặt với các yếu tố dự đoán tương quan, hiểu mức độ của các yếu tố dự đoán tương quan thường là một bước hữu ích để tạo ra một mô hình mạnh mẽ và chính xác và là một trợ giúp hữu ích để có được một mô hình được tối ưu hóa.


9

Vấn đề chính với tính đa hướng là nó làm rối tung các hệ số (betas) của các biến độc lập. Đó là lý do tại sao nó là một vấn đề nghiêm trọng khi bạn nghiên cứu mối quan hệ giữa các biến, thiết lập quan hệ nhân quả, v.v.

Tuy nhiên, nếu bạn không quan tâm đến việc tìm hiểu hiện tượng quá nhiều, mà chỉ tập trung vào dự đoán và dự báo, thì tính đa hình sẽ không còn là vấn đề. Hoặc ít nhất đó là những gì mọi người nghĩ về nó.

Tôi không nói về tính đa hướng hoàn hảo ở đây, đây là vấn đề kỹ thuật hoặc vấn đề nhận dạng. Về mặt kỹ thuật, nó đơn giản có nghĩa là ma trận thiết kế dẫn đến điểm kỳ dị và giải pháp không được xác định.


4
Ngay cả với cộng tuyến hoàn hảo, các dự đoán được xác định rõ.
whuber

@whuber, nếu bạn sử dụng OLS, gói stat có khả năng gây ra lỗi, vì nó sẽ không thể đảo ngược ma trận. Những người thông minh có thể thả một trong những bình độc lập, và di chuyển trên mặc dù.
Aksakal

2
Nếu bạn sử dụng nghịch đảo tổng quát thì điểm kỳ dị này không phải là vấn đề.
Nhà phân tích

1
Tôi không tuân theo logic của bạn, Aksakal: bạn có đang cố gắng đề xuất rằng các kỹ thuật học máy khác với các kỹ thuật thống kê ở chỗ trước đây không có vấn đề gì với ma trận giảm thứ hạng? Đó là một ý tưởng thú vị để khám phá.
whuber

1
@user, biến độc lập hầu như luôn luôn tương quan, và nó thường, Ok. Chỉ có đa hướng hoàn hảo gây ra thiếu thứ hạng. Multicollinearity đề cập đến mối tương quan rất mạnh, và nói chung là không mong muốn, nhưng như tôi đã viết trước đó, đây là một vấn đề lành tính trong nhiều trường hợp.
Aksakal

7

Sự chính quy trong các máy học đó giúp ổn định các hệ số hồi quy, do đó, ít nhất đó là hiệu ứng của đa cộng đồng được thuần hóa. Nhưng quan trọng hơn, nếu bạn dự đoán (thường là người học máy), thì "vấn đề" đa cộng đồng không phải là vấn đề lớn ở nơi đầu tiên. Đó là một vấn đề khi bạn cần ước tính một hệ số cụ thể và bạn không có thông tin.

Ngoài ra, câu trả lời của tôi về " Khi nào LASSO chọn các yếu tố dự đoán tương quan " có thể hữu ích cho bạn.


1

Tôi nghĩ rằng nên kiểm tra tính đa hình trong học máy. Đây là lý do: Giả sử rằng bạn có hai tính năng tương quan cao X và Y trong tập dữ liệu của chúng tôi. Điều này có nghĩa là mặt phẳng phản hồi không đáng tin cậy (một thay đổi nhỏ trong dữ liệu có thể có tác động mạnh mẽ đến hướng của mặt phẳng phản hồi). Điều đó ngụ ý rằng các dự đoán của mô hình cho các điểm dữ liệu ở xatừ dòng, nơi X và Y có xu hướng giảm, không đáng tin cậy. Nếu bạn sử dụng mô hình của mình để dự đoán cho những điểm như vậy, dự đoán có thể sẽ rất tệ. Nói cách khác, khi bạn có hai tính năng tương quan cao, như một mô hình, bạn đang học một mặt phẳng trong đó thực tế dữ liệu chủ yếu nằm trong một dòng. Vì vậy, điều quan trọng là phải xóa các tính năng tương quan cao khỏi dữ liệu của bạn để ngăn chặn các mô hình không đáng tin cậy và dự đoán sai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.