Liệu lời nguyền Dimensionality có ảnh hưởng đến một số mô hình hơn những mô hình khác không?

Những nơi tôi đã đọc về lời nguyền chiều giải thích nó kết hợp với kNN là chủ yếu và các mô hình tuyến tính nói chung. Tôi thường xuyên thấy những người xếp hạng hàng đầu trong Kaggle sử dụng hàng ngàn tính năng trên bộ dữ liệu hầu như không có 100k điểm dữ liệu. Họ chủ yếu sử dụng cây Boosted và NN, trong số những người khác. Nhiều tính năng có vẻ quá cao và tôi cảm thấy chúng sẽ bị ảnh hưởng bởi lời nguyền chiều. Nhưng điều đó dường như không phải là trường hợp vì những người mẫu này làm cho họ đứng đầu các cuộc thi. Vì vậy, trở lại câu hỏi ban đầu của tôi - một số mô hình có bị ảnh hưởng bởi lời nguyền chiều không hơn những người khác?

Cụ thể, tôi quan tâm đến các mô hình sau (chỉ vì đây là những mô hình mà tôi biết / đã sử dụng):

Hồi quy tuyến tính và logistic
Cây quyết định / Cây ngẫu nhiên / Cây được tăng cường
Mạng lưới thần kinh
SVM
kNN
k-có nghĩa là phân cụm

— Dileep Kumar Patchigolla
nguồn

Câu trả lời ngắn chắc chắn là có, nhưng có lẽ bạn muốn những người mẫu mà bạn thực sự quan tâm? Tôi chắc rằng cộng đồng CV có thể cho bạn biết về hàng ngàn loại mô hình khác nhau bị ảnh hưởng bởi lời nguyền của chiều. Vì vậy, thu hẹp trọng tâm của bạn vào một số loại mô hình nhất định có thể giúp trả lời câu hỏi này.

@RustyStatistician - Tôi đã thêm một vài mô hình mà tôi quan tâm.

— Dileep Kumar Patchigolla

Tôi khá quan tâm đến câu hỏi này nhưng nó vẫn chưa được trả lời. Làm thế nào tôi có thể đưa ra điều này trong tầm nhìn, để có được câu trả lời?

— Dileep Kumar Patchigolla

Nói chung, lời nguyền về chiều khiến cho vấn đề tìm kiếm trong một không gian trở nên khó khăn hơn nhiều và ảnh hưởng đến phần lớn các thuật toán "học" thông qua việc phân vùng không gian vectơ của chúng. Tính chiều hướng của vấn đề tối ưu hóa của chúng tôi càng cao, chúng tôi càng cần nhiều dữ liệu để lấp đầy khoảng trống mà chúng tôi đang tối ưu hóa.

Mô hình tuyến tính tổng quát

Các mô hình tuyến tính chịu đựng vô cùng từ lời nguyền của chiều. Các mô hình tuyến tính phân vùng không gian trong một mặt phẳng tuyến tính. Thậm chí nếu chúng ta không tìm cách để trực tiếp tính toán

\hat{β} = = (X^{^{'}} X)^{- 1} X^{^{'}} y

$\hat{\beta} = (X^{'}X)^{-1}X^{'}y$

Cây quyết định Cây
quyết định cũng chịu lời nguyền của chiều. Cây quyết định trực tiếp phân vùng không gian mẫu tại mỗi nút. Khi không gian mẫu tăng lên, khoảng cách giữa các điểm dữ liệu tăng lên, điều này khiến việc tìm phân chia "tốt" trở nên khó khăn hơn nhiều.

Rừng ngẫu nhiên Rừng
ngẫu nhiên sử dụng một tập hợp các cây quyết định để đưa ra dự đoán của họ. Nhưng thay vì sử dụng tất cả các tính năng của vấn đề của bạn, các cây riêng lẻ chỉ sử dụng một tập hợp con các tính năng. Điều này giảm thiểu không gian mà mỗi cây được tối ưu hóa và có thể giúp chống lại vấn đề về lời nguyền của chiều.

Các
thuật toán tăng cường của Boosted Tree như AdaBoost phải chịu lời nguyền về chiều và có xu hướng quá mức nếu không sử dụng chính quy. Tôi sẽ không đi sâu, vì bài đăng AdaBoost ít hoặc dễ bị quá tải? giải thích lý do tại sao tốt hơn tôi có thể.

Mạng lưới thần kinh
Mạng lưới thần kinh là lạ theo nghĩa là cả hai đều và không bị tác động bởi lời nguyền của chiều kích phụ thuộc vào kiến trúc, kích hoạt, độ sâu, v.v. Vì vậy, để nhắc lại lời nguyền về chiều là vấn đề cần một lượng lớn điểm rất cao kích thước để bao phủ một không gian đầu vào. Một cách để giải thích các mạng nơ ron sâu là nghĩ đến tất cả các lớp mong đợi lớp cuối cùng là thực hiện một phép chiếu phức tạp của một đa chiều chiều cao thành một đa chiều chiều thấp hơn, trong đó lớp cuối cùng phân loại trên cùng. Vì vậy, ví dụ trong mạng tích chập để phân loại trong đó lớp cuối cùng là lớp softmax, chúng ta có thể hiểu kiến trúc là thực hiện phép chiếu phi tuyến tính lên một kích thước nhỏ hơn và sau đó thực hiện hồi quy logistic đa cực (lớp softmax) trên phép chiếu đó. Vì vậy, trong một nghĩa nào đó, biểu diễn nén của dữ liệu của chúng tôi cho phép chúng tôi tránh được lời nguyền của chiều. Một lần nữa, đây là một cách giải thích, trong thực tế, lời nguyền về chiều không thực sự tác động đến các mạng lưới thần kinh, nhưng không ở cùng cấp độ với các mô hình được nêu ở trên.

SVM
SVM có xu hướng không quá nhiều như các mô hình tuyến tính tổng quát do sự chính quy hóa quá mức xảy ra. Kiểm tra bài này SVM, Quá mức, lời nguyền của chiều để biết thêm chi tiết.

K-NN, K-Phương tiện

Cả K-mean và K-NN đều bị ảnh hưởng rất nhiều bởi lời nguyền của chiều, vì cả hai đều sử dụng thước đo khoảng cách bình phương L2. Khi số lượng kích thước tăng khoảng cách giữa các điểm dữ liệu khác nhau cũng tăng theo. Đây là lý do tại sao bạn cần một số điểm lớn hơn để bao phủ nhiều không gian hơn với hy vọng khoảng cách sẽ được mô tả nhiều hơn.

Hãy hỏi chi tiết cụ thể về các mô hình, vì câu trả lời của tôi khá chung chung. Hi vọng điêu nay co ich.

— Armen Aghajanyan
nguồn

Hi Amen Giải thích ngắn gọn tuyệt vời cho tất cả các mô hình tôi đã yêu cầu. Các vấn đề với mô hình tuyến tính vẫn chưa rõ ràng đối với tôi: Các mô hình tuyến tính hoạt động tốt hơn hay kém hơn so với mô hình k-NN và mô hình k-Means cho cùng một không: về kích thước? Và khi bạn nói cộng tuyến là một vấn đề đối với mô hình tuyến tính, bạn có ngụ ý rằng không có cộng tuyến (hoặc tối thiểu), kích thước cao không phải là vấn đề với mô hình tuyến tính?

— Dileep Kumar Patchigolla

Thật khó để định lượng nếu các mô hình tuyến tính sẽ hoạt động tốt hơn k-nn hoặc k-mean cho một vấn đề tùy ý. Nếu vấn đề của bạn có thể phân tách tuyến tính, tôi sẽ đặt cược vào mô hình tuyến tính, trong khi nếu không gian của bạn phức tạp hơn một chút, tôi sẽ đi với k-nn. Collinearity làm xấu đi vấn đề về lời nguyền của chiều, ngay cả khi không có cộng tuyến, lời nguyền của chiều vẫn được áp dụng. Phương tiện K phải chịu cùng mức độ với k-nn vì cả hai đều được điều khiển lân cận và thường sử dụng cùng một hàm khoảng cách. Trong thực tế, thật khó để định lượng COD tệ như thế nào. Hi vọng điêu nay co ich!

— Armen Aghajanyan

Định nghĩa của bạn về lời nguyền của chiều (CoD) là gì? Câu trả lời của bạn dường như gợi ý rằng các mô hình tuyến tính chịu tác động nhiều nhất từ CoD, điều này là sai lệch: là một phương pháp toàn cầu, các mô hình tuyến tính chịu ít hơn nhiều so với các phương thức cục bộ như KNN.

— Matifou