Làm thế nào để tôi biết thuật toán phân cụm k-nghĩa của tôi đang bị lời nguyền của chiều?

Tôi tin rằng tiêu đề của câu hỏi này nói lên tất cả.

clustering k-means high-dimensional

— toán
nguồn

Tôi nghĩ rằng bạn sẽ phải làm rõ cho chúng tôi ý của bạn về một triệu chứng.

— mdewey

Nếu "triệu chứng" là phiên bản "thử nghiệm" miễn phí, thì có lẽ bạn có thể lấy các mẫu con của tập dữ liệu của mình - có thể là 66% kích thước mẫu, thực hiện phân tích của bạn (kmeans, trong trường hợp của bạn), và sau đó xem mức độ tăng vọt kết quả là Ví dụ: bạn có thể thấy tần suất các quan sát cụ thể được gán cho cùng một cụm. Sau đó, một lần nữa, nó có thể không đáng nỗ lực. Nếu bạn lo lắng về khả năng của một vấn đề về chiều, rất có thể bạn có một vấn đề. Bạn có thể xem xét các phương pháp phân cụm khác làm giảm tính chiều.

— generic_user

@generic_user nếu bình luận rằng là một câu trả lời, tôi sẽ đếm nó như một câu trả lời được chấp nhận :)

— Mathieu

Câu hỏi này đủ rõ ràng để vẫn mở, IMO.

— gung - Phục hồi Monica

Thông thường, bạn gặp phải các vấn đề nghiêm trọng hơn nhiều về phương tiện k sớm hơn là "lời nguyền của chiều". phương tiện k có thể hoạt động trên dữ liệu 128 chiều (ví dụ: vectơ màu SIFT) nếu các thuộc tính có bản chất tốt. Ở một mức độ nào đó, đôi khi nó có thể hoạt động trên dữ liệu văn bản 10000 chiều. Mô hình lý thuyết của lời nguyền không bao giờ giữ cho dữ liệu thực. Các vấn đề lớn hơn là các tính năng không thể so sánh được, độ thưa thớt và không có khả năng trực quan hóa và kiểm tra lại kết quả.

— Có QUIT - Anony-Mousse

Câu trả lời:

Nó giúp suy nghĩ về Lời nguyền của chiều là gì. Có một số chủ đề rất tốt trên CV đáng đọc. Đây là nơi để bắt đầu: Giải thích Lời nguyền của chiều hướng trẻ em .

Tôi lưu ý rằng bạn quan tâm đến cách áp dụng này cho phân cụm -means. Điều đáng lưu ý là -means là một chiến lược tìm kiếm để giảm thiểu (chỉ) khoảng cách Euclide bình phương. Xét về điều đó, đáng để suy nghĩ về khoảng cách của Euclide liên quan đến lời nguyền của chiều (xem: Tại sao khoảng cách Euclide không phải là một thước đo tốt trong các chiều cao? ). $k$ $k$

Câu trả lời ngắn từ các chủ đề này là âm lượng (kích thước) của không gian tăng với tốc độ đáng kinh ngạc so với số lượng kích thước. Ngay cả chiều (dường như không phải là 'chiều cao' đối với tôi) cũng có thể mang đến lời nguyền. Nếu dữ liệu của bạn được phân phối đồng đều trong không gian đó, tất cả các đối tượng sẽ trở nên tương đương với nhau. Tuy nhiên, như @ Anony-Mousse lưu ý trong câu trả lời của mình cho câu hỏi đó, hiện tượng này phụ thuộc vào cách dữ liệu được sắp xếp trong không gian; nếu chúng không đồng nhất, bạn không nhất thiết phải có vấn đề này. Điều này dẫn đến câu hỏi liệu dữ liệu chiều cao phân tán đồng đều có phổ biến hay không (xem: Lời nguyền của chiều có thực sự tồn tại trong dữ liệu thực không? ). $10$

Tôi sẽ lập luận rằng những gì quan trọng không nhất thiết là số lượng biến số (chiều theo nghĩa đen của dữ liệu của bạn), mà là chiều kích hiệu quả của dữ liệu của bạn. Theo giả định rằng nguyên là 'quá cao' đối với -means, chiến lược đơn giản nhất sẽ là đếm số lượng tính năng bạn có. Nhưng nếu bạn muốn nghĩ theo chiều hướng hiệu quả, bạn có thể thực hiện phân tích thành phần nguyên tắc (PCA) và xem xét cách các giá trị bản địa giảm xuống. Điều khá phổ biến là hầu hết các biến thể tồn tại trong một vài kích thước (thường cắt ngang các kích thước ban đầu của tập dữ liệu của bạn). Điều đó có nghĩa là bạn sẽ ít gặp vấn đề với -means theo nghĩa là chiều kích hiệu quả của bạn thực sự nhỏ hơn nhiều. $10$ $k$ $k$

Một cách tiếp cận có liên quan hơn sẽ là kiểm tra phân phối khoảng cách theo cặp trong tập dữ liệu của bạn dọc theo dòng @ hxd1011 gợi ý trong câu trả lời của anh ấy . Nhìn vào các phân phối biên đơn giản sẽ cho bạn một số gợi ý về tính đồng nhất có thể. Nếu bạn bình thường hóa tất cả các biến nằm trong khoảng , khoảng cách theo cặp phải nằm trong khoảng . Khoảng cách tập trung cao sẽ gây ra vấn đề; mặt khác, một phân phối đa phương thức có thể là hy vọng (bạn có thể xem một ví dụ trong câu trả lời của tôi ở đây: Làm thế nào để sử dụng cả hai biến nhị phân và biến liên tục với nhau trong phân cụm? ). $[0,\ 1]$ $[0,\ \sqrt{\sum D}]$

Tuy nhiên, liệu -means sẽ 'làm việc' hay không vẫn là một câu hỏi phức tạp. Theo giả định rằng có các nhóm tiềm ẩn có ý nghĩa trong dữ liệu của bạn, chúng không nhất thiết tồn tại trong tất cả các kích thước của bạn hoặc trong các kích thước được xây dựng để tối đa hóa sự thay đổi (nghĩa là các thành phần nguyên tắc). Các cụm có thể ở các kích thước biến thể thấp hơn (xem: Ví dụ về PCA trong đó các PC có phương sai thấp là Hồi hữu ích . Nghĩa là, bạn có thể có các cụm có các điểm nằm sát bên trong và tách biệt giữa chỉ một vài kích thước của bạn hoặc trên các PC biến đổi thấp hơn, nhưng không giống nhau từ xa trên các PC biến đổi cao, điều này sẽ gây ra -means để bỏ qua các cụm bạn đang theo dõi và chọn ra các cụm giả thay thế (một số ví dụ có thể được nhìn thấy ở đây: $k$ $k$ Làm thế nào để hiểu những nhược điểm của K-nghĩa ).

— gung - Phục hồi Monica
nguồn

Hóa ra đã có một thẻ cho việc học đa dạng (nên đã xem trước!). Để tóm tắt cho những người có thể không biết, ý tưởng là trong khi dữ liệu chiều cao có xu hướng thưa thớt về toàn bộ không gian, nó có thể dày đặc trên một số siêu mặt trong không gian đó.

— GeoMatt22

+1 cho câu trả lời xuất sắc. Bạn có thể vui lòng giải thích thêm một chút về phần eigenvalues không? Nếu kích thước hiệu quả là nhỏ thì bạn có khuyên bạn nên làm PCA và chỉ giữ lại một vài điểm đầu tiên với giá trị bản địa cao?

— DataD'oh

@ DataD'oh, đó chắc chắn là một khả năng, nhưng điều tôi đang nói là bạn không cần phải làm điều đó. Trên thực tế, dữ liệu không phải là chiều cao (khi chỉ một vài người bản địa đầu tiên có giá trị bản địa cao), do đó bạn không nhất thiết phải làm bất cứ điều gì - lời nguyền về chiều không được áp dụng.

— gung - Phục hồi Monica

@gung mình có đăng câu hỏi mới . Tôi hy vọng nó không quá tầm thường.

— DataD'oh

Câu trả lời của tôi không giới hạn đối với phương tiện K, nhưng kiểm tra xem chúng ta có lời nguyền về chiều không cho bất kỳ phương pháp dựa trên khoảng cách nào. K-mean dựa trên thước đo khoảng cách (ví dụ: khoảng cách Euclide)

$N$ $0.5\cdot N\cdot(N-1)$

Nếu chúng ta có lời nguyền về vấn đề chiều, điều bạn sẽ thấy, là những giá trị này rất gần nhau. Điều này có vẻ rất phản trực giác, bởi vì nó có nghĩa là mọi người đều ở gần hoặc xa mọi người và khoảng cách về cơ bản là vô dụng.

$\frac 1 6$ $\int_{x_i=0}^1\int_{x_j=0}^1 (x_i-x_j)^2 dx_i dx_j$ runifrnorm

Dưới đây là mô phỏng cho kích thước từ 1 đến 500, các tính năng được phân phối đồng đều từ 0 đến 1.

plot(0, type="n",xlim=c(0,0.5),ylim=c(0,50))
abline(v=1/6,lty=2,col=2)
grid()

n_data=1e3
for (p in c(1:5,10,15,20,25,50,100,250,500)){
    x=matrix(runif(n_data*p),ncol=p)
    all_dist=as.vector(dist(x))^2/p
    lines(density(all_dist))
}

— Haitao Du
nguồn

P

$P$

$\,$

— amip

Tôi đã tăng cường vì một cuộc biểu tình của hiện tượng co rút euclide dưới kích thước cao. Nhưng câu trả lời không thể hiện sự đau khổ của k-nghĩa là phân cụm từ lời nguyền. Sự đau khổ sẽ ngụ ý rằng trong các kích thước cao, các cụm được phân tách hợp lý (và không phải là dữ liệu ngẫu nhiên thống nhất như của bạn) có thể không được phát hiện là thành công vì nó ở các chiều thấp. Bạn đã không chạm vào chủ đề này.

— ttnphns

P

$P$

@ttnphns cảm ơn bình luận của bạn và upvote. Tôi sẽ thấy Nếu tôi có thể thêm một đoạn để thảo luận về tác động lên phương tiện k.

— Haitao Du