thuật toán phân cụm cho dữ liệu không thứ nguyên


12

tôi có một bộ dữ liệu gồm hàng ngàn điểm và một phương tiện đo khoảng cách giữa hai điểm bất kỳ, nhưng các điểm dữ liệu không có thứ nguyên. tôi muốn một thuật toán để tìm các trung tâm cụm trong bộ dữ liệu này. Tôi tưởng tượng rằng vì dữ liệu không có kích thước, trung tâm cụm có thể bao gồm một số điểm dữ liệu và dung sai và thành viên trong cụm có thể được xác định bằng trung bình khoảng cách của điểm dữ liệu đến mọi điểm dữ liệu trong trung tâm cụm.

xin vui lòng tha thứ cho tôi nếu câu hỏi này có một giải pháp nổi tiếng, tôi biết rất ít về loại vấn đề này! nghiên cứu (rất hạn chế) của tôi chỉ bật các thuật toán phân cụm cho dữ liệu thứ nguyên, nhưng tôi xin lỗi trước nếu tôi bỏ lỡ điều gì đó rõ ràng.

cảm ơn bạn!


Tại sao sự không chiều làm cho vấn đề này trở nên đặc biệt?
Raphael

1
Một số thuật toán tôi thấy để phân cụm (thực sự chỉ là phương tiện k) yêu cầu tạo các điểm dữ liệu ngẫu nhiên dưới dạng hạt, điều này là không thể đối với dữ liệu không thứ nguyên. Vì vậy, yêu cầu đặc biệt là các trung tâm cụm phải được biểu diễn bằng một tập hợp các điểm dữ liệu hiện có (có lẽ có trọng số).
paintcan

Câu trả lời:


15

Nếu hàm khoảng cách là một số liệu, thì bạn có thể sử dụng phân cụm -center (trong đó bán kính tối đa của quả bóng được giảm thiểu) hoặc phân cụm k -median (giúp giảm thiểu tổng khoảng cách đến các tâm cụm). k phân nhóm -center rất dễ dàng: chỉ chọn k điểm -farthest, và bạn chắc chắn để có được một 2-xấp xỉ qua bất đẳng thức tam giác (đây là một kết quả cũ do Gonzalez).kkkk

Đối với phân cụm -median, đã có rất nhiều công việc, quá nhiều để xem xét ở đây. Michael Shindler tại UCLA có một cuộc khảo sát tốt đẹp về những ý tưởng chính.k

Cả hai vấn đề này đều là NP-hard nói chung và khó có thể tính gần đúng trong một yếu tố tùy ý. Lưu ý rằng nếu bạn bỏ điều kiện là một số liệu, mọi thứ trở nên tồi tệ hơn rất nhiều về tính gần đúng.

Một cách tiếp cận heuristic khác có thể phù hợp với ứng dụng của bạn là sử dụng một kỹ thuật như MDS (chia tỷ lệ đa chiều) để nhúng ma trận khoảng cách của bạn vào không gian Euclide, sau đó sử dụng một trong nhiều phương pháp phân cụm Euclide khác nhau (hoặc thậm chí là phân cụm -means ). Nếu bạn chắc chắn rằng hàm khoảng cách của bạn là một số liệu, thì bạn có thể thực hiện việc nhúng thông minh hơn một chút vào không gian Euclide và có được sự đảm bảo (mặc dù yếu) về chất lượng câu trả lời của bạn.k

Cuối cùng, như với hầu hết các vấn đề phân cụm, lựa chọn cuối cùng của bạn phụ thuộc vào ứng dụng, kích thước dữ liệu của bạn, v.v.


3
Cảm ơn bạn đã tổng quan nhanh chóng và rõ ràng. Tôi sẽ mất ít nhất vài ngày để xác định xem bạn đã trả lời câu hỏi của tôi chưa. Có vẻ như tôi có rất nhiều điều để tìm hiểu trước khi tôi hiểu đủ vấn đề của mình :)
paintcan

5

Ngoài ra còn có cụm tương quan , có thông tin đầu vào cho từng cặp mặt hàng cho biết liệu chúng có thuộc cùng một cụm hoặc các cụm khác nhau hay không.


vâng, đó là một ví dụ tốt. Và tất nhiên Warren là một chuyên gia về điều này! Tôi không biết liệu đầu vào của OP là +/- hay có thể được chuyển đổi qua ngưỡng. Nếu vậy, đây chắc chắn là một lựa chọn khả thi.
Suresh Venkat

5

Nếu bạn chỉ tìm kiếm hiệu suất thực nghiệm tốt, thuật toán lan truyền ái lực thường hoạt động tốt hơn so với trung bình k. Có mã có sẵn trong một số ngôn ngữ và ấn phẩm mô tả thuật toán chi tiết hơn tại đây: http://www.psi.toronto.edu/index.php?q=affinity%20propagation

ΣTôiS(Tôi,cTôi)

ScTôicTôiS(Tôi,Tôi)


5

Câu hỏi của bạn dường như ngụ ý rằng bạn đang tìm kiếm một thuật toán với thời gian tính toán hợp lý. Với kích thước các đỉnh (hoặc điểm) của bạn sẽ tạo ra biểu diễn biểu đồ có trọng số của dữ liệu của bạn và sử dụng Thuật toán cụm Markov (MCL) để phân cụm biểu đồ.

http://www.micans.org/mcl/

MCL dựa trên các bước ngẫu nhiên thông qua các biểu đồ có trọng số và không trọng số để tìm các sơ đồ dày đặc. Nó có thể xử lý các biểu đồ lớn và đã được sử dụng trong nhiều chương trình sinh hóa nổi tiếng, được sử dụng tốt (như BLAST). -Boucher


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.