Làm thế nào để đo hình dạng của cụm?


14

Tôi biết rằng câu hỏi này không được xác định rõ, nhưng một số cụm có xu hướng hình elip hoặc nằm trong không gian chiều thấp hơn trong khi câu hỏi khác có hình dạng phi tuyến (trong ví dụ 2D hoặc 3D).

Có biện pháp nào về tính phi tuyến (hay "hình dạng") của cụm không?

Lưu ý rằng trong không gian 2D và 3D, không phải là vấn đề để xem hình dạng của bất kỳ cụm nào, nhưng trong không gian chiều cao hơn, vấn đề là phải nói gì đó về hình dạng. Cụ thể, có biện pháp nào cho cụm lồi như thế nào không?

Tôi đã được truyền cảm hứng cho câu hỏi này bởi nhiều câu hỏi phân cụm khác, nơi mọi người nói về các cụm nhưng không ai có thể nhìn thấy chúng (trong không gian chiều cao hơn). Hơn nữa, tôi biết rằng có một số biện pháp phi tuyến cho các đường cong 2D.


1
vi.wikipedia.org/wiki/Topological_data_analysis có thể giúp đỡ, trong đó hình dạng không chính xác như những gì bạn muốn nói, mặc dù.
ziyuang

1
Có lẽ bạn có thể thích ứng khái niệm về sự nhỏ gọn cho mục đích của bạn.
12719

Câu trả lời:


4

Tôi thích các mô hình hỗn hợp Gaussian (GMM's).

Một trong những tính năng của chúng là, trong miền probit , chúng hoạt động như các bộ nội suy từng phần. Một hàm ý của điều này là chúng có thể hoạt động như một cơ sở thay thế, một xấp xỉ phổ quát. Điều này có nghĩa là đối với các phân phối không phải là Gaussian, như lognatural, weibull hoặc crazier không phân tích, miễn là một số tiêu chí được đáp ứng - GMM có thể xấp xỉ phân phối.

Vì vậy, nếu bạn biết các tham số của xấp xỉ tối ưu AICc hoặc BIC bằng GMM thì bạn có thể chiếu nó tới các kích thước nhỏ hơn. Bạn có thể xoay nó và nhìn vào các trục chính của các thành phần của GMM gần đúng.

Hậu quả sẽ là một cách thông tin và có thể truy cập trực quan để xem xét các phần quan trọng nhất của dữ liệu chiều cao hơn bằng cách sử dụng nhận thức trực quan xem 3d của chúng tôi.

EDIT: (điều chắc chắn, whuber)

Có một số cách để nhìn vào hình dạng.

  • Bạn có thể nhìn vào xu hướng trong các phương tiện. Một logic bất thường được xấp xỉ bởi một loạt các Gaussian có nghĩa là tiến gần hơn và trọng lượng của chúng sẽ nhỏ hơn theo tiến trình. Tổng gần đúng đuôi nặng hơn. Trong kích thước n, một chuỗi các thành phần như vậy sẽ tạo ra một thùy. Bạn có thể theo dõi khoảng cách giữa các phương tiện (chuyển đổi sang kích thước cao) và hướng vũ trụ giữa là tốt. Điều này sẽ chuyển đổi sang kích thước dễ tiếp cận hơn nhiều.
  • Bạn có thể tạo một hệ thống 3d có trục là trọng lượng, độ lớn của giá trị trung bình và độ lớn của phương sai / hiệp phương sai. Nếu bạn có số lượng cụm rất cao, đây là một cách để xem chúng so với nhau. Đó là một cách có giá trị để chuyển đổi các phần 50k với số đo 2k mỗi phần thành một vài đám mây trong không gian 3d. Tôi có thể thực thi điều khiển quá trình trong không gian đó, nếu tôi chọn. Tôi thích sự đệ quy của việc sử dụng mô hình hỗn hợp gaussian dựa trên các thành phần của mô hình hỗn hợp gaussian phù hợp với các tham số bộ phận.
  • Về mặt khử lộn xộn, bạn có thể vứt bỏ trọng lượng rất nhỏ, hoặc theo trọng lượng trên mỗi hiệp phương sai, hoặc như vậy.
  • R2
  • Bạn có thể nhìn nó như những bong bóng giao nhau . Vị trí của xác suất bằng nhau (không phân kỳ Kullback-Leibler) tồn tại giữa mỗi cặp cụm GMM. Nếu bạn theo dõi vị trí đó, bạn có thể lọc theo xác suất thành viên tại vị trí đó. Nó sẽ cung cấp cho bạn các điểm của ranh giới phân loại. Điều này sẽ giúp bạn cô lập "kẻ cô độc". Bạn có thể đếm số lượng ranh giới như vậy trên ngưỡng cho mỗi thành viên và nhận danh sách "kết nối" cho mỗi thành phần. Bạn cũng có thể nhìn vào các góc và khoảng cách giữa các vị trí.
  • Bạn có thể lấy mẫu lại không gian bằng cách sử dụng các số ngẫu nhiên được cung cấp các tệp Gaussian PDF, sau đó thực hiện phân tích thành phần nguyên tắc trên đó và xem xét các hình dạng bản địa và giá trị riêng liên quan đến chúng.

BIÊN TẬP:

Hình dạng có nghĩa là gì? Họ nói tính cụ thể là linh hồn của tất cả các giao tiếp tốt. Bạn có ý nghĩa gì về "biện pháp"?

Ý tưởng về những gì nó có nghĩa là:

  • Nhãn cầu cảm giác / cảm giác của hình thức chung. (cực kỳ chất lượng, khả năng tiếp cận trực quan)
  • thước đo hình dạng GD & T (đồng phẳng, đồng tâm, v.v.) (cực kỳ định lượng)
  • một cái gì đó số (giá trị riêng, hiệp phương sai, v.v ...)
  • tọa độ kích thước giảm hữu ích (như tham số GMM trở thành kích thước)
  • một hệ thống giảm tiếng ồn (được làm mịn theo một cách nào đó, sau đó được trình bày)

Hầu hết "một số cách" là một số biến thể về những điều này.


3

Điều này có thể khá đơn giản, nhưng bạn có thể hiểu rõ hơn bằng cách thực hiện phân tích giá trị riêng trên từng cụm của bạn.

Những gì tôi sẽ cố gắng là lấy tất cả các điểm được gán cho một cụm và khớp chúng với một Gaussian đa biến. Sau đó, bạn có thể tính toán giá trị riêng của ma trận hiệp phương sai được trang bị và vẽ đồ thị cho chúng. Có rất nhiều cách để làm điều này ; có lẽ nổi tiếng nhất và được sử dụng rộng rãi được gọi là phân tích thành phần chính hoặc PCA .

Khi bạn có các giá trị riêng (còn được gọi là phổ), bạn có thể kiểm tra kích thước tương đối của chúng để xác định mức độ "kéo dài" của cụm trong các kích thước nhất định. Phổ càng ít đồng nhất, cụm càng "hình điếu xì gà", và phổ càng đồng đều, cụm càng hình cầu. Bạn thậm chí có thể định nghĩa một số loại số liệu để chỉ ra mức độ không đồng nhất của các giá trị riêng (entropy phổ?); xem http://en.wikipedia.org/wiki/Spectral_flatness .

Là một lợi ích phụ, bạn có thể kiểm tra các thành phần chính (các hàm riêng liên quan đến các giá trị riêng lớn) để xem "nơi" cụm "hình xì gà" đang chỉ trong không gian dữ liệu của bạn.

Đương nhiên, đây là một xấp xỉ thô cho một cụm tùy ý, vì nó chỉ mô hình hóa các điểm trong cụm là một ellipsoid duy nhất. Nhưng, như tôi đã nói, nó có thể cung cấp cho bạn một cái nhìn sâu sắc.


+1 Đơn giản, có thể; nhưng điều này có vẻ hiệu quả và thiết thực. Dường như không có bất kỳ lợi thế nào cho sự phù hợp Gaussian đa biến: chỉ sử dụng SVD của dữ liệu trong cụm trung tâm (về cơ bản là PCA trên cụm).
whuber

@whuber vâng, tôi nghĩ về những người làm điều tương tự! Sự phù hợp là nhiều hơn những gì lý thuyết nói đang xảy ra đằng sau hậu trường, trong khi PCA là một triển khai cụ thể của quá trình đó. Tôi sẽ chỉnh sửa câu trả lời của tôi để làm cho điều này rõ ràng hơn.
lmjohns3

2

Các thuật toán phân cụm tương quan như 4C, ERiC hoặc LMCLUS thường coi các cụm là đa tạp tuyến tính. Tức là siêu phẳng k chiều trong một không gian d chiều. Chà, đối với 4C và ERiC chỉ tuyến tính cục bộ, nên trên thực tế chúng có thể không lồi. Nhưng họ vẫn cố gắng phát hiện các cụm có chiều kích cục bộ giảm.

Tìm các cụm có hình dạng tùy ý trong dữ liệu chiều cao là một vấn đề khá khó khăn. Đặc biệt, vì lời nguyền về chiều, cho phép không gian tìm kiếm bùng nổ, đồng thời cũng yêu cầu bạn có dữ liệu đầu vào lớn hơn nhiều nếu bạn vẫn muốn kết quả quan trọng . Cách quá nhiều thuật toán không chú ý đến việc những gì họ tìm thấy vẫn còn quan trọng hay cũng có thể là ngẫu nhiên.

Vì vậy, trên thực tế tôi tin rằng có những vấn đề khác cần giải quyết trước khi nghĩ về sự lồi lõm của sự không lồi của các cụm phức tạp trong không gian chiều cao.

Cũng có một cái nhìn về sự phức tạp của việc tính toán thân tàu lồi ở các chiều cao hơn ...

Ngoài ra, bạn có một trường hợp sử dụng thực sự cho điều đó ngoài sự tò mò?


2

Nếu kích thước của bạn không cao hơn 2 hoặc 3, thì có thể chiếu cụm lợi ích vào không gian 2D nhiều lần và trực quan hóa kết quả hoặc sử dụng phép đo phi tuyến 2D của bạn. Tôi nghĩ về điều này bởi vì phương pháp Dự đoán ngẫu nhiên http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Các phép chiếu ngẫu nhiên có thể được sử dụng để giảm tính chiều nhằm xây dựng một chỉ mục. Lý thuyết là nếu hai điểm gần nhau trong các chiều D và bạn lấy một phép chiếu ngẫu nhiên thành các chiều d với d

Để cụ thể, bạn có thể nghĩ đến việc chiếu một quả địa cầu lên một bề mặt phẳng. Cho dù bạn dự kiến ​​như thế nào thì New York và New Jersey sẽ được ở bên nhau, nhưng chỉ hiếm khi bạn đẩy New York và London cùng nhau.

Tôi không biết nếu điều này có thể giúp bạn một cách nghiêm ngặt nhưng nó có thể là một cách nhanh chóng để hình dung các cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.