Phân phối cụm

10

Tôi có một vài bản phân phối (10 bản phân phối trong hình bên dưới).

Trong thực tế đây là các biểu đồ: có 70 giá trị trên trục x là kích thước của một số hạt trong một giải pháp và với mỗi giá trị của x, giá trị tương ứng của y là tỷ lệ các hạt có kích thước xung quanh giá trị của x.

Tôi muốn phân cụm các phân phối này. Hiện tại tôi sử dụng một cụm phân cấp với khoảng cách Euclide chẳng hạn. Tôi không hài lòng bởi sự lựa chọn của khoảng cách. Tôi đã thử khoảng cách lý thuyết thông tin như Kullback-Leibler nhưng có nhiều số không trong dữ liệu và điều này gây ra khó khăn. Bạn có một đề xuất về một khoảng cách thích hợp và / hoặc một phương pháp phân cụm khác không?

clustering

— Stéphane Laurent
nguồn

16

Tôi hiểu bạn sao cho tất cả các bản phân phối có khả năng đảm nhận cùng 70 giá trị riêng biệt. Sau đó, bạn sẽ dễ dàng so sánh các đường cong tích lũy của các phân phối (so sánh các đường cong tích lũy là cách chung để so sánh các phân phối). Đó sẽ là so sánh omnibus cho sự khác biệt về hình dạng, vị trí và sự lây lan.

Vì vậy, chuẩn bị dữ liệu ở dạng như (A, B, ... vv là các bản phân phối)

Value CumProp_A CumProp_B ...
1       .01       .05
2       .12       .14
...     ...       ...
70      1.00      1.00

và tính toán một ma trận khoảng cách giữa các bản phân phối. Gửi tới phân cụm theo phân cấp (Tôi khuyên bạn nên sử dụng phương pháp liên kết hoàn chỉnh). Khoảng cách là bao nhiêu? Chà, nếu bạn nghĩ rằng hai đường cong tích lũy rất khác nhau nếu chúng cách xa nhau chỉ ở một giá trị ( b ), hãy sử dụng khoảng cách Ch Quashev. Nếu bạn nghĩ rằng hai đường cong tích lũy rất khác nhau chỉ khi một đường cong ổn định trên đường kia dọc theo một phạm vi giá trị rộng ( c ), hãy sử dụng khoảng cách tự động tương quan. Trong trường hợp bất kỳ sự khác biệt cục bộ nào giữa các đường cong đều quan trọng ( a ), hãy sử dụng khoảng cách Manhattan.

nhập mô tả hình ảnh ở đây

PS Khoảng cách tự động tương quan chỉ là một hệ số tự chuẩn hóa của sự khác biệt giữa các đường cong tích lũy X và Y:

$\sum_{i=2}^N (X-Y)_i*(X-Y)_{i-1}$

— ttnphns
nguồn

Tuyệt vời - cảm ơn rất nhiều! Tôi sẽ làm điều này vào ngày mai

— Stéphane Laurent

Khoảng cách tự động có thể là âm. Có thực sự là định nghĩa tốt?

— Stéphane Laurent

Tôi quên hỏi một câu hỏi khác: tại sao bạn muốn giới thiệu liên kết hoàn chỉnh?

— Stéphane Laurent

Bạn có thể đặt thành không điều khoản sản phẩm âm, nếu có. Tôi không khăng khăng liên kết hoàn toàn, thay vào đó, tôi đã cảnh báo chống lại các phương pháp "hình học" như Ward hoặc centroid vì khoảng cách không phải là euclidean. Tôi cũng nghĩ rằng một phương pháp "giãn nở" như liên kết hoàn chỉnh sẽ theo ý thích của bạn

— ttnphns

4

Nếu dữ liệu của bạn là biểu đồ, bạn có thể muốn xem xét các hàm khoảng cách thích hợp cho điều đó, chẳng hạn như "khoảng cách giao lộ biểu đồ".

Có một công cụ gọi là ELKI có nhiều thuật toán phân cụm (hiện đại hơn nhiều so với phương tiện k và phân cấp phân cấp) và nó thậm chí còn có một phiên bản khoảng cách giao cắt biểu đồ, mà bạn có thể sử dụng trong hầu hết các thuật toán. Bạn có thể muốn thử một vài thuật toán có sẵn trong đó. Từ cốt truyện bạn đưa ra ở trên, tôi không rõ bạn muốn làm gì. Nhóm các biểu đồ cá nhân, phải không? Đánh giá từ 10 bạn đã trình bày ở trên, có thể không có cụm.

— Có QUIT - Anony-Mousse
nguồn

Cảm ơn. Nhưng tôi đang tìm kiếm một công cụ có sẵn trong R hoặc SAS. Sau đó mười phân phối ở trên chỉ là một ví dụ, tôi có rất nhiều loạt phân phối cho cụm.

— Stéphane Laurent

2

Bạn có thể muốn sử dụng một số kỹ thuật trích xuất tính năng để lấy các mô tả cho một phương tiện k hoặc loại phân cụm khác.

Một cách tiếp cận cơ bản sẽ phù hợp với một phân phối nhất định cho biểu đồ của bạn và sử dụng các tham số của nó làm mô tả. Chẳng hạn, bạn dường như có các phân phối lưỡng kim, mà bạn có thể mô tả với 2 phương tiện và 2 độ lệch chuẩn.

Một khả năng khác là tập hợp thành hai hoặc ba thành phần chính đầu tiên trong số đếm của biểu đồ.

Cách tiếp cận sóng con có thể được sử dụng.

Trang này giải thích cách làm điều đó khi xử lý các gai ngoại bào. Dữ liệu là khác nhau, nhưng ý tưởng nên được áp dụng cho trường hợp của bạn. Bạn cũng sẽ tìm thấy nhiều tài liệu tham khảo ở phía dưới.

http://www.scholarpedia.org/article/Spike_sorting

Trong R, bạn có thể tính toán các thành phần chính của các đỉnh bằng cách sử dụng hàm princomphoặc prcomp. Ở đây bạn sẽ tìm thấy một hướng dẫn về PCA trong R.

Đối với wavelet bạn có thể nhìn vào waveletsgói.

k-có nghĩa là phân cụm có thể đạt được bằng cách sử dụng kmeanschức năng.

— nico
nguồn

Cảm ơn, tôi sẽ xem xét đề xuất của bạn bất cứ khi nào có thể.

— Stéphane Laurent