Làm thế nào để biết định lượng liệu dữ liệu 1D có được phân cụm xung quanh 1 hoặc 3 giá trị không?


9

Tôi đã có một số dữ liệu về thời gian giữa nhịp đập của con người. Một dấu hiệu của nhịp ngoài tử cung (thêm) là các khoảng này được tập hợp xung quanh ba giá trị thay vì một. Làm thế nào tôi có thể có được một số đo định lượng của điều này?

Tôi đang tìm cách so sánh nhiều bộ dữ liệu và hai biểu đồ 100 thùng này là đại diện cho tất cả chúng.

nhập mô tả hình ảnh ở đây

Tôi có thể so sánh các phương sai, nhưng tôi muốn thuật toán của mình có thể phát hiện xem có một hoặc ba cụm trong mỗi trường hợp mà không so sánh với các trường hợp khác hay không.

Đây là để xử lý ngoại tuyến, vì vậy có rất nhiều khả năng tính toán có sẵn, nếu cần thiết.


Câu trả lời:


3

Tôi khuyên mạnh mẽ chống lại sử dụng k-means đây. Các kết quả cho các giá trị khác nhau của k không thể so sánh tốt. Phương pháp này chỉ là một heuristic thô. Nếu bạn thực sự muốn sử dụng phân cụm, hãy sử dụng phân cụm EM, vì dữ liệu của bạn dường như chứa các bản phân phối bình thường. Và xác nhận kết quả của bạn!

Thay vào đó, cách tiếp cận rõ ràng là thử lắp một hàm Gaussian duy nhất và (ví dụ sử dụng phương pháp Levenberg - MarTHER) phù hợp với ba hàm Gaussian, có thể bị giới hạn ở cùng một độ cao (để tránh thoái hóa).

Sau đó kiểm tra, cái nào trong hai bản phân phối phù hợp hơn.


Cảm ơn, tôi không biết về Levenberg-Marquest! Các cụm này không phải là Gaussian; Bạn có còn nghĩ các hàm Gaussian sẽ là PDF tốt nhất để phù hợp với chúng không?
Nikolaus

+1 cho điều này và cho Greg Snow. Tôi hoàn toàn đồng ý với lời khuyên này. @Nikolaus Tôi nghĩ rằng điều này có vẻ "đủ gaussian" để phù hợp với một hỗn hợp các phân phối gaussian. Bạn không muốn một sự phù hợp hoàn hảo, chỉ là một cách để kiểm tra có bao nhiêu cụm. Trong quang học này, việc ràng buộc tất cả các thành phần để chia sẻ cùng một độ lệch chuẩn có thể là một ý tưởng tốt (vì những lý do được giải thích bởi Anony-Mousse).
Elvis

Họ rõ ràng nhìn Gaussian đủ với tôi. K-có nghĩa là dữ liệu mô hình với các ô Voronoi. Tôi dường như không hợp lý khi cho rằng điểm phân chia tốt nhất chính xác là ở giữa hai phương tiện lân cận.
Có QUIT - Anony-Mousse

6

Điều chỉnh phân phối hỗn hợp vào dữ liệu, giống như phân phối của 3 phân phối bình thường, sau đó so sánh khả năng phù hợp với phân phối bình thường duy nhất (sử dụng thử nghiệm tỷ lệ khả năng hoặc AIC / BIC). Các flexmixgói cho Rcó thể được giúp đỡ.


4

Nếu bạn muốn sử dụng phân cụm K-nghĩa, thì bạn cần một cách để so sánh các trường hợp và . Một cách tiếp cận là sử dụng thống kê khoảng cách từ Tibshirani et al. và chọn cung cấp giá trị tốt hơn. Có một triển khai R có sẵn trong SLmisc , mặc dù chức năng cụ thể đó sẽ thử , vì vậy bạn sẽ cần cẩn thận để đảm bảo rằng chỉ hoặc có thể được trả về làm giá trị tối ưu.K = 3 K K = 1 , 2 , 3 K = 1 K = 3K=1K=3KK=1,2,3K=1K=3


2

Sử dụng thuật toán phân cụm K-mean để xác định các phương tiện khác nhau

Tìm hàm KNN trong R-search để tìm hàm thích hợp


1
ahh, tôi chỉ định đăng nó! Bạn cũng có thể tham khảo liên kết này để biết mã và whatnots: statmethods.net/advstats/cluster.html
King

Tôi đã thử với kmeanschức năng của Matlab . Kết quả có nghĩa là rất khác nhau từ cố gắng để cố gắng. (Heuristic xấu trong triển khai này?) Đối với tập hợp 1 cụm, đôi khi tôi nhận được phương tiện khoảng (270,293,693), khoảng (260,285.308). Đối với tập hợp 3 cụm, một số câu trả lời là (196.324.468,) và (290.459.478).
Nikolaus

Có nơi nào tôi có thể dán dữ liệu không?
Nikolaus

Ồ, khoảng 693 có nghĩa là: có hai ngoại lệ rõ ràng, một số 535 và 855, trong tổng số 755 giá trị. Tất cả phần còn lại của các giá trị có thể được nhìn thấy trong biểu đồ.
Nikolaus

Bạn phải nhìn xa hơn các phương tiện bạn nhận được từ k-mean và xem họ thực sự mô tả dữ liệu của bạn như thế nào!
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.