Tôi có một số điểm dữ liệu, mỗi điểm chứa 5 vectơ kết quả riêng biệt được kết tụ, mỗi kết quả của vectơ được tạo bởi một phân phối khác nhau (loại cụ thể mà tôi không chắc chắn, theo phỏng đoán tốt nhất của tôi là Weibull, với tham số hình dạng thay đổi theo hàm mũ luật (1 đến 0, đại khái).)
Tôi đang tìm cách sử dụng một thuật toán phân cụm như K-Means để đặt từng điểm dữ liệu vào các nhóm dựa trên các thuộc tính của 5 bản phân phối thành phần của nó. Tôi đã tự hỏi nếu có bất kỳ số liệu khoảng cách được thiết lập sẽ thanh lịch cho các mục đích này. Tôi đã có ba ý tưởng cho đến nay, nhưng tôi không phải là một nhà thống kê dày dạn kinh nghiệm (nhiều hơn một nhà khoa học máy tính khai thác dữ liệu ban đầu) vì vậy tôi không biết mình đã đi xa đến đâu.
Vì tôi không biết chính xác loại phân phối nào tôi đang xử lý, nên cách tiếp cận vấn đề vũ phu của tôi là cắt từng phân phối (tôi có 5 điểm) cho mỗi giá trị dữ liệu riêng biệt tương ứng của nó (tôi đệm mỗi cái tương ứng có cùng độ dài với các số 0 ở cuối) và sử dụng mỗi giá trị này làm một thuộc tính riêng cho chính điểm dữ liệu. Tôi đã thử sử dụng cả khoảng cách Manhattan và khoảng cách Euclide làm số liệu dựa trên các thuộc tính này, cho cả PDF và CDF.
Một lần nữa, vì tôi không biết mình có loại phân phối nào, tôi nhận ra rằng nếu tôi sẽ đo khoảng cách giữa các phân phối tổng thể, tôi có thể sử dụng một số loại thử nghiệm không tham số theo cặp giữa các phân phối, chẳng hạn như thử nghiệm KS , để tìm khả năng các bản phân phối đã cho được tạo bởi các tệp PDF khác nhau. Tôi nghĩ rằng tùy chọn đầu tiên của tôi (ở trên) sử dụng khoảng cách Manhattan sẽ là một loại giới hạn trên đối với những gì tôi có thể nhận được bằng cách sử dụng phương pháp này (vì thống kê của KS là giá trị tuyệt đối tối đa của sự khác biệt của CDF, trong đó khoảng cách Manhattan là tổng các giá trị tuyệt đối của sự khác biệt trong các tệp PDF). Sau đó, tôi đã xem xét kết hợp các giá trị KS-Statistics hoặc P khác nhau trong mỗi điểm dữ liệu, có thể sử dụng khoảng cách Euclide, nhưng có thể chỉ lấy tối đa của tất cả các giá trị này.
Cuối cùng, trong nỗ lực sử dụng những gì tôi có thể diễn giải về hình dạng của các bản phân phối, tôi nghĩ rằng tôi có thể thử ước tính các tham số của các bản phân phối phù hợp với đường cong Weibull. Sau đó tôi có thể phân cụm các phân phối dựa trên sự khác biệt trong hai tham số của phân phối Weibull, lambda và k (tỷ lệ và hình dạng), có thể được chuẩn hóa theo phương sai của các tham số này hoặc một cái gì đó thuộc loại. Đây là trường hợp duy nhất mà tôi nghĩ rằng tôi có thể có một ý tưởng về cách bình thường hóa các tham số.
Vì vậy, câu hỏi của tôi là, biện pháp / phương pháp nào bạn muốn giới thiệu để phân cụm phân phối? Tôi thậm chí có đang đi đúng hướng với bất kỳ trong số này? Là K-Means thậm chí là một thuật toán tốt để sử dụng?
Chỉnh sửa: Làm rõ dữ liệu.
Mỗi điểm dữ liệu (mỗi đối tượng Obj
mà tôi muốn phân cụm) thực sự chứa 5 vectors
dữ liệu theo nghĩa đen . Tôi biết có chính xác 5 giai đoạn mà các đối tượng này có thể tham gia. Chúng tôi sẽ nói (với mục đích đơn giản hóa) mà mỗi vector là length N
.
Mỗi một trong các vectơ (gọi nó vector i
) là một phân bố xác suất với số nguyên x-values
trong tổng số 1 đến N, trong đó mỗi giá trị y tương ứng đại diện cho khả năng đo value x
trong phase i
của đối tượng Obj
. N sau đó là giá trị x tối đa tôi mong đợi để đo trong bất kỳ pha nào của đối tượng (đây thực sự không phải là một số cố định trong phân tích của tôi).
Tôi xác định các xác suất này theo cách sau:
Tôi lấy một đĩa đơn
Obj
và đặt nó trongphase i
chok trials
, khi đo tại mỗi phiên tòa. Mỗi phép đo là một số nguyên. Tôi làm điều này cho mỗi 5 giai đoạn của một đối tượng và lần lượt cho từng đối tượng. Dữ liệu đo lường thô của tôi cho một đối tượng có thể trông giống như:Vectơ 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
Vectơ 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
Vectơ 5. [16, ... ..., 0]
Sau đó, tôi tự chuẩn hóa từng vectơ, tương ứng với tổng số phép đo trong vectơ đã cho. Điều này sẽ cho tôi một phân bố xác suất trong vector, trong đó mỗi giá trị y tương ứng đại diện cho khả năng đo
value x
trongphase i
.