Phân phối xác suất phân cụm - phương pháp & số liệu?


12

Tôi có một số điểm dữ liệu, mỗi điểm chứa 5 vectơ kết quả riêng biệt được kết tụ, mỗi kết quả của vectơ được tạo bởi một phân phối khác nhau (loại cụ thể mà tôi không chắc chắn, theo phỏng đoán tốt nhất của tôi là Weibull, với tham số hình dạng thay đổi theo hàm mũ luật (1 đến 0, đại khái).)

Tôi đang tìm cách sử dụng một thuật toán phân cụm như K-Means để đặt từng điểm dữ liệu vào các nhóm dựa trên các thuộc tính của 5 bản phân phối thành phần của nó. Tôi đã tự hỏi nếu có bất kỳ số liệu khoảng cách được thiết lập sẽ thanh lịch cho các mục đích này. Tôi đã có ba ý tưởng cho đến nay, nhưng tôi không phải là một nhà thống kê dày dạn kinh nghiệm (nhiều hơn một nhà khoa học máy tính khai thác dữ liệu ban đầu) vì vậy tôi không biết mình đã đi xa đến đâu.

  1. Vì tôi không biết chính xác loại phân phối nào tôi đang xử lý, nên cách tiếp cận vấn đề vũ phu của tôi là cắt từng phân phối (tôi có 5 điểm) cho mỗi giá trị dữ liệu riêng biệt tương ứng của nó (tôi đệm mỗi cái tương ứng có cùng độ dài với các số 0 ở cuối) và sử dụng mỗi giá trị này làm một thuộc tính riêng cho chính điểm dữ liệu. Tôi đã thử sử dụng cả khoảng cách Manhattan và khoảng cách Euclide làm số liệu dựa trên các thuộc tính này, cho cả PDF và CDF.

  2. Một lần nữa, vì tôi không biết mình có loại phân phối nào, tôi nhận ra rằng nếu tôi sẽ đo khoảng cách giữa các phân phối tổng thể, tôi có thể sử dụng một số loại thử nghiệm không tham số theo cặp giữa các phân phối, chẳng hạn như thử nghiệm KS , để tìm khả năng các bản phân phối đã cho được tạo bởi các tệp PDF khác nhau. Tôi nghĩ rằng tùy chọn đầu tiên của tôi (ở trên) sử dụng khoảng cách Manhattan sẽ là một loại giới hạn trên đối với những gì tôi có thể nhận được bằng cách sử dụng phương pháp này (vì thống kê của KS là giá trị tuyệt đối tối đa của sự khác biệt của CDF, trong đó khoảng cách Manhattan là tổng các giá trị tuyệt đối của sự khác biệt trong các tệp PDF). Sau đó, tôi đã xem xét kết hợp các giá trị KS-Statistics hoặc P khác nhau trong mỗi điểm dữ liệu, có thể sử dụng khoảng cách Euclide, nhưng có thể chỉ lấy tối đa của tất cả các giá trị này.

  3. Cuối cùng, trong nỗ lực sử dụng những gì tôi có thể diễn giải về hình dạng của các bản phân phối, tôi nghĩ rằng tôi có thể thử ước tính các tham số của các bản phân phối phù hợp với đường cong Weibull. Sau đó tôi có thể phân cụm các phân phối dựa trên sự khác biệt trong hai tham số của phân phối Weibull, lambda và k (tỷ lệ và hình dạng), có thể được chuẩn hóa theo phương sai của các tham số này hoặc một cái gì đó thuộc loại. Đây là trường hợp duy nhất mà tôi nghĩ rằng tôi có thể có một ý tưởng về cách bình thường hóa các tham số.

Vì vậy, câu hỏi của tôi là, biện pháp / phương pháp nào bạn muốn giới thiệu để phân cụm phân phối? Tôi thậm chí có đang đi đúng hướng với bất kỳ trong số này? Là K-Means thậm chí là một thuật toán tốt để sử dụng?

Chỉnh sửa: Làm rõ dữ liệu.

Mỗi điểm dữ liệu (mỗi đối tượng Objmà tôi muốn phân cụm) thực sự chứa 5 vectorsdữ liệu theo nghĩa đen . Tôi biết có chính xác 5 giai đoạn mà các đối tượng này có thể tham gia. Chúng tôi sẽ nói (với mục đích đơn giản hóa) mà mỗi vector là length N.

Mỗi một trong các vectơ (gọi nó vector i) là một phân bố xác suất với số nguyên x-valuestrong tổng số 1 đến N, trong đó mỗi giá trị y tương ứng đại diện cho khả năng đo value xtrong phase icủa đối tượng Obj. N sau đó là giá trị x tối đa tôi mong đợi để đo trong bất kỳ pha nào của đối tượng (đây thực sự không phải là một số cố định trong phân tích của tôi).

Tôi xác định các xác suất này theo cách sau:

  1. Tôi lấy một đĩa đơn Objvà đặt nó trong phase icho k trials, khi đo tại mỗi phiên tòa. Mỗi phép đo là một số nguyên. Tôi làm điều này cho mỗi 5 giai đoạn của một đối tượng và lần lượt cho từng đối tượng. Dữ liệu đo lường thô của tôi cho một đối tượng có thể trông giống như:

    Vectơ 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Vectơ 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Vectơ 5. [16, ... ..., 0]

  2. Sau đó, tôi tự chuẩn hóa từng vectơ, tương ứng với tổng số phép đo trong vectơ đã cho. Điều này sẽ cho tôi một phân bố xác suất trong vector, trong đó mỗi giá trị y tương ứng đại diện cho khả năng đo value xtrong phase i.


1
Tôi không rõ làm thế nào các điểm dữ liệu của bạn có thể "chứa" các bản phân phối. Bạn có thể cho một ví dụ? Hơn nữa, Weibull không phải là một phân phối xác suất rời rạc, vì vậy một số làm rõ thêm sẽ là mong muốn.
mpiktas

@mpiktas: Mỗi điểm dữ liệu đại diện cho một đối tượng có 5 giai đoạn khác nhau. Hành vi của từng pha của đối tượng về mặt lý thuyết có thể được biểu diễn bằng hàm phân phối xác suất liên tục, nhưng dữ liệu của tôi chỉ chứa các mẫu riêng biệt. Phân phối Weibull có lẽ là chức năng "lý thuyết" đằng sau dữ liệu của tôi, nhưng bản thân dữ liệu chỉ là các phép đo mật độ trong các khoảng thời gian riêng biệt.
khao khát máy móc

Câu trả lời:


4

(Tính toán) Hình học thông tin là một lĩnh vực giải quyết chính xác các loại vấn đề này. K-mean có phần mở rộng gọi là Bregman k-nghĩa là sử dụng các phân kỳ (có bình phương Euclide của K-mean tiêu chuẩn là một trường hợp cụ thể, nhưng cũng là Kullback-Leibler). Một phân kỳ cho trước có liên quan đến phân phối, ví dụ bình phương Euclide với Gaussian.

Bạn cũng có thể có một cái nhìn về công việc của Frank Nielsen , ví dụ

Bạn cũng có thể có một cái nhìn về khoảng cách Wasserstein (vận chuyển tối ưu) , được đề cập là Khoảng cách Mover Trái đất trong bài trước.


2

Trong bài báo của họ về thuật toán EP-Means , Henderson và cộng sự xem xét các cách tiếp cận vấn đề này và đưa ra giải pháp của riêng họ. Họ xem xét:

  1. Phân cụm tham số - xác định tham số cho các bản phân phối dựa trên kiến ​​thức trước về phân phối và cụm dựa trên các tham số đó
    • lưu ý rằng ở đây, bạn thực sự có thể sử dụng bất kỳ chức năng nào trên dữ liệu, không chỉ ước tính tham số, rất hữu ích nếu bạn biết dữ liệu của mình đến từ các bản phân phối khác nhau
  2. Tạo biểu đồ - tách dữ liệu thành các thùng và xem mỗi thùng như một thứ nguyên được sử dụng trong phân cụm không gian
  3. EP-Means (cách tiếp cận của họ) - xác định trọng tâm phân phối (hỗn hợp của tất cả các phân phối được gán cho một cụm) và giảm thiểu tổng bình phương của Khoảng cách của Trái đất (giống như giá trị dự kiến ​​của L1 khoảng cách giữa các CDF) giữa các trung tâm phân phối và các phân phối được gán cho cụm đó.

Một kỹ thuật khác mà tôi đã sử dụng thành công là phân cụm tất cả các điểm quan sát từ tất cả các phân phối riêng lẻ, sau đó gán cho phân phối i xác suất mềm tương ứng với tỷ lệ các điểm kết thúc trong mỗi cụm. Mặt khác, việc phân phối theo cách đó khó hơn nhiều. Về mặt tích cực, nó tự động chuẩn hóa và cho rằng tất cả các bản phân phối đều giống nhau. Tôi sẽ chỉ sử dụng nó khi tài sản chính quy được mong muốn, mặc dù.


1
Chào mừng đến với trang web của chúng tôi! Lưu ý rằng bạn có thể sử dụng đánh dấu latex ở đây bằng cách đặt văn bản bên trong các ký hiệu đô la, ví dụ: $i$sản xuấtTôihoặc $l_2$sản xuấttôi2, có thể giúp bạn thể hiện bản thân dễ dàng hơn
Silverfish

1

Bạn nên tiến hành theo hai bước. (1) Giảm dữ liệu và (2) Phân cụm.

Đối với bước (1), bạn nên kiểm tra cẩn thận dữ liệu của mình và xác định phân phối xác suất hợp lý cho dữ liệu của mình. Bạn dường như đã nghĩ về bước này rồi. Bước tiếp theo là ước tính các tham số của các bản phân phối này. Bạn có thể điều chỉnh một mô hình riêng cho từng đơn vị được phân cụm hoặc có thể phù hợp để sử dụng một mô hình phức tạp hơn như mô hình hỗn hợp tuyến tính tổng quát.

Đối với bước (2), sau đó bạn có thể phân cụm dựa trên các ước tính tham số này. Ở giai đoạn này, bạn nên có một số lượng nhỏ các ước tính tham số cho mỗi đơn vị. Như được mô tả trong câu trả lời cho bài đăng này , sau đó bạn có thể phân cụm các ước tính tham số này.

Câu trả lời này nhất thiết hơi mơ hồ - không có giải pháp "đóng hộp" nào ở đây và rất nhiều thông tin chi tiết thống kê là cần thiết cho mỗi bước để chọn từ một số phương pháp gần như vô hạn có thể có liên quan, tùy thuộc vào vấn đề duy nhất của bạn. Tuyên bố về câu hỏi của bạn cho thấy rằng bạn đã tự nghĩ cho mình rất nhiều kiến ​​thức thống kê, rất đáng khen ngợi, nhưng bạn vẫn có một số hiểu lầm cơ bản về các khái niệm thống kê cốt lõi, chẳng hạn như phân biệt giữa phân phối xác suất và quan sát từ phân phối xác suất . Xem xét tham gia / kiểm toán một hoặc hai khóa học thống kê toán học.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.