Tôi đang sử dụng phân cụm theo phân cấp để phân tích dữ liệu chuỗi thời gian. Mã của tôi được triển khai bằng hàm MathicalaDirectAgglomerate[...]
, tạo ra các cụm phân cấp cho các đầu vào sau:
một ma trận khoảng cách D
tên của phương thức được sử dụng để xác định liên kết giữa các cụm.
Tôi đã tính ma trận khoảng cách D bằng khoảng cách Manhattan:
nơi và n ≈ 150 là số điểm dữ liệu trong chuỗi thời gian của tôi.
Câu hỏi của tôi là, có ổn không khi sử dụng liên kết giữa các cụm của Ward với ma trận khoảng cách Manhattan? Một số nguồn cho rằng liên kết của Ward chỉ nên được sử dụng với khoảng cách Euclide.
Lưu ý rằng DirectAgglomerate[...]
tính toán liên kết của Ward chỉ bằng ma trận khoảng cách, không phải các quan sát ban đầu. Thật không may, tôi không chắc chắn như thế nào Mathematica sẽ thay đổi thuật toán gốc Phường, mà (từ hiểu biết của tôi) làm việc bằng cách giảm thiểu số tiền lỗi bình phương của các quan sát, tính toán liên quan đến giá trị trung bình cluster với. Ví dụ, đối với một cụm bao gồm một vectơ quan sát đơn biến, Ward đã lập công thức tổng các lỗi bình phương là:
(Các công cụ phần mềm khác như Matlab và R cũng triển khai phân cụm của Ward chỉ bằng cách sử dụng ma trận khoảng cách để câu hỏi không dành riêng cho Mathicala.)