Khoảng cách giữa các biến tạo ra một ma trận hiệp phương sai là gì?


11

Tôi có ma trận hiệp phương sai và muốn phân vùng biến thành các cụm bằng cách sử dụng phân cụm phân cấp (ví dụ: để sắp xếp ma trận hiệp phương sai).n×nk

Có một hàm khoảng cách điển hình giữa các biến (tức là giữa các cột / hàng của ma trận hiệp phương sai vuông) không?

Hoặc nếu có nhiều hơn, có một tài liệu tham khảo tốt về chủ đề này?


X

d2=σ12+σ222cov

Lưu ý công thức này có nghĩa là hiệp phương sai có khoảng cách lớn hơn hiệp phương sai dương (và đây thực sự là trường hợp theo quan điểm hình học). Nếu bạn không muốn dấu hiệu của hiệp phương sai đóng vai trò, hãy xóa bỏ dấu hiệu tiêu cực.
ttnphns

@gung Đó là một ma trận đối xứng, vì vậy các hàng ~ cột. Đối với tôi, điều quan trọng là chia nó thành các bộ biến, không phải 'xoay' chúng với phân tích nhân tố (thực ra, tôi không làm việc với ma trận cov. Chuẩn, mà là một biến phức (ma trận mật độ trong cơ học lượng tử)).
Piotr Migdal

@ttnphns Cảm ơn. Điều làm phiền tôi là tôi muốn tách các biến không tương quan - tương quan phủ định đối với tôi (gần như) tốt như biến tích cực.
Piotr Migdal

Câu trả lời:


13

dTôij2= =σTôi2+σj2-2covTôijdTôij2tỷ lệ thuận với khoảng cách Euclide bình phương thông thường : bạn có được giá trị sau nếu bạn sử dụng tổng bình phương và tổng sản phẩm chéo thay cho phương sai và hiệp phương sai. Tất cả các biến nên được tập trung vào ban đầu: nói về "hiệp phương sai" là bí danh để suy nghĩ về dữ liệu với các phương tiện bị loại bỏ.)

Lưu ý, công thức này có nghĩa là hiệp phương sai có khoảng cách lớn hơn hiệp phương sai dương (và đây thực sự là trường hợp từ quan điểm hình học, tức là khi các biến được xem là vectơ trong không gian chủ thể ). Nếu bạn không muốn dấu hiệu của hiệp phương sai đóng vai trò, hãy xóa bỏ dấu hiệu tiêu cực. Bỏ qua dấu âm không phải là hoạt động "vá bằng tay" và được bảo hành, khi cần: nếu ma trận cov là xác định dương, ma trận abs (cov) cũng sẽ xác định dương; và do đó, khoảng cách thu được theo công thức trên sẽ là khoảng cách euclide thực sự (khoảng cách euclide là một loại khoảng cách số liệu cụ thể ).

Khoảng cách Euclide là phổ quát đối với phân cụm theo cấp bậc : bất kỳ phương pháp phân cụm nào như vậy đều hợp lệ với euclidean hoặc bình phương euclidean d . Nhưng một số phương pháp, ví dụ như liên kết trung bình hoặc liên kết hoàn chỉnh, có thể được sử dụng với bất kỳ sự khác biệt hoặc tương đồng (không chỉ khoảng cách số liệu). Vì vậy, bạn có thể sử dụng các phương thức như vậy trực tiếp với ma trận cov hoặc abs (cov) hoặc - ví dụ - với ma trận khoảng cách max (abs (cov)) - abs (cov) . Tất nhiên, kết quả phân cụm có khả năng phụ thuộc vào bản chất chính xác của độ tương tự (dis) được sử dụng.


dTôij2dTôij2

@Hello Goodbye, vâng tôi ngụ ý hai biến (vectơ) có nghĩa là bằng nhau - thực sự, với phương tiện bị loại bỏ, trong trường hợp đầu tiên.
ttnphns

3

Tại sao không sử dụng ma trận tương quan để thực hiện phân cụm? Giả sử các biến ngẫu nhiên của bạn là trung tâm, bằng cách tính tương quan giữa các biến bạn đang tính khoảng cách tương tự cosine . Khoảng cách này cũng được đề cập trong liên kết của bạn. Khoảng cách này có thể được sử dụng để phân nhóm theo cấp bậc. Độ tương tự 1 - | cosine càng nhỏ |, các biến của bạn càng giống nhau.


d(Tôi,j)= =1-MộtTôij2/(MộtTôiTôiMộtjj)

3
Ah, xin lỗi vì sự hiểu lầm. Nguồn tốt nhất tôi biết là đây . Họ nghiên cứu chất lượng của một số số liệu (sử dụng tương quan) với phân cụm theo cấp bậc. Để phân cụm theo phân cấp, tôi thường thử nhiều số liệu và xem cái nào hoạt động tốt nhất cho mục tiêu và dữ liệu cụ thể của mình.
Jorge Banuelos

liên kết dường như không hoạt động nữa?
Matifou
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.