Chuyển đổi ma trận tương tự thành ma trận khoảng cách (euclid)


27

Trong thuật toán rừng ngẫu nhiên, Breiman (tác giả) xây dựng ma trận tương tự như sau:

  1. Gửi tất cả các ví dụ học tập xuống từng cây trong rừng

  2. Nếu hai ví dụ hạ cánh trong cùng một phần tử tăng tương ứng trong ma trận tương tự bằng 1

  3. Bình thường hóa ma trận với số lượng cây

Anh ta nói:

Các giá trị gần đúng giữa các trường hợp n và k tạo thành một ma trận {prox (n, k)}. Từ định nghĩa của chúng, có thể dễ dàng chỉ ra rằng ma trận này đối xứng, xác định dương và giới hạn ở trên 1, với các phần tử đường chéo bằng 1. Theo sau các giá trị 1-prox (n, k) là khoảng cách bình phương trong Euclide không gian kích thước không lớn hơn số lượng các trường hợp. Nguồn

Trong quá trình thực hiện, anh ta sử dụng sqrt (1-prox) , trong đó prox là một ma trận tương tự, để chuyển đổi nó thành ma trận khoảng cách. Tôi đoán nó có liên quan đến "khoảng cách vuông trong không gian Euclide" được trích dẫn ở trên.

Ai đó có thể chiếu một chút ánh sáng vào lý do tại sao nó theo sau 1-prox là khoảng cách bình phương trong không gian Euclide và tại sao anh ta sử dụng căn bậc hai để lấy ma trận khoảng cách?

Câu trả lời:


30

nhập mô tả hình ảnh ở đây

Theo định lý cosin , trong không gian euclide, khoảng cách bình phương (euclide) giữa hai điểm (vectơ) 1 và 2 là . Độ dài bình phương và là tổng các tọa độ bình phương của điểm 1 và 2 (chúng là các cạnh huyền của pythagore). Số lượng được gọi là sản phẩm vô hướng (= sản phẩm chấm, = sản phẩm bên trong) của vectơ 1 và 2.d122=h12+h222h1h2cosϕh12h22h1h2cosϕ

Sản phẩm vô hướng còn được gọi là độ tương tự kiểu góc giữa 1 và 2, và trong không gian Euclide, nó là thước đo tương tự hợp lệ nhất , bởi vì nó dễ dàng được chuyển đổi thành khoảng cách euclide và ngược lại (xem thêm ở đây ).

Hệ số hiệp phương sai và tương quan Pearson các sản phẩm vô hướng. Nếu bạn căn giữa dữ liệu đa biến của mình (sao cho gốc tọa độ ở giữa đám mây điểm) thì bình thường của là phương sai của các vectơ (không phải là biến X và Y trên pic ở trên), trong khi cho dữ liệu trung tâm là Pearson ; vì vậy, một sản phẩm vô hướng là hiệp phương sai. [Một ghi chú bên. Nếu bạn đang nghĩ ngay đến hiệp phương sai / tương quan như giữa các biến , không phải các điểm dữ liệu, bạn có thể hỏi liệu có thể vẽ các biến thành các vectơ như trên pic không. Có, có thể, nó được gọi là " không gian chủ đềh2cosϕrσ1σ2r12"cách biểu diễn. Định lý Cosine vẫn đúng bất kể cái gì được coi là" vectơ "trong trường hợp này - điểm dữ liệu hoặc tính năng dữ liệu.]

Bất cứ khi nào chúng tôi có một ma trận tương đồng với 1 trên đường chéo - có nghĩa là, với tất cả các 's thiết lập để 1, chúng tôi tin / hy vọng rằng sự giống nhau là một sản phẩm vô hướng Euclide , chúng ta có thể chuyển nó sang khoảng cách Euclide bình nếu chúng ta cần nó (ví dụ, để thực hiện phân cụm hoặc MDS như vậy đòi hỏi khoảng cách và các euclid đáng mong muốn). Vì, theo những gì xuất phát từ công thức định lý cosin ở trên, là bình phương euclid . Tất nhiên bạn có thể bỏ yếu tố nếu phân tích của bạn không cần nó và chuyển đổi theo công thứchsd2=2(1s)d2d2=1s. Như một ví dụ thường gặp, các công thức này được sử dụng để chuyển Pearson thành khoảng cách euclide. (Cũng xem phần này và toàn bộ chủ đề ở đó đặt câu hỏi về một số công thức để chuyển thành khoảng cách.)rr

Ngay phía trên tôi đã nói nếu "chúng tôi tin / mong đợi điều đó ...". Bạn có thể kiểm tra và chắc chắn rằng sự giống nhau ma trận - một trong những đặc biệt trong tầm tay - hình học "OK" ma trận sản phẩm vô hướng nếu ma trận không có giá trị riêng tiêu cực. Nhưng nếu nó có đó, nó sau đó có nghĩa là không phải là sản phẩm vô hướng đúng kể từ khi có một số mức độ hình học không hội tụ hoặc trong 's hoặc trong ' s rằng 'ẩn' đằng sau những ma trận. Có nhiều cách để cố gắng "chữa" một ma trận như vậy trước khi biến nó thành khoảng cách euclide.sshd

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.