Trong phân cụm dựa trên đồ thị, tại sao nên sử dụng hạt nhân Gaussian hơn là khoảng cách giữa hai điểm làm chỉ số tương tự?
Trong phân cụm dựa trên đồ thị, tại sao nên sử dụng hạt nhân Gaussian hơn là khoảng cách giữa hai điểm làm chỉ số tương tự?
Câu trả lời:
Hãy chính xác. "Khoảng cách" có rất nhiều ý nghĩa trong khoa học dữ liệu, tôi nghĩ bạn đang nói về khoảng cách Euclide .
Hạt nhân Gaussian là một hàm phi tuyến tính của khoảng cách Euclide.
Hàm kernel giảm dần theo khoảng cách và nằm trong khoảng từ 0 đến 1. Trong khoảng cách euclide, giá trị tăng theo khoảng cách. Do đó, hàm kernel là một số liệu hữu ích hơn cho các quan sát trọng số .
Thực tế là giới hạn giữa 0 và một là một thuộc tính tốt, trong khi khoảng cách tuyệt đối (nó có thể là bất cứ thứ gì) trong khoảng cách Euclide có thể gây ra sự mất ổn định và khó khăn trong việc mô hình hóa.
Khoảng cách Euclide (không có dấu âm) không phải là thước đo tương tự, đó là hàm khoảng cách. Hạt nhân gaussian là một phép đo tương tự.
Bạn có thể nghĩ hạt nhân Gaussian giống như một hàm chuẩn hóa cho khoảng cách Euclide.
Từ khoảng cách eidianidian, bạn có thể rút ra nhiều phép thuật tương tự từ các hàm nhân (đa thức, hàm mũ, Bà mẹ, tập quán ...), trong đó không có gì là tiên nghiệm tốt hơn hay kém hơn hạt nhân gaussian. Tất cả phụ thuộc vào dữ liệu của bạn và những gì bạn mong đợi.
Với một hàm nhân, bạn cũng có thể chọn bất kỳ định nghĩa nào về khoảng cách phù hợp với cảm giác của bạn: khoảng cách eidianidian có trọng số, định mức, bình thường, khoảng cách của người di chuyển trái đất ...
Bây giờ, hạt nhân gaussian với khoảng cách eidianidian là rất phổ biến vì nó khá trực quan và cung cấp các thuộc tính hữu ích như độ mịn.
Trong không gian Euclidian nơi các trục được biểu diễn bởi vectơ, không gian ba chiều, khoảng cách có thể đạt được bằng cách kết nối hai điểm và tìm độ dài của kết nối. Không gian này được sử dụng bất cứ khi nào cơ sở, mỗi hướng, là độc lập. Nói cách khác, bất cứ khi nào cần tìm khoảng cách thực, khoảng cách Euclidian có thể được sử dụng nếu các tính năng hoặc biến, trục thực sự, là độc lập. Ngược lại, bất cứ khi nào các biến tương quan, khoảng cách Euclidian không thể được sử dụng, bởi vì các trục không còn độc lập nữa. Trong những tình huống không phải là hiếm, Mahalanobis có thể được sử dụng. Hình thức của nó giống như khoảng cách Gaussian.