Tại sao chúng ta sử dụng hạt nhân Gaussian làm chỉ số tương tự?


7

Trong phân cụm dựa trên đồ thị, tại sao nên sử dụng hạt nhân Gaussian hơn là khoảng cách giữa hai điểm làm chỉ số tương tự?


1
Tôi có một ý tưởng rằng để có sự tương đồng, chúng tôi muốn nó nằm trong khoảng 0 và 1. Hạt nhân Gaussian thỏa mãn điều này và trọng số trở nên lớn hơn khi khoảng cách giữa hai điểm trở nên lớn hơn. Có bất kỳ lý do khác?
zfb

Tại đây bạn có thể xem video giải thích chức năng rất tốt> coursera.org/lecture/machine-learning/ mẹo
Jozani Hosein

Câu trả lời:


8

Hãy chính xác. "Khoảng cách" có rất nhiều ý nghĩa trong khoa học dữ liệu, tôi nghĩ bạn đang nói về khoảng cách Euclide .

Hạt nhân Gaussian là một hàm phi tuyến tính của khoảng cách Euclide.

nhập mô tả hình ảnh ở đây

  • Hàm kernel giảm dần theo khoảng cách và nằm trong khoảng từ 0 đến 1. Trong khoảng cách euclide, giá trị tăng theo khoảng cách. Do đó, hàm kernel là một số liệu hữu ích hơn cho các quan sát trọng số .

  • Thực tế là giới hạn giữa 0 và một là một thuộc tính tốt, trong khi khoảng cách tuyệt đối (nó có thể là bất cứ thứ gì) trong khoảng cách Euclide có thể gây ra sự mất ổn định và khó khăn trong việc mô hình hóa.

  • Khoảng cách Euclide (không có dấu âm) không phải là thước đo tương tự, đó là hàm khoảng cách. Hạt nhân gaussian là một phép đo tương tự.

  • Bạn có thể nghĩ hạt nhân Gaussian giống như một hàm chuẩn hóa cho khoảng cách Euclide.


1
Tôi cũng có một câu hỏi khác về trong biểu thức. Nó có ý nghĩa gì không? Theo tôi, tôi nghĩ nó có thể liên quan đến quy mô của cụm (ví dụ: bán kính một cụm tròn).
zfb

@zfb Đó là một tham số tỷ lệ. Mẫu số có thể được viết như một hằng số.
HelloWorld

Vậy làm thế nào tham số tỷ lệ này ảnh hưởng đến giá trị của K (x, x ') hoặc độ tương tự? Nếu nó trở nên lớn hơn, thì K (x, x ') trở nên lớn hơn, tôi có thể nói khoảng cách đang được thu nhỏ hơn? Và trong trường hợp này, chúng tôi đang xem xét phân cụm quy mô lớn (ví dụ: nếu cụm được xác định bởi vòng tròn, thì bán kính của vòng tròn phải lớn, hoặc nhiều điểm cùng nhau được xác định lại thành "điểm" tổng hợp, và sau đó gom các điểm tổng hợp đó lại, thay vì nhìn vào một điểm nhỏ hơn?
zfb

0

Từ khoảng cách eidianidian, bạn có thể rút ra nhiều phép thuật tương tự từ các hàm nhân (đa thức, hàm mũ, Bà mẹ, tập quán ...), trong đó không có gì là tiên nghiệm tốt hơn hay kém hơn hạt nhân gaussian. Tất cả phụ thuộc vào dữ liệu của bạn và những gì bạn mong đợi.

Với một hàm nhân, bạn cũng có thể chọn bất kỳ định nghĩa nào về khoảng cách phù hợp với cảm giác của bạn: khoảng cách eidianidian có trọng số, L1 định mức, L bình thường, khoảng cách của người di chuyển trái đất ...

Bây giờ, hạt nhân gaussian với khoảng cách eidianidian là rất phổ biến vì nó khá trực quan và cung cấp các thuộc tính hữu ích như độ mịn.


0

Trong không gian Euclidian nơi các trục được biểu diễn bởi Tôi,j,kvectơ, không gian ba chiều, khoảng cách có thể đạt được bằng cách kết nối hai điểm và tìm độ dài của kết nối. Không gian này được sử dụng bất cứ khi nào cơ sở, mỗi hướng, là độc lập. Nói cách khác, bất cứ khi nào cần tìm khoảng cách thực, khoảng cách Euclidian có thể được sử dụng nếu các tính năng hoặc biến, trục thực sự, là độc lập. Ngược lại, bất cứ khi nào các biến tương quan, khoảng cách Euclidian không thể được sử dụng, bởi vì các trục không còn độc lập nữa. Trong những tình huống không phải là hiếm, Mahalanobis có thể được sử dụng. Hình thức của nó giống như khoảng cách Gaussian.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.