Độ tương tự cosine so với sản phẩm chấm là số liệu khoảng cách


41

Có vẻ như sự tương đồng cosin của hai tính năng chỉ là sản phẩm chấm của chúng được thu nhỏ bởi sản phẩm có độ lớn. Khi nào độ tương tự cosine tạo ra một thước đo khoảng cách tốt hơn so với sản phẩm chấm? Tức là sự tương đồng của sản phẩm chấm và cosine có điểm mạnh hay điểm yếu khác nhau trong các tình huống khác nhau?


Lưu ý rằng cả hai đều không phải là số liệu khoảng cách phù hợp, ngay cả khi bạn chuyển đổi chúng thành một giá trị nhỏ khi các điểm "tương tự". Nó có thể hoặc không quan trọng đối với trường hợp sử dụng của bạn.
Sean Owen

Câu trả lời:


41

Hãy suy nghĩ về mặt hình học. Sự tương đồng của Cosine chỉ quan tâm đến sự khác biệt về góc, trong khi sản phẩm chấm quan tâm đến góc và độ lớn. Nếu bạn bình thường hóa dữ liệu của mình để có cùng độ lớn, hai dữ liệu này không thể phân biệt được. Đôi khi, mong muốn bỏ qua độ lớn, do đó độ tương tự cosin là tốt, nhưng nếu độ lớn đóng vai trò, sản phẩm chấm sẽ tốt hơn như một thước đo tương tự. Lưu ý rằng cả hai không phải là "số liệu khoảng cách".


3
"Số liệu khoảng cách" thường được sử dụng như một sự đối lập của "sự tương đồng" trong văn học: khoảng cách lớn hơn, sự tương đồng nhỏ hơn, nhưng về cơ bản chúng đại diện cho cùng một ý tưởng.

1
@ffriend Ý bạn là 'không giống nhau'. Số liệu có một định nghĩa chính xác.
Ghi nhớ

8

Bạn nói đúng, sự tương tự cosine có rất nhiều điểm chung với sản phẩm chấm của vectơ. Thật vậy, nó là một sản phẩm chấm, được nhân rộng theo độ lớn. Và do tỷ lệ, nó được chuẩn hóa từ 0 đến 1. CS thích hợp hơn vì nó tính đến sự thay đổi của dữ liệu và tần số tương đối của các tính năng. Mặt khác, sản phẩm dấu chấm đơn giản là "rẻ hơn" một chút (về độ phức tạp và cách thực hiện).


Tại sao một mình sản phẩm chấm (tương đương với việc không bình thường hóa) không chiếm dữ liệu và tần suất của các tính năng? Tôi không biết rằng đây là sự khác biệt.
Sean Owen

2
Có lẽ, tôi đã không rõ ràng. Tôi đã nói về sự đa dạng dữ liệu. Ví dụ, chúng tôi có hai cặp tài liệu. Trong mỗi cặp tài liệu giống hệt nhau, nhưng tài liệu cặp 1 ngắn hơn so với tài liệu cặp 2. Và chúng tôi tính toán tương tự trong mỗi cặp. Sản phẩm chấm sẽ tạo ra các số khác nhau, mặc dù trong cả hai trường hợp, ước tính độ tương tự tối đa được dự kiến.
sobach

5

Tôi muốn thêm một chiều nữa cho các câu trả lời ở trên. Thông thường chúng tôi sử dụng sự tương tự cosine với văn bản lớn, bởi vì không nên sử dụng ma trận khoảng cách trên các đoạn dữ liệu. Và ngoài ra, nếu bạn dự định cụm của bạn sẽ rộng, bạn có xu hướng đi cùng với sự tương tự cosin vì nó nắm bắt được sự tương đồng về tổng thể.

Ví dụ: nếu bạn có các văn bản dài tối đa hai hoặc ba từ, tôi cảm thấy việc sử dụng độ tương tự cosine không đạt được độ chính xác như đạt được bằng thước đo khoảng cách.


4

Có một so sánh tuyệt vời về các số liệu tương tự dựa trên sản phẩm bên trong phổ biến ở đây .

Cụ thể, Tương tự Cosine được chuẩn hóa để nằm trong [0,1], không giống như sản phẩm chấm có thể là bất kỳ số thực nào, nhưng, như mọi người khác đang nói, điều đó sẽ yêu cầu bỏ qua độ lớn của vectơ. Cá nhân, tôi nghĩ đó là một điều tốt. Tôi nghĩ về độ lớn như một cấu trúc bên trong (bên trong vectơ) và góc giữa các vectơ như cấu trúc bên ngoài (giữa vectơ). Chúng là những thứ khác nhau và (theo tôi) thường được phân tích tốt nhất một cách riêng biệt. Tôi không thể tưởng tượng ra một tình huống mà tôi muốn tính toán các sản phẩm bên trong hơn là tính tương tự cosin và chỉ so sánh độ lớn sau đó.


"Độ tương tự Cosine được chuẩn hóa để nằm trong [0,1]" Nó vẫn có một sản phẩm chấm trong tử số, tôi nghĩ rằng phạm vi nên thay vào đó là [-1, 1]?
Kari

2

x,||x||2=x,x=1ϕx,y=cosϕϕ=arccosx,y

Trực quan, tất cả dữ liệu của bạn sống trên một quả cầu đơn vị. Sử dụng một sản phẩm chấm làm khoảng cách sẽ cho bạn một khoảng cách hợp âm, nhưng nếu bạn sử dụng khoảng cách cosin này, nó tương ứng với độ dài của đường đi giữa hai điểm trên quả cầu. Điều đó có nghĩa là, nếu bạn muốn trung bình của hai điểm, bạn nên lấy điểm ở giữa trên đường này (trắc địa) thay vì điểm giữa thu được từ 'trung bình số học / sản phẩm chấm / hình học euclide' vì điểm này không không sống trên quả cầu (do đó về cơ bản không phải là cùng một đối tượng)!


1

Như những người khác đã chỉ ra, đây không phải là "số liệu" khoảng cách, bởi vì chúng không đáp ứng các tiêu chí số liệu. Thay vào đó hãy nói "đo khoảng cách".

Dù sao, bạn đang đo lường cái gì và tại sao? Thông tin đó sẽ giúp chúng tôi đưa ra câu trả lời hữu ích hơn cho tình huống của bạn.


Tôi đã luôn tự hỏi về sự khác biệt giữa các biện pháp và số liệu. Theo chính phủ (NIST): "... Chúng tôi sử dụng thước đo cho các thuộc tính và số liệu cụ thể hoặc khách quan hơn cho các thuộc tính trừu tượng hơn, cấp cao hơn hoặc hơi chủ quan. ... Độ bền, chất lượng (như" chất lượng cao "), và hiệu quả là những thuộc tính quan trọng mà chúng tôi có một số cảm nhận nhất quán, nhưng khó xác định một cách khách quan. Vì vậy, đây là những số liệu. " Nhưng bối cảnh là công nghệ phần mềm, không phải toán học. Bạn lấy gì
ahoffer

1
Wikipedia là hữu ích hơn. khoảng cách (x, y) phải không âm; d (x, y) = 0 chỉ khi x = y; d (x, y) = d (y, x); và thỏa mãn bất đẳng thức tam giác- d (x, z) d (x, y) + d (y, z)
ahoffer

1
Đó là khá nhiều: một số liệu phải đáp ứng một số tiên đề nhất định và một biện pháp ít được xác định nghiêm ngặt.
sintax
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.