Giống hệt ý nghĩa, rằng nó sẽ tạo ra kết quả giống hệt nhau cho một sự tương đồng giữa bảng xếp hạng một vector u và một tập hợp các vectơ V .
Tôi có một mô hình không gian vectơ có thước đo khoảng cách (khoảng cách euclide, độ tương tự cosin) và kỹ thuật chuẩn hóa (none, l1, l2) làm tham số. Theo hiểu biết của tôi, kết quả từ các cài đặt [cosine, none] phải giống hệt nhau hoặc ít nhất là thực sự thực sự giống với [euclidean, l2], nhưng chúng không như vậy.
Thực sự có một cơ hội tốt hệ thống vẫn còn lỗi - hoặc tôi có điều gì sai nghiêm trọng về vectơ?
chỉnh sửa: Tôi quên đề cập rằng các vectơ được dựa trên số lượng từ từ tài liệu trong một kho văn bản. Đưa ra một tài liệu truy vấn (mà tôi cũng biến đổi trong một vectơ đếm từ), tôi muốn tìm tài liệu từ kho văn bản của mình giống với nó nhất.
Chỉ cần tính toán khoảng cách euclide của chúng là một thước đo thẳng, nhưng trong loại nhiệm vụ tôi làm, độ tương tự cosin thường được ưa thích như một chỉ báo tương tự, bởi vì các vectơ chỉ khác nhau về chiều dài vẫn được coi là bằng nhau. Tài liệu có độ tương tự khoảng cách / cosine nhỏ nhất được coi là giống nhau nhất.