Có kho chứa hơn triệu tài liệu
Đối với một tài liệu nhất định muốn tìm các tài liệu tương tự bằng cosine như trong mô hình không gian vectơ
Tất cả tf đã được chuẩn hóa bằng tần số tăng, để ngăn chặn sự thiên vị đối với các tài liệu dài hơn như trong tf-idf này :
Có tính toán trước tất cả
Có các giá trị cho mẫu số được tính toán trước
Vì vậy, với 1 cho cần phải đạt hơn 1 triệu
Có ngưỡng 0,6 cosin cho độ tương tự
Tôi có thể quan sát điều đó cho một có một phạm vi khá hẹp của cho cosin 0,6
Ví dụ trong một lần tìm kiếm tương tự với cosin 0,6 và của 7,7631 rồi trong phạm vi từ 7.0867 đến 8.839
Trong trường hợp nằm ngoài ngưỡng của cosin 0,6 trong khoảng từ 0,7223 đến 89,395
Điều này là với chuẩn hóa tài liệu tf tiêu chuẩn
Nó đang xem xét RẤT NHIỀU không có cơ hội là một trận đấu cosin 0,6
Cuối cùng câu hỏi:
Cho một và cosin của> = 0,6 làm thế nào có thể xác định phạm vi của có cơ hội không?
Mà Tôi có thể loại bỏ một cách an toàn?
Tôi cũng biết số lượng thuật ngữ trong và nếu có phạm vi đếm hạn.
Qua thử nghiệm
và | | d 2 | | < | | d 1 | | / .8
có vẻ an toàn nhưng hy vọng có phạm vi được chứng minh là an toàn
Tạo một số trường hợp thử nghiệm với một số thuật ngữ rất độc đáo, một số không quá độc đáo và một số phổ biến. Chắc chắn bạn có thể lấy thuật ngữ độc đáo nhất và tăng tần suất đó trong so sánh. Tử số sẽ (chấm sản phẩm) đi lên và do đó sẽ | | so sánh | | và sẽ nhận được một cosin rất gần với 1.
Loại liên quan và KHÔNG phải là câu hỏi.
Tôi cũng đang sử dụng tf-idf để nhóm tài liệu thành các nhóm. Các cơ sở khách hàng tôi đang bán được sử dụng gần các nhóm song công. Ở đó tôi đang thực hiện một cách tiếp cận liên quan trong tôi có vẻ như là số lượng thuật ngữ nhỏ nhất và đánh giá nó so với số lượng lên đến 3x. Vì vậy, một số lượng hạn 10 nhìn vào 10 đến 30 (4-9 đã bắn vào lúc 10). Ở đây tôi có thể đủ khả năng để bỏ lỡ một cái đã nhặt nó trong một cái khác. Tôi đã hoàn thành 10% và tỷ lệ lớn nhất là 1,8.
Hãy xác định những sai sót trong phân tích này
Như ra nhọn bởi AN6U5 có một lỗ hổng trong phân tích này
Nó không còn là một cosin nếu tài liệu được chuẩn hóa trên trọng
Và như ra nhọn Matthew cũng không thể kết luận d1⋅d2≤d1⋅d1
Tôi vẫn hy vọng cho một cái gì đó để cung cấp cho tôi một khó ràng buộc nhưng người mà dường như biết công cụ này đang nói với tôi không
tôi không muốn thay đổi câu hỏi vì vậy chỉ cần bỏ qua điều này
tôi sẽ làm một số phân tích và có thể gửi một câu hỏi riêng về tài liệu bình thường
đối với Mục đích của câu hỏi này giả sử tài liệu được chuẩn hóa trên raw tf
Xin lỗi nhưng tôi không tốt với những gì từng được sử dụng để đánh dấu các phương trình
Vì vậy, trong ký hiệu của tôi
| | d1 || = sqrt (tổng (w1 x w1))
d1 dot d2 = sum (w1 X w2)
Giả sử d1 là tài liệu ngắn hơn
D1 dot d2 tốt nhất có thể đạt được là d1 dot d1
Nếu d1 kết hôn 100 paul 20
Và d2 kết hôn 100 paul 20 peter 1
Bình thường
d1 kết hôn 1 paul 1/5
d2 kết hôn 1 paul 1/5 peter 1/100
Rõ ràng kết hôn và paul có cùng idf trong cả hai tài liệu
D1 dot d2 tốt nhất có thể là d1 dot d1
Điểm phù hợp tối đa có thể với d1 là d1
cos = d1 dot d1 / | | d1 | | | | d2 | |
bình phương cả hai cạnh
cos X cos = (d1 dot d1) X (d1 dot d1) / ((d1 dot d1) X (d2 dot d2)) cos X cos = (d1 dot d1) / (d2 dot d2)
lấy hình vuông gốc của cả hai bên
cos = | | d1 | | / | | d2 | |
là | | d2 | | không bị ràng buộc bởi cos?
Nếu tôi chỉ sử dụng | | d2 | | > = cos | | d1 | | và | | d2 | | <= | | d1 | | / cos Tôi nhận được tốc độ tính toán tôi cần