Tại sao Lucene IDF có +1 dường như bổ sung?


8

Từ các tài liệu Lucene

IDF= =1+đăng nhập(numDocsdocFreq+1)

Trong các tham chiếu khác (ví dụ: wikipedia ), IDF thường được tính là hoặc để tránh lặn bằng 0.đăng nhập(numDocsdocFreq)đăng nhập(numDocsdocFreq+1)

Tôi cũng nhận ra Lucene sử dụng thay vì để tính TF, nhưng tôi hiểu rằng đây chỉ là một chuyển đổi ưa thích, có lẽ để tránh .xđăng nhập(x)đăng nhập(0)

Bất cứ ai cũng có thể giải thích rằng +1 bổ sung trong thuật ngữ IDF?

Câu trả lời:


9

Tất cả các sơ đồ trọng số TF-IDF chỉ là phương pháp heuristic để tăng thêm trọng lượng cho các điều khoản bất thường. Tôi không chắc chắn rằng các lược đồ TF-IDF thường có cơ sở thống kê vững chắc đằng sau chúng (xem tài liệu tham khảo 1), ngoại trừ quan sát rằng TF-IDF có xu hướng tạo ra kết quả tốt hơn so với số từ đơn giản. Vì chất lượng của kết quả là lý do chính (duy nhất?) Cho TF-IDF ngay từ đầu, nên người ta có thể lập luận rằng thử phương pháp của bạn có và không có +1 và chọn phương pháp tốt nhất sẽ ổn.

Nếu tôi đang đọc sckit này tìm hiểu chính xác chủ đề, có vẻ như bạn không phải là người đầu tiên đưa ra một câu hỏi tương tự về việc thêm 1 vào điểm số IDF. Sự đồng thuận về chủ đề đó là +1 cũng là hành vi không chuẩn. Tôi chỉ lướt qua nó, nhưng chủ đề không xuất hiện có chứa sự chứng thực hay biện minh cho +1.

ecc+đăng nhập(numDocsdocFreq + 1)c

tần số hạn×IDF

  1. John Lafferty và Guy Lebanon. " Hạt nhân khuếch tán trên các biểu tượng thống kê ." Tạp chí học máy. 2005.

Cảm ơn cho tốt thông qua câu trả lời. Tôi đã hy vọng có được một ý tưởng tốt hơn về lý do tại sao giới hạn dưới 1 cho IDF là hữu ích. Thật thú vị khi những người khác có cùng một câu hỏi, không có câu trả lời thực sự.
Greg Dean

@GregDean Tôi sợ rằng lời giải thích này là tốt nhất mà tôi có thể quản lý. Tôi đã thực hiện một số nghiên cứu nữa để thử và tìm ra thứ gì đó dứt khoát hơn, nhưng không gặp nhiều may mắn.
Sycorax nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.