Tất cả các sơ đồ trọng số TF-IDF chỉ là phương pháp heuristic để tăng thêm trọng lượng cho các điều khoản bất thường. Tôi không chắc chắn rằng các lược đồ TF-IDF thường có cơ sở thống kê vững chắc đằng sau chúng (xem tài liệu tham khảo 1), ngoại trừ quan sát rằng TF-IDF có xu hướng tạo ra kết quả tốt hơn so với số từ đơn giản. Vì chất lượng của kết quả là lý do chính (duy nhất?) Cho TF-IDF ngay từ đầu, nên người ta có thể lập luận rằng thử phương pháp của bạn có và không có +1 và chọn phương pháp tốt nhất sẽ ổn.
Nếu tôi đang đọc sckit này tìm hiểu chính xác chủ đề, có vẻ như bạn không phải là người đầu tiên đưa ra một câu hỏi tương tự về việc thêm 1 vào điểm số IDF. Sự đồng thuận về chủ đề đó là +1 cũng là hành vi không chuẩn. Tôi chỉ lướt qua nó, nhưng chủ đề không xuất hiện có chứa sự chứng thực hay biện minh cho +1.
ecnhật ký c +( numDocsdocFreq + 1)c
tần số kỳ hạn × IDF
- John Lafferty và Guy Lebanon. " Hạt nhân khuếch tán trên các biểu tượng thống kê ." Tạp chí học máy. 2005.