Như bạn sẽ thấy chỉ ra rằng tf-idf được thảo luận ở nơi khác , không có công thức duy nhất nào được thống nhất để tính toán tf-idf hoặc thậm chí (như trong câu hỏi của bạn) idf . Mục đích của việc là để thực hiện một trong hai mục tiêu: a) để phân chia tránh bằng zero , như khi một xuất hiện hạn không có tài liệu, mặc dù điều này sẽ không xảy ra trong một cách tiếp cận đúng "túi của chữ", hoặc b) để đặt giới hạn dưới để tránh một thuật ngữ được đặt trọng số 0 chỉ vì nó xuất hiện trong tất cả các tài liệu.+ 1
Tôi thực sự chưa bao giờ thấy công thức , mặc dù bạn đề cập đến một cuốn sách giáo khoa. Nhưng mục đích sẽ là đặt giới hạn dưới củalog(2)thay vì 0, như bạn giải thích chính xác. Tôi đã thấy1 +log(Nl o g( 1 + Nnt)l o g( 2 )l o g( Nnt), đặt giới hạn dưới của 1. Tính toán được sử dụng phổ biến nhất dường như là, như trong Manning, Christopher D, Mitchhakar Raghavan và Hinrich Schütze (2008)Giới thiệu về Truy xuất thông tin, Nhà xuất bản Đại học Cambridge, p118 hoặcWikipedia(dựa trên các nguồn tương tự).l o g( Nnt)
∞k + l o g( N/ s)k , s ∈ 0 , 1S→ ∞1 + nt= 1N→ ∞