Tại sao thêm một trong tần số tài liệu nghịch đảo?

Sách giáo khoa của tôi liệt kê idf là ở đâu $log(1+\frac{N}{n_t})$

$N$ : Số lượng tài liệu
$n_t$ : Số tài liệu có chứa thuật ngữ $t$

Wikipedia liệt kê công thức này dưới dạng phiên bản được làm mịn của thực tế . Điều đó tôi hiểu: nó nằm trong khoảng từ đến có vẻ trực quan. Nhưng chuyển từ sang có vẻ rất kỳ lạ ... Tôi biết một chút về làm mịn từ mô hình ngôn ngữ nhưng ở đó bạn sẽ thêm một cái gì đó vào tử số cũng như trong mẫu số vì bạn lo lắng về khối lượng xác suất. Nhưng chỉ thêm không có ý nghĩa với tôi. Chúng ta đang cố gắng đạt được điều gì ở đây? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing

— người dùng2740
nguồn

có liên quan, nhưng không phải là một bản sao: stats.stackexchange.com/questions/152182/ trên

— Sycorax nói rằng

Làm mịn chính xác sẽ là

đăng nhập (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

— ashishpatel.co.in

Như bạn sẽ thấy chỉ ra rằng tf-idf được thảo luận ở nơi khác , không có công thức duy nhất nào được thống nhất để tính toán tf-idf hoặc thậm chí (như trong câu hỏi của bạn) idf . Mục đích của việc là để thực hiện một trong hai mục tiêu: a) để phân chia tránh bằng zero , như khi một xuất hiện hạn không có tài liệu, mặc dù điều này sẽ không xảy ra trong một cách tiếp cận đúng "túi của chữ", hoặc b) để đặt giới hạn dưới để tránh một thuật ngữ được đặt trọng số 0 chỉ vì nó xuất hiện trong tất cả các tài liệu. $+ 1$

Tôi thực sự chưa bao giờ thấy công thức , mặc dù bạn đề cập đến một cuốn sách giáo khoa. Nhưng mục đích sẽ là đặt giới hạn dưới củathay vì 0, như bạn giải thích chính xác. Tôi đã thấy1 + $log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ , đặt giới hạn dưới của 1. Tính toán được sử dụng phổ biến nhất dường như là, như trong Manning, Christopher D, Mitchhakar Raghavan và Hinrich Schütze (2008)Giới thiệu về Truy xuất thông tin, Nhà xuất bản Đại học Cambridge, p118 hoặcWikipedia(dựa trên các nguồn tương tự). $log(\frac{N}{n_t})$

$\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

— Ken Benoit
nguồn