Tại sao thêm một trong tần số tài liệu nghịch đảo?


9

Sách giáo khoa của tôi liệt kê idf là ở đâutôiog(1+Nnt)

  • N : Số lượng tài liệu
  • nt : Số tài liệu có chứa thuật ngữt

Wikipedia liệt kê công thức này dưới dạng phiên bản được làm mịn của thực tế . Điều đó tôi hiểu: nó nằm trong khoảng từ đến có vẻ trực quan. Nhưng chuyển từ sang có vẻ rất kỳ lạ ... Tôi biết một chút về làm mịn từ mô hình ngôn ngữ nhưng ở đó bạn sẽ thêm một cái gì đó vào tử số cũng như trong mẫu số vì bạn lo lắng về khối lượng xác suất. Nhưng chỉ thêm không có ý nghĩa với tôi. Chúng ta đang cố gắng đạt được điều gì ở đây?tôiog(Nnt)tôiog(NN)= =0
tôiog(1+Nnt)1tôiog(1+1)
1


có liên quan, nhưng không phải là một bản sao: stats.stackexchange.com/questions/152182/ trên
Sycorax nói rằng

Làm mịn chính xác sẽ là
đăng nhập(N(1+nt))
ashishpatel.co.in

Câu trả lời:


7

Như bạn sẽ thấy chỉ ra rằng tf-idf được thảo luận ở nơi khác , không có công thức duy nhất nào được thống nhất để tính toán tf-idf hoặc thậm chí (như trong câu hỏi của bạn) idf . Mục đích của việc là để thực hiện một trong hai mục tiêu: a) để phân chia tránh bằng zero , như khi một xuất hiện hạn không có tài liệu, mặc dù điều này sẽ không xảy ra trong một cách tiếp cận đúng "túi của chữ", hoặc b) để đặt giới hạn dưới để tránh một thuật ngữ được đặt trọng số 0 chỉ vì nó xuất hiện trong tất cả các tài liệu.+1

Tôi thực sự chưa bao giờ thấy công thức , mặc dù bạn đề cập đến một cuốn sách giáo khoa. Nhưng mục đích sẽ là đặt giới hạn dưới củalog(2)thay vì 0, như bạn giải thích chính xác. Tôi đã thấy1 +log(Nlog(1+Nnt)log(2)log(Nnt), đặt giới hạn dưới của 1. Tính toán được sử dụng phổ biến nhất dường như là, như trong Manning, Christopher D, Mitchhakar Raghavan và Hinrich Schütze (2008)Giới thiệu về Truy xuất thông tin, Nhà xuất bản Đại học Cambridge, p118 hoặcWikipedia(dựa trên các nguồn tương tự).log(Nnt)

k+tôiog(N/S)k,S0,1S1+nt= =1N

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.