Hiểu cách sử dụng logarit trong logarit TF-IDF

Lúc đó tôi đang đọc sách:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#DefDef

Nhưng tôi dường như không thể hiểu chính xác tại sao công thức được xây dựng theo cách của nó.

Những gì tôi làm Hiểu:

iDF ở một mức độ nào đó sẽ đo tần suất xuất hiện của một thuật ngữ S trong mỗi tài liệu, giảm giá trị vì thuật ngữ này xuất hiện thường xuyên hơn.

Từ quan điểm đó

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Hơn nữa tần số hạn có thể được mô tả đúng như

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Vậy thì biện pháp

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

theo một cách nào đó tỷ lệ thuận với tần suất xuất hiện của một thuật ngữ trong một tài liệu nhất định và mức độ duy nhất của thuật ngữ đó đối với tập hợp các tài liệu.

Những gì tôi không hiểu

Nhưng công thức đưa ra mô tả nó như là

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Tôi muốn hiểu sự cần thiết của logarit được mô tả trong định nghĩa. Giống như, tại sao họ ở đó? Họ nhấn mạnh khía cạnh nào?

— frogeyedpeas
nguồn

$P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Như bài viết trên Wikipedia mà bạn liên kết lưu ý, sự biện minh của TF-IDF vẫn chưa được thiết lập tốt; đó là / là một heuristic mà chúng tôi muốn thực hiện nghiêm ngặt, không phải là một khái niệm nghiêm ngặt mà chúng tôi muốn chuyển sang thế giới thực. Như được đề cập bởi @ Anony-Mousse là một người đọc rất tốt về vấn đề này là Tần suất hiểu tài liệu nghịch đảo của Robertson : Về các lập luận lý thuyết cho IDF . Nó đưa ra một cái nhìn tổng quan về toàn bộ khuôn khổ và cố gắng đưa ra phương pháp luận TF-IDF cho trọng số phù hợp của các thuật ngữ tìm kiếm.

— usεr11852
nguồn

Một số biện minh của TF-IDF có thể được tìm thấy trong "Một nghiên cứu chính thức về chẩn đoán truy xuất thông tin.", 2004 bởi Fang, Hui et al ( pdf ).

— Alexey Grigorev

Tôi nghĩ rằng đây là tài liệu tham khảo tốt hơn cho các biện minh của TF-IDF: Robertson, S. (2004). "Hiểu tần số tài liệu nghịch đảo: Về các đối số lý thuyết cho IDF". Tạp chí Tài liệu 60 (5): 503 trừ520.

— Có QUIT - Anony-Mousse 16/07/2015

Cảm ơn bạn đã bình luận cho các quý ông (và đặc biệt cảm ơn Alexey vì đã sửa lỗi \log, tôi liên tục quên họ); +1 cho cả hai. Tôi đã thấy bài báo của Robertson và dự tính thêm nó; Nó là một bài đọc thực sự tốt, tôi sẽ thêm nó trong cơ thể chính.

— usεr11852 16/07/2015

@ Anony-Mousse (pdf)

— Walrus the Cat

Tôi muốn biết tại sao "số lần xuất hiện tối đa cho bất kỳ chuỗi Q nào trong tài liệu D" được sử dụng thay vì number of occurrences for all strings in document D. Tại sao chúng ta muốn đếm từ phổ biến nhất thay vì đếm tất cả các từ?

— Xeoncross