Lúc đó tôi đang đọc sách:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#DefDef
Nhưng tôi dường như không thể hiểu chính xác tại sao công thức được xây dựng theo cách của nó.
Những gì tôi làm Hiểu:
iDF ở một mức độ nào đó sẽ đo tần suất xuất hiện của một thuật ngữ S trong mỗi tài liệu, giảm giá trị vì thuật ngữ này xuất hiện thường xuyên hơn.
Từ quan điểm đó
Hơn nữa tần số hạn có thể được mô tả đúng như
Vậy thì biện pháp
theo một cách nào đó tỷ lệ thuận với tần suất xuất hiện của một thuật ngữ trong một tài liệu nhất định và mức độ duy nhất của thuật ngữ đó đối với tập hợp các tài liệu.
Những gì tôi không hiểu
Nhưng công thức đưa ra mô tả nó như là
Tôi muốn hiểu sự cần thiết của logarit được mô tả trong định nghĩa. Giống như, tại sao họ ở đó? Họ nhấn mạnh khía cạnh nào?