Câu trả lời rất đơn giản: TF-IDF có thể đạt được kết quả tốt hơn tần số thuật ngữ đơn giản khi kết hợp với một số phương pháp được giám sát.
Ví dụ kinh điển đang sử dụng độ tương tự cosine như một phép đo độ tương tự giữa các tài liệu. Lấy cosin của góc giữa biểu diễn vectơ TF-IDF của tài liệu có thể truy xuất thành công các tài liệu tương tự có liên quan với độ chính xác cao hơn so với TF.
Điều này là do IDF giảm trọng số cho các từ phổ biến và làm nổi bật các từ không phổ biến trong tài liệu. Hầu hết các bài báo không phải là về đà điểu, vì vậy một bài báo có chứa "đà điểu" là không bình thường, và chúng tôi muốn biết rằng khi cố gắng tìm tài liệu tương tự.
Nhưng trong trường hợp phân loại văn bản bằng cách sử dụng các kỹ thuật ML được giám sát tiêu chuẩn, tại sao lại phải giảm cân bằng tần số của tài liệu trong kho? Người học sẽ không quyết định tầm quan trọng của việc gán cho từng từ / tổ hợp từ?
xyxyy), sau đó chúng tôi đã thực hiện nhiệm vụ dễ dàng hơn nhiều cho bản thân và máy tính làm việc quá sức của chúng tôi! Tôi nghĩ rằng đây là một thành phần được đánh giá thấp của lĩnh vực này - mọi người dành nhiều thời gian nghiên cứu và xem xét các thuật toán vì chúng độc lập với miền, nhưng biết thêm về dữ liệu của bạn và vấn đề bạn đang cố gắng giải quyết có thể đề xuất các đường dẫn đến cải thiện việc thu thập dữ liệu hoặc biểu diễn dữ liệu giúp cho công việc trở nên dễ dàng hơn nhiều - và dễ dàng đến mức một mô hình tinh vi trang trí công phu là không cần thiết.
Một số tài nguyên có thể được tìm thấy ở đây , mà tôi sao chép để thuận tiện.
K. Sparck Jones. "Một giải thích thống kê về tính đặc hiệu của thuật ngữ và ứng dụng của nó trong truy xuất". Tạp chí Tài liệu, 28 (1). Năm 1972.
G. Salton và Edward Fox và Wu Harry Wu. "Truy xuất thông tin Boolean mở rộng". Truyền thông của ACM, 26 (11). 1983.
G. Salton và MJ McGill. "Giới thiệu về phục hồi thông tin hiện đại". 1983
G. Salton và C. Buckley. "Phương pháp tiếp cận trọng số trong truy xuất văn bản tự động". Xử lý và quản lý thông tin, 24 (5). 1988.
H. Wu và R. Luk và K. Wong và K. Kwok. "Giải thích các trọng số của TF-IDF khi đưa ra các quyết định liên quan". Giao dịch ACM trên Hệ thống thông tin, 26 (3). 2008.