Bag-of-Words for Phân loại văn bản: Tại sao không chỉ sử dụng tần số từ thay vì TFIDF?

24

Một cách tiếp cận phổ biến để phân loại văn bản là đào tạo một trình phân loại khỏi 'túi từ'. Người dùng lấy văn bản để được phân loại và đếm tần số của các từ trong mỗi đối tượng, theo sau là một số cách cắt xén để giữ cho ma trận kết quả có kích thước có thể quản lý được.

Thông thường, tôi thấy người dùng xây dựng vector tính năng của họ bằng TFIDF. Nói cách khác, tần số văn bản được ghi chú ở trên bị giảm trọng lượng bởi tần số của các từ trong kho văn bản. Tôi thấy lý do tại sao TFIDF sẽ hữu ích cho việc chọn từ 'phân biệt nhất' của một tài liệu nhất định để nói, hiển thị cho nhà phân tích con người. Nhưng trong trường hợp phân loại văn bản bằng cách sử dụng các kỹ thuật ML được giám sát tiêu chuẩn, tại sao lại phải giảm cân bằng tần số của tài liệu trong kho? Người học sẽ không quyết định tầm quan trọng của việc gán cho từng từ / tổ hợp từ? Tôi sẽ biết ơn những suy nghĩ của bạn về giá trị mà IDF bổ sung, nếu có.

machine-learning classification text-mining

— shf8888
nguồn

29

Câu trả lời rất đơn giản: TF-IDF có thể đạt được kết quả tốt hơn tần số thuật ngữ đơn giản khi kết hợp với một số phương pháp được giám sát.

Ví dụ kinh điển đang sử dụng độ tương tự cosine như một phép đo độ tương tự giữa các tài liệu. Lấy cosin của góc giữa biểu diễn vectơ TF-IDF của tài liệu có thể truy xuất thành công các tài liệu tương tự có liên quan với độ chính xác cao hơn so với TF.

Điều này là do IDF giảm trọng số cho các từ phổ biến và làm nổi bật các từ không phổ biến trong tài liệu. Hầu hết các bài báo không phải là về đà điểu, vì vậy một bài báo có chứa "đà điểu" là không bình thường, và chúng tôi muốn biết rằng khi cố gắng tìm tài liệu tương tự.

Nhưng trong trường hợp phân loại văn bản bằng cách sử dụng các kỹ thuật ML được giám sát tiêu chuẩn, tại sao lại phải giảm cân bằng tần số của tài liệu trong kho? Người học sẽ không quyết định tầm quan trọng của việc gán cho từng từ / tổ hợp từ?

$x$ $y$ $x$ $y$ $y$ ), sau đó chúng tôi đã thực hiện nhiệm vụ dễ dàng hơn nhiều cho bản thân và máy tính làm việc quá sức của chúng tôi! Tôi nghĩ rằng đây là một thành phần được đánh giá thấp của lĩnh vực này - mọi người dành nhiều thời gian nghiên cứu và xem xét các thuật toán vì chúng độc lập với miền, nhưng biết thêm về dữ liệu của bạn và vấn đề bạn đang cố gắng giải quyết có thể đề xuất các đường dẫn đến cải thiện việc thu thập dữ liệu hoặc biểu diễn dữ liệu giúp cho công việc trở nên dễ dàng hơn nhiều - và dễ dàng đến mức một mô hình tinh vi trang trí công phu là không cần thiết.

Một số tài nguyên có thể được tìm thấy ở đây , mà tôi sao chép để thuận tiện.

K. Sparck Jones. "Một giải thích thống kê về tính đặc hiệu của thuật ngữ và ứng dụng của nó trong truy xuất". Tạp chí Tài liệu, 28 (1). Năm 1972.
G. Salton và Edward Fox và Wu Harry Wu. "Truy xuất thông tin Boolean mở rộng". Truyền thông của ACM, 26 (11). 1983.
G. Salton và MJ McGill. "Giới thiệu về phục hồi thông tin hiện đại". 1983
G. Salton và C. Buckley. "Phương pháp tiếp cận trọng số trong truy xuất văn bản tự động". Xử lý và quản lý thông tin, 24 (5). 1988.
H. Wu và R. Luk và K. Wong và K. Kwok. "Giải thích các trọng số của TF-IDF khi đưa ra các quyết định liên quan". Giao dịch ACM trên Hệ thống thông tin, 26 (3). 2008.

— Sycorax nói phục hồi Monica
nguồn

Cảm ơn bạn đã lưu ý @ user777! Cảm kích điều đó. Tôi đang xem những bài báo đó. Có các loại thuật toán chung mà chúng tôi mong muốn được hưởng lợi từ TFIDF so với chỉ TF không?

— shf8888

@ shf8888 Tôi không chắc có lớp học chung nào tốt hơn không. Điều đó là có thể! Theo như tôi biết, phản xạ đầu tiên của một người làm nhiệm vụ NLP là thử TF và sau đó là TF-IDF làm phương pháp cơ bản trước khi chuyển sang mô hình phức tạp hơn. Bằng cách này, bạn có thể định lượng số lượng hiệu suất bạn mua cho nỗ lực tăng thêm bằng cách sử dụng các mô hình ngày càng phức tạp.

— Sycorax nói phục hồi Monica

Cảm ơn rất nhiều! Chà, câu trả lời rằng "TFIDF theo kinh nghiệm có thể cung cấp hiệu suất tăng hơn TF với một số thuật toán" (nếu bạn không phản đối tóm tắt một câu của tôi) chắc chắn là tốt theo quan điểm của tôi. Cảm ơn bạn đã tham khảo.

— shf8888

2

Trong trường hợp điển hình, bạn có thể có nhiều tài liệu trong kho của mình hơn các tài liệu được dán nhãn. Điều đó có nghĩa là IDF có thể được tính toán chính xác và hoàn toàn hơn nhiều khi sử dụng toàn bộ kho văn bản.

Tiếp theo hãy xem xét trường hợp tử thi mà bạn có thể có trong tay cho đến nay tất cả được dán nhãn hoặc tập hợp con được gắn nhãn là "đủ lớn". Trong trường hợp này, số lần lặp cần thiết cho đào tạo có thể có thể nhỏ hơn khi sử dụng TfIDF vì thuật toán học tập sẽ không cần phải học nhiều như vậy.

Cuối cùng, trong trường hợp tương tự, bạn cũng có thể chỉ cung cấp tf hoặc tf và idf riêng biệt (hoặc thậm chí bao gồm cả tfidf). Tôi nghĩ rằng điều này có khả năng có thể tạo ra kết quả tốt hơn, ví dụ, khi sử dụng một hàm kernel tinh vi.

— shuri
nguồn