Sự khác biệt giữa tf-idf và tf với Rừng ngẫu nhiên


8

Tôi đang giải quyết vấn đề phân loại văn bản bằng cách sử dụng Rừng ngẫu nhiên làm phân loại và cách tiếp cận từ ngữ. Tôi đang sử dụng triển khai cơ bản của Rừng ngẫu nhiên (hiện diện trong scikit), điều này tạo ra một điều kiện nhị phân trên một biến duy nhất ở mỗi lần phân tách. Vì điều này, có sự khác biệt giữa việc sử dụng các tính năng tf (thuật ngữ tần số) đơn giản. trong đó mỗi từ có trọng số liên quan đại diện cho số lần xuất hiện trong tài liệu hoặc tf-idf (tần số thuật ngữ * tần số tài liệu nghịch đảo), trong đó tần số thuật ngữ cũng được nhân với một giá trị đại diện cho tỷ lệ giữa tổng số tài liệu và số lượng tài liệu có chứa từ)?

Theo tôi, không nên có bất kỳ sự khác biệt nào giữa hai cách tiếp cận này, bởi vì sự khác biệt duy nhất là yếu tố tỷ lệ trên mỗi tính năng, nhưng vì việc phân tách được thực hiện ở cấp độ của các tính năng đơn lẻ nên điều này không tạo ra sự khác biệt.

Tôi có đúng trong lý luận của tôi?


Tại sao không thử cả hai cách tiếp cận trên một tập mẫu nhỏ và xem có sự khác biệt nào không?
Charlie Greenbacker

Câu trả lời:


7

Cây quyết định (và do đó Rừng ngẫu nhiên) không nhạy cảm với các biến đổi đơn điệu của các tính năng đầu vào.

Vì nhân với cùng một yếu tố là một phép biến đổi đơn điệu, tôi cho rằng đối với Rừng ngẫu nhiên thực sự không có sự khác biệt.

Tuy nhiên, cuối cùng bạn có thể cân nhắc sử dụng các trình phân loại khác không có thuộc tính này, do đó, vẫn có thể sử dụng toàn bộ TF * IDF.


1
Tôi chỉ cố gắng tìm hiểu xem lý luận của tôi có đúng không, vì vậy tôi sẽ tiếp tục sử dụng Rừng ngẫu nhiên, cảm ơn vì sự giúp đỡ của bạn!
papafe
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.