Sự khác biệt giữa tf-idf và tf với Rừng ngẫu nhiên

Tôi đang giải quyết vấn đề phân loại văn bản bằng cách sử dụng Rừng ngẫu nhiên làm phân loại và cách tiếp cận từ ngữ. Tôi đang sử dụng triển khai cơ bản của Rừng ngẫu nhiên (hiện diện trong scikit), điều này tạo ra một điều kiện nhị phân trên một biến duy nhất ở mỗi lần phân tách. Vì điều này, có sự khác biệt giữa việc sử dụng các tính năng tf (thuật ngữ tần số) đơn giản. trong đó mỗi từ có trọng số liên quan đại diện cho số lần xuất hiện trong tài liệu hoặc tf-idf (tần số thuật ngữ * tần số tài liệu nghịch đảo), trong đó tần số thuật ngữ cũng được nhân với một giá trị đại diện cho tỷ lệ giữa tổng số tài liệu và số lượng tài liệu có chứa từ)?

Theo tôi, không nên có bất kỳ sự khác biệt nào giữa hai cách tiếp cận này, bởi vì sự khác biệt duy nhất là yếu tố tỷ lệ trên mỗi tính năng, nhưng vì việc phân tách được thực hiện ở cấp độ của các tính năng đơn lẻ nên điều này không tạo ra sự khác biệt.

Tôi có đúng trong lý luận của tôi?

classification text-mining random-forest

— an toàn
nguồn

Tại sao không thử cả hai cách tiếp cận trên một tập mẫu nhỏ và xem có sự khác biệt nào không?

— Charlie Greenbacker

Cây quyết định (và do đó Rừng ngẫu nhiên) không nhạy cảm với các biến đổi đơn điệu của các tính năng đầu vào.

Vì nhân với cùng một yếu tố là một phép biến đổi đơn điệu, tôi cho rằng đối với Rừng ngẫu nhiên thực sự không có sự khác biệt.

Tuy nhiên, cuối cùng bạn có thể cân nhắc sử dụng các trình phân loại khác không có thuộc tính này, do đó, vẫn có thể sử dụng toàn bộ TF * IDF.

— Alexey Grigorev
nguồn

Tôi chỉ cố gắng tìm hiểu xem lý luận của tôi có đúng không, vì vậy tôi sẽ tiếp tục sử dụng Rừng ngẫu nhiên, cảm ơn vì sự giúp đỡ của bạn!

— papafe