Tôi đang giải quyết vấn đề phân loại văn bản bằng cách sử dụng Rừng ngẫu nhiên làm phân loại và cách tiếp cận từ ngữ. Tôi đang sử dụng triển khai cơ bản của Rừng ngẫu nhiên (hiện diện trong scikit), điều này tạo ra một điều kiện nhị phân trên một biến duy nhất ở mỗi lần phân tách. Vì điều này, có sự khác biệt giữa việc sử dụng các tính năng tf (thuật ngữ tần số) đơn giản. trong đó mỗi từ có trọng số liên quan đại diện cho số lần xuất hiện trong tài liệu hoặc tf-idf (tần số thuật ngữ * tần số tài liệu nghịch đảo), trong đó tần số thuật ngữ cũng được nhân với một giá trị đại diện cho tỷ lệ giữa tổng số tài liệu và số lượng tài liệu có chứa từ)?
Theo tôi, không nên có bất kỳ sự khác biệt nào giữa hai cách tiếp cận này, bởi vì sự khác biệt duy nhất là yếu tố tỷ lệ trên mỗi tính năng, nhưng vì việc phân tách được thực hiện ở cấp độ của các tính năng đơn lẻ nên điều này không tạo ra sự khác biệt.
Tôi có đúng trong lý luận của tôi?