Có phải rừng ngẫu nhiên cần các biến đầu vào được thu nhỏ hoặc tập trung?


16

Các biến đầu vào của tôi có kích thước khác nhau. Một số biến là số thập phân trong khi một số là hàng trăm. Có cần thiết phải căn giữa (trừ trung bình) hoặc tỷ lệ (chia cho độ lệch chuẩn) các biến đầu vào này để làm cho dữ liệu không có thứ nguyên khi sử dụng rừng ngẫu nhiên không?

Câu trả lời:


28

Không.

Rừng ngẫu nhiên dựa trên các thuật toán phân vùng cây.

Như vậy, không có hệ số tương tự với hệ số hồi quy trong các chiến lược hồi quy tổng quát, điều này phụ thuộc vào đơn vị của các biến độc lập. Thay vào đó, người ta có được một tập hợp các quy tắc phân vùng, về cơ bản là một quyết định đưa ra một ngưỡng và điều này không nên thay đổi theo tỷ lệ. Nói cách khác, cây chỉ nhìn thấy thứ hạng trong các tính năng.

Về cơ bản, bất kỳ chuyển đổi đơn điệu nào của dữ liệu của bạn đều không nên thay đổi rừng (trong các triển khai phổ biến nhất).

Ngoài ra, cây quyết định thường mạnh mẽ đến sự không ổn định về số mà đôi khi làm suy yếu sự hội tụ và độ chính xác trong các thuật toán khác.


0

Nhìn chung, tôi đồng ý với Fireorms, nhưng có thể có một số giá trị trong việc chuẩn hóa các biến của bạn nếu bạn quan tâm đến điểm quan trọng của người dự đoán. RF sẽ có xu hướng ủng hộ các yếu tố dự đoán liên tục biến đổi cao vì có nhiều cơ hội hơn để phân vùng dữ liệu. Tuy nhiên, cách tốt hơn để giải quyết vấn đề này là sử dụng các phương pháp cụ thể (ví dụ: lấy mẫu mà không thay thế bằng rừng có điều kiện) mạnh mẽ hơn cho xu hướng này. Xem https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Chào mừng đến với trang web. Chúng tôi đang cố gắng xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Vì vậy, chúng tôi cảnh giác với các câu trả lời chỉ liên kết, do linkrot. Bạn có thể đăng một trích dẫn đầy đủ và một bản tóm tắt các thông tin tại liên kết, trong trường hợp nó bị chết?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.