Random Forests (RF) là một phương pháp khai thác / mô hình hóa dữ liệu cạnh tranh.
Một mô hình RF có một đầu ra - biến đầu ra / dự đoán.
Cách tiếp cận ngây thơ để mô hình hóa nhiều đầu ra với RF sẽ là xây dựng RF cho từng biến đầu ra. Vì vậy, chúng ta có N mô hình độc lập và khi có mối tương quan giữa các biến đầu ra, chúng ta sẽ có cấu trúc mô hình dự phòng / trùng lặp. Điều này có thể rất lãng phí, thực sự. Cũng như một quy tắc chung, nhiều biến mô hình hơn bao hàm một mô hình phù hợp hơn (ít khái quát hóa hơn). Không chắc chắn nếu điều này áp dụng ở đây nhưng nó có thể làm.
Về nguyên tắc chúng ta có thể có một RF với nhiều đầu ra. Biến dự đoán bây giờ là một vectơ (n-tuple). Các nút quyết định trong mỗi cây quyết định hiện đang phân tách tập hợp các vectơ đích / dự đoán dựa trên vectơ ngưỡng, tôi cho rằng ngưỡng này được coi là một mặt phẳng trong không gian n chiều và do đó chúng ta có thể xác định phía nào của ngưỡng vectơ mỗi vectơ đích là trên.
Giá trị dự đoán tối ưu cho mỗi bên của phân chia quyết định là giá trị trung bình (centroid) được tính cho các vectơ ở mỗi bên.
Tìm điểm phân chia tối ưu khi làm việc với các biến đơn là tầm thường và tính toán nhanh / hiệu quả. Đối với một n-tuple, chúng ta không thể tìm thấy sự phân chia tối ưu (hoặc ít nhất là nó trở nên không thể tính toán được khi tăng N), nhưng chúng ta có thể tìm thấy sự phân chia gần tối ưu bằng phương pháp kiểu Monte Carlo (hoặc một số phép lai của Monte Carlo và cục bộ chuyển động ngang).
Điều này thực sự sẽ làm việc? Đó là, nó sẽ chỉ ánh xạ các cặp đào tạo mà không khái quát? Liệu kỹ thuật này đã tồn tại dưới một tên khác?
Bạn cũng có thể muốn xem xét làm thế nào điều này liên quan đến các mạng lưới thần kinh như Máy bị hạn chế Boltzmann (RBM) và Mạng lưới niềm tin sâu sắc.