Một khu rừng ngẫu nhiên với nhiều đầu ra có thể / thực tế không?


17
  1. Random Forests (RF) là một phương pháp khai thác / mô hình hóa dữ liệu cạnh tranh.

  2. Một mô hình RF có một đầu ra - biến đầu ra / dự đoán.

  3. Cách tiếp cận ngây thơ để mô hình hóa nhiều đầu ra với RF sẽ là xây dựng RF cho từng biến đầu ra. Vì vậy, chúng ta có N mô hình độc lập và khi có mối tương quan giữa các biến đầu ra, chúng ta sẽ có cấu trúc mô hình dự phòng / trùng lặp. Điều này có thể rất lãng phí, thực sự. Cũng như một quy tắc chung, nhiều biến mô hình hơn bao hàm một mô hình phù hợp hơn (ít khái quát hóa hơn). Không chắc chắn nếu điều này áp dụng ở đây nhưng nó có thể làm.

Về nguyên tắc chúng ta có thể có một RF với nhiều đầu ra. Biến dự đoán bây giờ là một vectơ (n-tuple). Các nút quyết định trong mỗi cây quyết định hiện đang phân tách tập hợp các vectơ đích / dự đoán dựa trên vectơ ngưỡng, tôi cho rằng ngưỡng này được coi là một mặt phẳng trong không gian n chiều và do đó chúng ta có thể xác định phía nào của ngưỡng vectơ mỗi vectơ đích là trên.

Giá trị dự đoán tối ưu cho mỗi bên của phân chia quyết định là giá trị trung bình (centroid) được tính cho các vectơ ở mỗi bên.

Tìm điểm phân chia tối ưu khi làm việc với các biến đơn là tầm thường và tính toán nhanh / hiệu quả. Đối với một n-tuple, chúng ta không thể tìm thấy sự phân chia tối ưu (hoặc ít nhất là nó trở nên không thể tính toán được khi tăng N), nhưng chúng ta có thể tìm thấy sự phân chia gần tối ưu bằng phương pháp kiểu Monte Carlo (hoặc một số phép lai của Monte Carlo và cục bộ chuyển động ngang).

Điều này thực sự sẽ làm việc? Đó là, nó sẽ chỉ ánh xạ các cặp đào tạo mà không khái quát? Liệu kỹ thuật này đã tồn tại dưới một tên khác?

Bạn cũng có thể muốn xem xét làm thế nào điều này liên quan đến các mạng lưới thần kinh như Máy bị hạn chế Boltzmann (RBM) và Mạng lưới niềm tin sâu sắc.


Googling "rừng ngẫu nhiên đa nhãn" cho thấy điều này thậm chí đã được thực hiện theo một số cách khác nhau; Dù sao, tôi đã chơi với cách tiếp cận nhiều nhị phân-rfs này trong việc truy xuất thông tin âm nhạc và nó đang hoạt động khá tốt.

1
Tôi muốn đề nghị bạn bài viết này . Họ làm một cái gì đó rất gần với những gì bạn mô tả.
Dmitry Laptev

2
Điều này đã tồn tại trong gói bên và một số gói khác (ngôn ngữ R).
Jase

Câu trả lời:


8

Nhiều cây quyết định đầu ra (và do đó, rừng ngẫu nhiên) đã được phát triển và xuất bản. Pierre Guertz phân phối một gói cho việc này ( tải về). Xem thêm Segal & Xiao, Rừng ngẫu nhiên đa biến, WIREs Data Mining knowl Discov 2011 1 80 Ném87, DOI: 10.1002 / widm.12 Tôi tin rằng phiên bản mới nhất của Scikit-learn cũng hỗ trợ điều này. Một đánh giá tốt về tình trạng của nghệ thuật có thể được tìm thấy trong luận án của Henrik Linusson với tựa đề "RỪNG RỪNG RỪNG RỪNG RỪNG". Phương pháp đơn giản nhất để thực hiện các lựa chọn phân tách tại mỗi nút là chọn ngẫu nhiên MỘT trong số các biến đầu ra và sau đó làm theo cách tiếp cận rừng ngẫu nhiên thông thường để chọn phân tách. Các phương pháp khác dựa trên tổng số điểm của thông tin lẫn nhau liên quan đến từng tính năng đầu vào và biến đầu ra đã được phát triển, nhưng chúng khá đắt so với phương pháp ngẫu nhiên.


0

Như đã nêu ở đây :

Tất cả các trình phân loại trong scikit-learn đều thực hiện phân loại đa lớp.

Và bao gồm Rừng ngẫu nhiên.

Ngoài ra trang: http://scikit-learn.org/urdy/modules/tree.html#tree-multioutput có rất nhiều tài liệu tham khảo về chủ đề đó.


6
Để rõ ràng; câu hỏi liên quan đến hồi quy đa đầu ra .
redcalx

Xin lỗi vì sự chậm trễ trong câu trả lời của tôi, nhưng có vẻ như scikit-learn cũng cung cấp hồi quy đa tham số: ví dụ: scikit-learn.org/urdy/auto_examples/tree/iêu Và trong mọi trường hợp, có một chiến lược bao gồm một chiến lược phù hợp hồi quy trên mỗi mục tiêu. Đây là một chiến lược đơn giản để mở rộng các biến hồi quy không hỗ trợ hồi quy đa mục tiêu: scikit-learn.org/urdy/modules/generated/ ( HTH
0asa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.