Các khu rừng ngẫu nhiên trực tuyến bằng cách thêm nhiều cây quyết định đơn


13

Một khu rừng ngẫu nhiên (RF) được tạo ra bởi một nhóm các cây quyết định (DT). Bằng cách sử dụng đóng gói, mỗi DT được đào tạo trong một tập hợp dữ liệu khác nhau. Do đó, có cách nào để thực hiện một khu rừng ngẫu nhiên trực tuyến bằng cách thêm nhiều quyết định vào dữ liệu mới không?

Ví dụ: chúng tôi có các mẫu 10K và đào tạo 10 DT. Sau đó, chúng tôi nhận được các mẫu 1K và thay vì đào tạo lại toàn bộ RF, chúng tôi thêm một DT mới. Dự đoán được thực hiện bởi mức trung bình của Bayes là 10 + 1 DT.

Ngoài ra, nếu chúng tôi giữ tất cả dữ liệu trước đó, DT mới có thể được đào tạo chủ yếu trong dữ liệu mới, trong đó xác suất chọn mẫu được tính trọng số tùy thuộc vào số lần đã được chọn.

Câu trả lời:


8

một bài báo gần đây về chủ đề này ( Rừng ngẫu nhiên trực tuyến ), đến từ tầm nhìn máy tính. Đây là một triển khai và một bài thuyết trình: Rừng ngẫu nhiên trực tuyến trong 10 phút


Việc triển khai mà bạn đề cập tuân theo chiến lược trồng cây, như rừng Mondrian ( arxiv.org/abs/1406.2673 ). Do đó, số lượng cây là không đổi trong khi số lượng phân chia được tăng lên. Câu hỏi của tôi tập trung vào việc tăng số lượng cây cho các mẫu mới trong khi vẫn chưa được xử lý các cây đã được đào tạo trước đó.
tashuhka

1
Như thế này ? Bạn cũng không muốn thả cây nếu thích hợp?
Emre

Cảm ơn bạn. Điều này tương tự với những gì tôi đang tìm kiếm. Trong trường hợp này, RF sử dụng để lựa chọn tính năng của các tín hiệu biến đổi theo thời gian. Tuy nhiên, việc triển khai cụ thể và hiệu lực của phương pháp này vẫn chưa rõ ràng, bạn có biết liệu họ có công bố điều gì không (Google không giúp đỡ)?
tashuhka


Cảm ơn các liên kết! Tôi có thể thấy rằng họ thực sự cập nhật tất cả các cây trước đó bằng chiến lược trồng cây và tôi quan tâm đến việc tạo DT mới với dữ liệu mới trong khi vẫn giữ nguyên các cây cũ.
tashuhka
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.