Tại sao kết quả rừng ngẫu nhiên của tôi rất khác nhau?

Tôi đang cố kiểm tra khả năng phân loại mẫu ngẫu nhiên của rừng giữa 2 nhóm; Có 54 mẫu và số lượng biến khác nhau được sử dụng để phân loại.

Tôi đã tự hỏi tại sao các ước tính ngoài túi (OOB) có thể thay đổi 5% so với nhau ngay cả khi tôi đang sử dụng cây 50k? Đây có phải là một cái gì đó mà bootstrapping có thể giúp đỡ?

machine-learning random-forest

— Đặt ra
nguồn

Bạn phải vài mẫu. Cây 50k không có ý nghĩa gì với rất ít mẫu. Các biến thể rất có thể chỉ là một mẫu được phân loại không chính xác giữa các lần chạy.

— ThiS

@ThiS Tôi nghĩ rằng việc tăng số lượng cây sẽ làm giảm lượng phương sai tôi nhận được. Có cách nào để giảm nó xuống 0 một cách hiệu quả hay không biết cách nào là chính xác nhất?

— Sethzard

Có hai nguồn của phương sai OOB. Một là tính ngẫu nhiên của chính thủ tục; điều này có thể được giảm bằng cách tăng số lượng cây.

Nguồn gốc của phương sai khác là sự không hoàn hảo không thể sửa chữa được khi có dữ liệu hạn chế và sống trong một thế giới phức tạp. Tăng số lượng cây không thể khắc phục điều này.

Ngoài ra, đôi khi không có đủ dữ liệu để giải quyết vấn đề. Ví dụ: hãy tưởng tượng hai trường hợp có nhãn đối diện nhưng giá trị tính năng giống hệt nhau. Một trong những mẫu này sẽ luôn bị phân loại sai. (Đây là một ví dụ cực đoan, nhưng minh họa cách một số vấn đề không thể giải quyết được. Chúng ta có thể thư giãn nó bằng cách xem xét một nhiễu loạn nhỏ cho một vectơ; bây giờ nó thường sẽ được phân loại giống như sinh đôi của nó, nhưng không phải lúc nào cũng vậy.) , bạn sẽ phải thu thập các phép đo bổ sung để phân biệt rõ hơn hai điểm.

Việc tăng số lượng cây có thể làm giảm phương sai của ước tính của một cái gì đó như $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ $\bar{x}$ $\sigma^2=0$

Phương sai không thể sửa chữa không thể được sửa chữa bằng bootstrapping. Hơn nữa, các khu rừng ngẫu nhiên đã được khởi động; đó là một phần lý do khiến nó có "ngẫu nhiên" trong tên của nó. (Lý do khác là một tập hợp con các tính năng ngẫu nhiên được chọn ở mỗi lần phân chia.)

— Sycorax nói phục hồi Monica
nguồn