Rừng ngẫu nhiên không thể phù hợp?


10

Tôi đã đọc một số tài liệu rằng các khu rừng ngẫu nhiên không thể phù hợp. Trong khi điều này nghe có vẻ tuyệt vời, nó có vẻ quá tốt là đúng. Có thể cho rf của overfit?


5
Nếu nó có thể phù hợp, nó có thể phù hợp. Về mặt RF, hãy nghĩ về những gì sẽ xảy ra nếu rừng của bạn không chứa đủ cây (giả sử rừng của bạn là một cây duy nhất để làm cho hiệu quả rõ ràng). Có nhiều vấn đề hơn vấn đề này, nhưng đây là vấn đề rõ ràng nhất.
Marc Claesen

Tôi vừa trả lời một chủ đề khác trên RF rằng nó có thể dễ dàng vượt quá nếu số lượng dự đoán lớn.
horaceT

Câu trả lời:


7

Rừng ngẫu nhiên có thể quá sức. Tôi chắc chắn về điều này. Điều thường có nghĩa là mô hình sẽ không phù hợp nếu bạn sử dụng nhiều cây hơn.

Ví dụ thử ước tính mô hình với một khu rừng ngẫu nhiên. Bạn sẽ nhận được một lỗi đào tạo gần như bằng không nhưng một lỗi dự đoán xấuy=log(x)+ϵ


Rừng ngẫu nhiên chủ yếu làm giảm phương sai, làm thế nào nó có thể vượt quá? @Donbeo có lẽ có thể bởi vì, các mô hình cây quyết định không hoạt động tốt khi ngoại suy. Giả sử, đối với biến dự đoán dị thường, DT có thể đưa ra dự đoán xấu.
Itachi

Một dấu hiệu rõ ràng của việc quá mức là phương sai còn lại được giảm quá nhiều. Sau đó, những gì bạn đang cố gắng ngụ ý với nhận xét đầu tiên của bạn?
whuber

Trong sự đánh đổi sai lệch thiên vị, khi chúng ta cố gắng giảm sai lệch, chúng ta bù đắp cho phương sai. Như vậy, nếu x = 80 cho y = 100, nhưng x = 81 cho y = -100. Điều này sẽ là quá mức . Không tương tự như vậy vì có phương sai cao. @whuber tôi giả sử ovefitting chỉ vì phương sai cao. Tôi không hiểu làm thế nào giảm kết quả phương sai còn lại trong quá mức. Bạn có thể vui lòng chia sẻ một số giấy cho tôi đọc.
Itachi

2
Điều này không cần bất kỳ giấy tờ! Bạn có thể tự mình thử nó. Lấy một bộ dữ liệu bivariate nhỏ đơn giản, chẳng hạn như và bất kỳ bộ sưu tập tương ứng nào bạn quan tâm để sản xuất. Sử dụng bình phương tối thiểu (vì điều này nhằm giảm phương sai của phần dư), phù hợp với loạt mô hình với . Mỗi bước sẽ giảm phương sai cho đến khi ở bước cuối cùng, phương sai bằng không. Tại một số điểm, hầu như bất cứ ai cũng sẽ đồng ý, các mô hình đã bắt đầu phù hợp với dữ liệu. xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber

@whuber Tôi nghĩ bạn đang thiếu quan điểm về "giảm phương sai" là gì. Rừng ngẫu nhiên (và đóng bao nói chung) không làm giảm phương sai của phần dư, nhưng phương sai của dự đoán của bạn. Vì vậy, trong ví dụ của bạn, mỗi bước bạn nói về phương sai INCREASES :)
Davide ND
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.