Tôi nghĩ rằng đây là một câu hỏi đơn giản, mặc dù lý do đằng sau tại sao hoặc tại sao có thể không. Lý do tôi hỏi là gần đây tôi đã viết một triển khai RF của riêng mình và mặc dù nó hoạt động tốt nhưng nó không hoạt động tốt như tôi mong đợi (dựa trên bộ dữ liệu cạnh tranh Dự đoán chất lượng ảnh Kaggle , điểm số chiến thắng và một số thông tin tiếp theo có sẵn về những kỹ thuật đã được sử dụng).
Điều đầu tiên tôi làm trong các trường hợp như vậy là lỗi dự đoán cốt truyện cho mô hình của tôi, vì vậy với mỗi giá trị dự đoán đã cho, tôi xác định độ lệch trung bình (hoặc độ lệch) cách xa giá trị đích chính xác. Đối với RF của tôi, tôi có cốt truyện này:
Tôi tự hỏi liệu đây có phải là mẫu thiên vị thường được quan sát cho RF không (nếu không thì nó có thể là một cái gì đó cụ thể cho tập dữ liệu và / hoặc triển khai của tôi). Tất nhiên tôi có thể sử dụng âm mưu này để cải thiện dự đoán bằng cách sử dụng nó để bù cho sự thiên vị, nhưng tôi tự hỏi liệu có lỗi cơ bản hơn hoặc thiếu sót trong chính mô hình RF cần xử lý không. Cảm ơn bạn.
== THÊM ==
Điều tra ban đầu của tôi là tại mục blog này Random Forest Bias - Cập nhật