Tôi đang làm bài tập về Cây quyết định và một trong những câu hỏi tôi phải trả lời là "Tại sao các công cụ ước tính được xây dựng từ cây bị sai lệch, và cách đóng bao giúp giảm phương sai của chúng?".
Bây giờ, tôi biết rằng các mô hình quá mức có xu hướng có độ lệch thực sự thấp, bởi vì chúng cố gắng phù hợp với tất cả các điểm dữ liệu. Và, tôi đã có một tập lệnh trong Python trang bị một cây cho một số tập dữ liệu (với một tính năng duy nhất. Nó chỉ là một hình sin, với một số điểm trừ, hình dưới đây). Vì vậy, tôi đã tự hỏi "tốt, nếu tôi thực sự quá phù hợp với dữ liệu, tôi có thể có được độ lệch về không?". Và, hóa ra, ngay cả với độ sâu 10000, vẫn có một số điểm mà đường cong không đi qua.
Tôi đã cố gắng tìm kiếm tại sao, nhưng tôi thực sự không thể tìm thấy một lời giải thích. Tôi đoán rằng có thể có một số cây hoàn toàn đi qua tất cả các điểm, và những cây tôi nhận được chỉ là "xui xẻo". Hoặc có lẽ một bộ dữ liệu khác nhau có thể cho tôi một kết quả không thiên vị (có thể là một hình sin hoàn hảo?). Hoặc thậm chí, có thể các vết cắt được thực hiện ngay từ đầu đã khiến các vết cắt tiếp theo không thể tách rời hoàn toàn tất cả các điểm.
Vì vậy, khi xem xét bộ dữ liệu này (vì nó có thể khác với những người khác), câu hỏi của tôi là: có thể điều chỉnh quá mức một cây đến mức độ sai lệch về không, hoặc luôn luôn có một số sai lệch, ngay cả khi thực sự nhỏ? Và nếu luôn có ít nhất một số sai lệch, tại sao điều đó xảy ra?
PS Tôi không biết nó có liên quan hay không, nhưng tôi đã sử dụng DecisionTreeRegressor
từ sklearn
để khớp mô hình với dữ liệu.