Là người ước tính cây LUÔN LUÔN?


9

Tôi đang làm bài tập về Cây quyết định và một trong những câu hỏi tôi phải trả lời là "Tại sao các công cụ ước tính được xây dựng từ cây bị sai lệch, và cách đóng bao giúp giảm phương sai của chúng?".

Bây giờ, tôi biết rằng các mô hình quá mức có xu hướng có độ lệch thực sự thấp, bởi vì chúng cố gắng phù hợp với tất cả các điểm dữ liệu. Và, tôi đã có một tập lệnh trong Python trang bị một cây cho một số tập dữ liệu (với một tính năng duy nhất. Nó chỉ là một hình sin, với một số điểm trừ, hình dưới đây). Vì vậy, tôi đã tự hỏi "tốt, nếu tôi thực sự quá phù hợp với dữ liệu, tôi có thể có được độ lệch về không?". Và, hóa ra, ngay cả với độ sâu 10000, vẫn có một số điểm mà đường cong không đi qua.

nhập mô tả hình ảnh ở đây

Tôi đã cố gắng tìm kiếm tại sao, nhưng tôi thực sự không thể tìm thấy một lời giải thích. Tôi đoán rằng có thể có một số cây hoàn toàn đi qua tất cả các điểm, và những cây tôi nhận được chỉ là "xui xẻo". Hoặc có lẽ một bộ dữ liệu khác nhau có thể cho tôi một kết quả không thiên vị (có thể là một hình sin hoàn hảo?). Hoặc thậm chí, có thể các vết cắt được thực hiện ngay từ đầu đã khiến các vết cắt tiếp theo không thể tách rời hoàn toàn tất cả các điểm.

Vì vậy, khi xem xét bộ dữ liệu này (vì nó có thể khác với những người khác), câu hỏi của tôi là: có thể điều chỉnh quá mức một cây đến mức độ sai lệch về không, hoặc luôn luôn có một số sai lệch, ngay cả khi thực sự nhỏ? Và nếu luôn có ít nhất một số sai lệch, tại sao điều đó xảy ra?

PS Tôi không biết nó có liên quan hay không, nhưng tôi đã sử dụng DecisionTreeRegressortừ sklearnđể khớp mô hình với dữ liệu.


3
Chào mừng đến với trang web của chúng tôi! Lưu ý rằng không cần thêm "cảm ơn trước" trong câu hỏi của bạn, cách tốt nhất để bày tỏ lời cảm ơn là đợi cho đến khi bạn nhận được câu trả lời và chấp nhận (đánh dấu màu xanh lá cây) bất cứ điều gì giúp bạn nhiều nhất! Nếu bạn chưa làm như vậy, tại sao không xem qua chuyến tham quan của chúng tôi để xem trang web này hoạt động như thế nào?
Cá bạc

3
Hãy xem xét một hàm y = 0 và bạn đang cố gắng khớp y = f (x), trong đó x nhận một số giá trị ngẫu nhiên. Là một người ước tính cây quyết định thiên vị trong trường hợp góc thừa nhận này?
jbowman

Câu trả lời:


10

Một mô hình cây quyết định không phải luôn luôn thiên vị hơn bất kỳ mô hình học tập nào khác.

Để minh họa, chúng ta hãy nhìn vào hai ví dụ. Đặt là biến thống nhất ngẫu nhiên trên . Dưới đây là các quy trình thống kê có thểX[0,1]

Sự thật 1: cho là hàm chỉ thị của X, cộng với nhiễu:YX

YXI<.5(X)+N(0,1)

Sự thật 2: cho là hàm tuyến tính của , cộng với nhiễu:YXX

YXX+N(0,1)

Nếu chúng ta phù hợp với cây quyết định trong cả hai tình huống, mô hình sẽ không bị sai lệch trong tình huống đầu tiên, nhưng bị sai lệch trong lần thứ hai. Điều này là do một cây nhị phân tách một có thể phục hồi mô hình dữ liệu cơ bản thực sự trong tình huống đầu tiên. Trong lần thứ hai, điều tốt nhất mà cây có thể làm là xấp xỉ hàm tuyến tính bằng cách khuấy bước ở các khoảng thời gian tốt hơn - một cây có độ sâu hữu hạn chỉ có thể tiến gần đến mức đó.

Nếu chúng ta phù hợp với hồi quy tuyến tính trong cả hai tình huống, mô hình sẽ bị sai lệch trong tình huống đầu tiên, nhưng không bị sai lệch trong lần thứ hai.

Vì vậy, để biết liệu một mô hình có bị sai lệch hay không, bạn cần biết cơ chế dữ liệu cơ bản thực sự là gì. Trong các tình huống thực tế, bạn không bao giờ biết điều này, vì vậy bạn không bao giờ có thể thực sự nói liệu một người mẫu trong cuộc sống thực có bị thiên vị hay không. Đôi khi, chúng tôi nghĩ rằng chúng tôi hoàn toàn đúng trong một thời gian dài, nhưng sau đó sự thiên vị xuất hiện với sự hiểu biết sâu sắc hơn (Trọng lực Newton với Trọng lực Einstein ít nhất là một ví dụ về ngày tận thế).

Ở một khía cạnh nào đó, chúng tôi hy vọng hầu hết các quy trình trong thế giới thực (với một số ngoại lệ) sẽ không thể biết được, rằng một sự gần đúng đủ hợp lý của sự thật là tất cả các mô hình của chúng tôi đều sai lệch. Tôi phần nào nghi ngờ câu hỏi đang yêu cầu một cuộc thảo luận triết học sâu sắc về sự vô ích thiết yếu của việc mô hình hóa quá trình thống kê phức tạp, nhưng thật thú vị khi nghĩ về nó.


0

Việc một số điểm trong dữ liệu của bạn vẫn chưa được dự đoán có thể là do một lỗi gọi là lỗi không thể khắc phục. Lý thuyết là trong học máy có lỗi có thể giảm và không thể khắc phục được. Ý tưởng về lỗi không thể sửa chữa là cho dù mô hình của bạn tốt đến đâu, nó sẽ không bao giờ hoàn hảo. Điều này là do một vài lý do. Thứ nhất, cho dù các tính năng đào tạo của bạn mạnh đến mức nào, sẽ luôn có một số tính năng ẩn ảnh hưởng đến đầu ra mà dữ liệu đào tạo của bạn không bao gồm. Một lý do khác là trong hầu hết tất cả các dữ liệu, chắc chắn có một số ngoại lệ. Bạn luôn có thể cố gắng làm cho các mô hình của mình trở nên mạnh mẽ để vượt trội nhất có thể, nhưng cho dù bạn có cố gắng thế nào, các ngoại lệ sẽ luôn tồn tại. (Điều này không có nghĩa là bạn không nên nghĩ về các ngoại lệ khi tạo mô hình của mình). Và một chi tiết cuối cùng là bạn không '

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.