Do Rừng ngẫu nhiên thể hiện sự thiên vị dự đoán?


12

Tôi nghĩ rằng đây là một câu hỏi đơn giản, mặc dù lý do đằng sau tại sao hoặc tại sao có thể không. Lý do tôi hỏi là gần đây tôi đã viết một triển khai RF của riêng mình và mặc dù nó hoạt động tốt nhưng nó không hoạt động tốt như tôi mong đợi (dựa trên bộ dữ liệu cạnh tranh Dự đoán chất lượng ảnh Kaggle , điểm số chiến thắng và một số thông tin tiếp theo có sẵn về những kỹ thuật đã được sử dụng).

Điều đầu tiên tôi làm trong các trường hợp như vậy là lỗi dự đoán cốt truyện cho mô hình của tôi, vì vậy với mỗi giá trị dự đoán đã cho, tôi xác định độ lệch trung bình (hoặc độ lệch) cách xa giá trị đích chính xác. Đối với RF của tôi, tôi có cốt truyện này:

Giá trị dự đoán so với sai lệch so với giá trị đích chính xác

Tôi tự hỏi liệu đây có phải là mẫu thiên vị thường được quan sát cho RF không (nếu không thì nó có thể là một cái gì đó cụ thể cho tập dữ liệu và / hoặc triển khai của tôi). Tất nhiên tôi có thể sử dụng âm mưu này để cải thiện dự đoán bằng cách sử dụng nó để bù cho sự thiên vị, nhưng tôi tự hỏi liệu có lỗi cơ bản hơn hoặc thiếu sót trong chính mô hình RF cần xử lý không. Cảm ơn bạn.

== THÊM ==

Điều tra ban đầu của tôi là tại mục blog này Random Forest Bias - Cập nhật


2
Nó có thể là một tính năng của dữ liệu của bạn; Bạn đã thử chạy triển khai RF khác trên cùng một tập dữ liệu để xem liệu nó có tái tạo hiệu ứng này không?

Câu trả lời:


4

(Tôi xa chuyên gia. Đây chỉ là suy nghĩ của một nhà thống kê cơ sở, người đã xử lý các vấn đề khác nhau, nhưng tương tự lỏng lẻo. Câu trả lời của tôi có thể nằm ngoài ngữ cảnh.)

Đưa ra một mẫu mới để dự đoán và một nhà tiên tri có quyền truy cập vào tập huấn luyện lớn hơn nhiều, thì có lẽ dự đoán "tốt nhất" và trung thực nhất là nói "Tôi dự đoán với xác suất 60% rằng đây thuộc về lớp Đỏ chứ không phải lớp học màu xanh ".

Tôi sẽ đưa ra một ví dụ cụ thể hơn. Hãy tưởng tượng rằng, trong tập huấn luyện rất lớn của chúng tôi, có một bộ mẫu lớn rất giống với mẫu mới của chúng tôi. Trong đó, 60% là màu xanh và 40% là màu đỏ. Và dường như không có gì để phân biệt Blues với Red. Trong trường hợp như vậy, rõ ràng 60% / 40% là dự đoán duy nhất mà một người lành mạnh có thể đưa ra.

Tất nhiên, chúng ta không có một nhà tiên tri như vậy, thay vào đó chúng ta có rất nhiều cây. Các cây quyết định đơn giản không có khả năng đưa ra các dự đoán 60% / 40% này và do đó mỗi cây sẽ đưa ra một dự đoán riêng biệt (Đỏ hoặc Xanh lam, không có gì ở giữa). Vì mẫu mới này chỉ nằm ở phía Đỏ của bề mặt quyết định, bạn sẽ thấy rằng hầu hết tất cả các cây đều dự đoán Đỏ thay vì Xanh. Mỗi cây giả vờ chắc chắn hơn nó và nó bắt đầu giẫm đạp lên một dự đoán thiên vị.

Vấn đề là chúng ta có xu hướng giải thích sai quyết định từ một cây duy nhất. Khi một cây duy nhất đặt một nút trong lớp Red, chúng ta không nên hiểu đó là dự đoán 100% / 0% từ cây. (Tôi không chỉ nói rằng chúng ta 'biết' rằng đó có thể là một dự đoán tồi. Tôi đang nói điều gì đó mạnh mẽ hơn, tức là chúng ta nên cẩn thận khi chúng ta hiểu là dự đoán của cây). Tôi không thể mở rộng chính xác về cách khắc phục điều này. Nhưng có thể mượn ý tưởng từ các khu vực thống kê về cách xây dựng các phần tách 'mờ' hơn trong một cây để khuyến khích một cây duy nhất trung thực hơn về tính không chắc chắn của nó. Sau đó, có thể có ý nghĩa trung bình các dự đoán từ một rừng cây.

Tôi hy vọng điều này sẽ giúp một chút. Nếu không, tôi hy vọng sẽ học hỏi từ bất kỳ câu trả lời.


Tách mờ, có nó, trong tinh thần của RF cực đoan (nhưng có thể không quá cực đoan?). Tôi sẽ thử điều này vì lời giải thích của bạn có ý nghĩa với tôi. Cảm ơn.
redcalx

[Rừng ngẫu nhiên - Suy nghĩ về vấn đề thiên vị] ( the-locster.livejournal.com/134241.html ) "Chìa khóa sau đó (tôi nghĩ) là sử dụng ngẫu nhiên không đồng nhất [của ngưỡng chia tách] sao cho tập hợp tất cả các điểm phân chia khi được kết hợp sẽ tạo lại y = f (x) và tiếp cận một đại diện hoàn hảo của y = f (x) khi số DT trong RF có xu hướng vô cùng. "
redcalx

Dự đoán 60/40% sẽ không được xử lý bởi cây hồi quy? Độ tin cậy sẽ tỷ lệ lớp trong phân vùng của lá (đối với tập huấn luyện). Có lẽ điều này có thể / đã được mở rộng để đối phó với sức mạnh thống kê
Thay đổi

3

Đúng. Hầu hết các cây có một thiên vị ở đuôi. Xem:

Làm thế nào nên phân chia cây quyết định khi dự đoán các biến liên tục?

"Một vấn đề tiềm ẩn với cây là chúng có xu hướng khớp kém ở đuôi. Hãy nghĩ đến một nút thiết bị đầu cuối nắm bắt phạm vi thấp của tập huấn luyện. Nó sẽ dự đoán bằng cách sử dụng giá trị trung bình của các điểm tập huấn, sẽ luôn dự đoán thấp kết quả (vì nó là trung bình). "


Tôi không nghĩ rằng nhận xét đó áp dụng cho các khu rừng ngẫu nhiên
Zach

Tôi tin rằng việc thực hiện tham chiếu của các khu rừng ngẫu nhiên dừng lại với ~ 5 quan sát trong các nút khi biến phản ứng liên tục. Điều đó vẫn sẽ giới thiệu một lượng nhỏ sai lệch nếu biến chia tách cũng liên tục. Tương tự như lý do tại sao LOESS thường trông tốt hơn trung bình di chuyển trung tâm ở các cạnh của hỗ trợ ...
Shea Parkes
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.