Làm thế nào một người chính thức chứng minh rằng lỗi OOB trong rừng ngẫu nhiên là không thiên vị?


8

Tôi đã đọc tuyên bố này nhiều lần nhưng chưa bao giờ bắt gặp một bằng chứng. Tôi muốn thử tự sản xuất một cái nhưng tôi thậm chí không chắc chắn về việc sử dụng ký hiệu nào. Bất cứ ai có thể giúp tôi với điều này?


1
OOB không phải là khoảng trống của sự thiên vị. Thành phần duy nhất - thường: quan trọng nhất - của sự thiên vị đã bị OOB loại bỏ sự lạc quan về tinh thần mà một người phù hợp trong mẫu phải chịu đựng. Ví dụ OOB được bi quan thiên vị ở chỗ nó được dựa trên những dự đoán trung bình của chỉ cây trong rừng. EDIT: như được chỉ ra trong câu trả lời của @cbeleites dưới đây. 36.8%
Jim

Câu trả lời:


4

Tôi không biết đây có phải là câu trả lời cuối cùng không, nhưng những điều đó không thể phù hợp với một nhận xét.

Tuyên bố rằng các lỗi OOB không thiên vị thường được sử dụng, nhưng tôi chưa bao giờ thấy một cuộc biểu tình nào. Sau nhiều lần tìm kiếm, cuối cùng tôi đã đưa ra sau khi đọc kỹ trang nổi tiếng của Breiman cho Phần RF : Ước tính lỗi ngoài túi (oob) . Trong trường hợp bạn không nhận thấy (như tôi đã bỏ lỡ một thời gian), đề xuất cuối cùng là vấn đề quan trọng: Điều này đã được chứng minh là không thiên vị trong nhiều thử nghiệm . Vì vậy, không có dấu hiệu của phái sinh chính thức.

Hơn thế nữa, dường như đã được chứng minh rằng trong trường hợp khi bạn có nhiều biến hơn các trường hợp thì công cụ ước tính này bị sai lệch. Xem ở đây .

Đối với lỗi trong túi có một dẫn xuất chính thức. Lỗi trong túi là lỗi bootstrap và có rất nhiều tài liệu bắt đầu với "Giới thiệu về Bootsrap, của Efron và Tibshirani". Tuy nhiên, cuộc biểu tình sạch nhất tôi thấy là ở đây .

Nếu bạn muốn bắt đầu tìm một bằng chứng, tôi nghĩ rằng một điểm khởi đầu tốt là so sánh ước tính này với xác nhận chéo N-Fold. Trong ESTL được tuyên bố rằng có một danh tính trong giới hạn, vì số lượng mẫu đi đến vô cùng.


1
np

3

Tại sao bạn mong đợi lỗi oob không thiên vị?

  • Có (ít nhất) 1 trường hợp huấn luyện ít có sẵn cho các cây được sử dụng trong rừng thay thế so với rừng "gốc". Tôi hy vọng điều này sẽ dẫn đến một khuynh hướng bi quan nhỏ gần như tương đương với xác thực chéo một lần.

  • 1e13

Cả hai suy nghĩ đều liên quan chặt chẽ đến đường cong học tập của phân loại và ứng dụng / dữ liệu được đề cập: thứ nhất đến hiệu suất trung bình là chức năng của cỡ mẫu đào tạo và thứ hai là phương sai xung quanh đường cong trung bình này.

1e13n1

Cũng lưu ý rằng Breiman sử dụng "không thiên vị" cho việc khởi động giống như cách anh ta sử dụng nó để xác nhận chéo, trong đó chúng ta cũng có xu hướng bi quan (nhỏ). Đến từ một lĩnh vực thử nghiệm, tôi đồng ý rằng cả hai thực tế không thiên vị vì sự thiên vị thường là vấn đề ít hơn nhiều so với phương sai (có lẽ bạn không sử dụng rừng ngẫu nhiên nếu bạn có nhiều trường hợp mắc bệnh) .


3
Tôi không mong đợi nó được. Nó được mọi người nhắc đến ở nhiều nơi nên tôi mới chấp nhận. Bây giờ tôi đã suy nghĩ về nó là lý do tại sao tôi muốn chứng minh điều đó. Tôi thích câu trả lời của bạn, hãy để tôi chơi xung quanh với thông tin của bạn một chút để xem những gì tôi có thể kết luận.
JEquihua

@JEquihua: Tôi chắc chắn sẽ quan tâm đến kết quả.
cbeleites không hài lòng với SX

1
Rừng oob là khoảng 1/3 của rừng ban đầu, không phải 2/3 (vì vậy lý do nhiều hơn cho lỗi oob là bi quan!). Xác suất chọn một cây T nhất định cho rừng oob của một quan sát đã cho (x, y) là xác suất (x, y) không ở trong T, nghĩa là ((N-1) / N) ^ N = ( 1 + (-1) / N) ^ N -> exp (-1) = ~ 1/3. Vì vậy, kích thước dự kiến ​​của rừng oob cho (x, y) là khoảng B / 3, nếu B là kích thước của rừng ban đầu.
memeplex

@memeplex: tất nhiên - cảm ơn vì đã phát hiện ra. Đã sửa nó.
cbeleites không hài lòng với SX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.