Lỗi hết túi khiến CV không cần thiết trong Rừng ngẫu nhiên?


15

Tôi còn khá mới với những khu rừng ngẫu nhiên. Trước đây, tôi luôn so sánh độ chính xác của sự phù hợp với thử nghiệm so với sự phù hợp với sự phù hợp để phát hiện bất kỳ sự quá mức nào. Nhưng tôi chỉ đọc ở đây rằng:

"Trong các khu rừng ngẫu nhiên, không cần xác thực chéo hoặc một bộ thử nghiệm riêng biệt để có được ước tính không thiên vị về lỗi của bộ thử nghiệm. Nó được ước tính trong nội bộ, trong quá trình chạy ..."

Đoạn nhỏ ở trên có thể được tìm thấy trong Phần ước tính lỗi ngoài túi (oob) . Khái niệm Lỗi Out of Bag này hoàn toàn mới đối với tôi và điều hơi khó hiểu là lỗi OOB trong mô hình của tôi là 35% (hay độ chính xác 65%), tuy nhiên, nếu tôi áp dụng xác thực chéo cho dữ liệu của mình (chỉ là một cách đơn giản phương pháp) và so sánh cả sự phù hợp với thử nghiệm so với sự phù hợp với sự phù hợp với đào tạo Tôi có được độ chính xác tương ứng 65% và độ chính xác 96%. Theo kinh nghiệm của tôi, điều này được coi là quá mức nhưng OOB có lỗi 35% giống như lỗi phù hợp với kiểm tra của tôi . Tôi có quá mức không? Tôi thậm chí có nên sử dụng xác nhận chéo để kiểm tra quá mức trong các khu rừng ngẫu nhiên không?

Nói tóm lại, tôi không chắc liệu tôi có nên tin tưởng OOB để nhận được một lỗi không thiên vị của lỗi thiết lập thử nghiệm hay không khi sự phù hợp của tôi so với tàu cho thấy rằng tôi đang sử dụng quá mức!


OOB có thể được sử dụng để xác định siêu tham số. Ngoài ra, đối với tôi, để ước tính hiệu suất của một mô hình, người ta nên sử dụng xác nhận chéo.
Metariat

@MHRattica khi bạn nói về siêu tham số, chính xác thì bạn đang nói về cái gì? Xin lỗi vì sự thiếu hiểu biết của tôi trong chủ đề này
jgozal

số lượng cây và các tính năng được chọn ngẫu nhiên ở mỗi lần lặp
Metariat

Tôi biết đây là một câu hỏi hoàn toàn khác nhưng làm thế nào để bạn xác định số lượng cây và mẫu tính năng ở mỗi lần lặp từ một lỗi?
jgozal

1
Có thể điều này có thể giúp: stats.stackexchange.com/a/112052/78313 Nói chung tôi chưa bao giờ thấy sự khác biệt như vậy trong RF!
Metariat

Câu trả lời:


21
  • lỗi đào tạo (như trong predict(model, data=train)) thường là vô dụng. Trừ khi bạn thực hiện (không chuẩn) cắt tỉa cây, nó không thể cao hơn 0 theo thiết kế của thuật toán . Rừng ngẫu nhiên sử dụng tập hợp bootstrap của các cây quyết định, được biết là quá phù hợp. Điều này giống như lỗi đào tạo cho phân loại 1 lân cận gần nhất.

  • 1e

    Vì vậy, lỗi xuất túi không hoàn toàn giống nhau (ít cây để tổng hợp, nhiều bản sao trường hợp đào tạo hơn) là lỗi xác thực chéo, nhưng với mục đích thực tế, nó đủ gần.

  • Điều có ý nghĩa để xem xét để phát hiện quá mức là so sánh lỗi ngoài túi với xác nhận bên ngoài. Tuy nhiên, trừ khi bạn biết về việc phân cụm dữ liệu của mình, lỗi xác thực chéo "đơn giản" sẽ dễ bị sai lệch lạc quan giống như lỗi xuất túi: việc chia tách được thực hiện theo các nguyên tắc rất giống nhau.
    Bạn cần so sánh lỗi ngoài túi hoặc xác thực chéo với lỗi đối với thử nghiệm thử nghiệm được thiết kế tốt để phát hiện điều này.


11

Lỗi hết túi là hữu ích và có thể thay thế các giao thức ước tính hiệu suất khác (như xác thực chéo), nhưng nên cẩn thận khi sử dụng.

Giống như xác nhận chéo, ước tính hiệu suất sử dụng các mẫu ngoài túi được tính bằng cách sử dụng dữ liệu không được sử dụng cho việc học. Nếu dữ liệu đã được xử lý theo cách chuyển thông tin qua các mẫu, ước tính (có thể) sẽ bị sai lệch. Các ví dụ đơn giản xuất hiện trong tâm trí đang thực hiện lựa chọn tính năng hoặc thiếu giá trị. Trong cả hai trường hợp (và đặc biệt là lựa chọn tính năng), dữ liệu được chuyển đổi bằng cách sử dụng thông tin từ toàn bộ tập dữ liệu, làm sai lệch ước tính.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.