Trong Rừng ngẫu nhiên, tại sao một tập hợp con các tính năng được chọn ở cấp nút thay vì ở cấp cây?


12

Câu hỏi của tôi: Tại sao rừng ngẫu nhiên xem xét các tập hợp con ngẫu nhiên của các tính năng để phân tách ở cấp nút trong mỗi cây thay vì ở cấp cây ?

Bối cảnh: Đây là một cái gì đó của một câu hỏi lịch sử. Tin Kam Ho đã xuất bản bài báo này về việc xây dựng "rừng quyết định" bằng cách chọn ngẫu nhiên một tập hợp các tính năng để sử dụng để trồng từng cây vào năm 1998. Vài năm sau, vào năm 2001, Leo Breiman đã xuất bản bài báo Rừng ngẫu nhiên , trong đó tập hợp tính năng là ngẫu nhiên được chọn tại mỗi nút trong mỗi cây, không phải ở mỗi cây. Trong khi Breiman trích dẫn Ho, ông không giải thích cụ thể việc chuyển từ lựa chọn tính năng ngẫu nhiên ở cấp độ cây sang cấp nút.

Tôi đang tự hỏi điều gì đặc biệt thúc đẩy sự phát triển này. Có vẻ như việc chọn tập hợp tính năng ở cấp độ cây vẫn sẽ hoàn thành việc giải mã mong muốn của cây.

Lý thuyết của tôi: Tôi chưa thấy điều này được khớp nối ở nơi khác, nhưng có vẻ như phương pháp không gian con ngẫu nhiên sẽ kém hiệu quả hơn về mặt ước tính tầm quan trọng của tính năng. Để có được ước tính về tầm quan trọng khác nhau, đối với mỗi cây, các tính năng được hoán vị ngẫu nhiên từng cái một và sự gia tăng phân loại sai hoặc tăng lỗi đối với các quan sát ngoài túi được ghi lại. Các biến mà phân loại sai hoặc tăng lỗi xuất phát từ hoán vị ngẫu nhiên này là cao là những biến có tầm quan trọng lớn nhất.

Nếu chúng ta sử dụng phương thức không gian con ngẫu nhiên, đối với mỗi cây, chúng ta chỉ xem xét của các tính năng p . Có thể mất vài cây để xem xét tất cả các dự đoán p dù chỉ một lần. Mặt khác, nếu chúng ta xem xét một tập hợp con m i khác nhau của các tính năng p tại mỗi nútmppmTôip , chúng tôi sẽ xem xét từng tính năng nhiều lần sau khi cây ít hơn, cho chúng ta một ước tính mạnh mẽ hơn về tầm quan trọng đặc trưng.

Những gì tôi đã xem xét cho đến nay: Cho đến nay, tôi đã đọc bài viết của Breiman và bài báo của Ho, và thực hiện một tìm kiếm trực tuyến rộng rãi để so sánh các phương pháp mà không tìm thấy câu trả lời dứt khoát. Lưu ý rằng một câu hỏi tương tự đã được hỏi trước đó. Câu hỏi này đi xa hơn một chút bằng cách bao gồm suy đoán / công việc của tôi hướng tới một giải pháp khả thi. Tôi sẽ quan tâm đến bất kỳ câu trả lời, trích dẫn có liên quan hoặc nghiên cứu mô phỏng so sánh hai phương pháp. Nếu không có gì sắp tới, tôi dự định chạy mô phỏng của riêng mình so sánh hai phương pháp.


2
Tôi sẽ không trích dẫn bất kỳ tài liệu tham khảo nào, vì vậy hãy gọi đây là một nhận xét. Nếu bạn đang cố gắng hiểu biến nào là hữu ích, thì đó có thể là trường hợp một biến cụ thể là quan trọng, nhưng chỉ trên một phần nhỏ của dữ liệu. Bạn có thể tìm thấy điều này với việc đóng gói các biến ở cấp độ nút. Bạn sẽ không bao giờ khám phá điều này với việc đóng bao ở cấp độ cây.
meh

2
Tôi chắc chắn rằng Breiman có một bình luận liên quan đến vấn đề này trong bài báo chuyên đề (imho) của mình, 'Thống kê- Hai nền văn hóa'. Quan điểm của ông là đôi khi tầm quan trọng của một biến bị che dấu bởi một biến khác. Đóng gói ở cấp độ nút sẽ cho phép người ta thấy những gì và khi nào cho một biến.
meh

1
Cảm ơn các ý kiến. Quay trở lại ý tưởng của tôi về hiệu quả: giả sử một cặp biến có liên quan và, như bạn đã nói, tầm quan trọng của một "mặt nạ" tầm quan trọng của một biến khác. Nếu chúng ta xây dựng một công cụ dự đoán RF với đủ cây và sử dụng tập hợp tính năng cấp cây, cuối cùng chúng ta sẽ không có đủ cây với tính năng "đeo mặt nạ" và không có tính năng "che" để có được tầm quan trọng của cái trước mà không bị ảnh hưởng bởi cái sau? Tôi nghĩ rằng ít nhất chúng ta đang nói về cùng một ý tưởng. Cảm ơn!
djlid

4
Bạn có thể, nhưng hãy xem xét bạn sẽ phải xây thêm bao nhiêu cây nữa! Nó cũng không rõ ràng. Biến A có thể gây ra sự phân tách sao cho không ai trong số chúng biến B sẽ tỏa sáng. Thực chất rõ ràng là mạnh mẽ hơn để lấy mẫu ở cấp độ nút. Đối với tôi, nó liên quan đến cơ bản những gì bootstrapping nên được.
meh

Câu trả lời:


1

Giả sử chúng ta có 10 tính năng F1, f2, ..., f9, f10, thì khi chúng ta sử dụng một tập hợp con để giả sử các tính năng của F1, f3, f4, f8 ở cấp độ cây, sau đó chúng ta xây dựng toàn bộ cây với 4 tính năng này vào xem xét.

Chúng tôi tính toán entropy, chỉ so sánh 4 tính năng này ở mỗi nút và lấy tính năng đó mang lại entropy tối đa. Điều này không được sử dụng nhiều vì chúng tôi đang giới hạn việc học cây của chúng tôi chỉ với 4 tính năng đó. Trái ngược với điều này, khi chúng tôi sử dụng một số tập hợp con các tính năng, giả sử là F1, f8, f9 tại nút đầu tiên, chúng tôi tính toán entropy và so sánh chúng trong số 3 tính năng này và chọn một tính năng mang lại giá trị tối đa. Thay vì phát triển cây hơn nữa với các tính năng tương tự, chúng tôi đã chọn một tập hợp con các tính năng khác, giả sử f4, f7, f2 và phân chia dựa trên các tính năng này. Giả sử f8 được chọn tại nút đầu tiên và f2 được chọn tại nút thứ hai. Mô hình có thể tìm hiểu mối quan hệ giữa cả hai điều này

Theo cách này, mô hình có thể tìm hiểu mối quan hệ giữa các tính năng khác nhau theo cách đa dạng hơn. Cách tiếp cận này sẽ có một số tính năng được khám phá trong một cây duy nhất và do đó quan hệ giữa chúng được bảo tồn. Hy vọng bạn đã nhận nó ngay bây giờ :)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.