Có bao nhiêu tính năng để lấy mẫu bằng cách sử dụng Rừng ngẫu nhiên


13

Các trang Wikipedia mà dấu ngoặc kép "The Elements of Learning thống kê" cho biết:

Thông thường, đối với một vấn đề phân loại với các tính năng , các tính năng được sử dụng trong mỗi lần phân chia.pp

Tôi hiểu rằng đây là một phỏng đoán có giáo dục khá tốt và có lẽ nó đã được xác nhận bằng bằng chứng thực nghiệm, nhưng có những lý do nào khác khiến người ta chọn căn bậc hai? Có một hiện tượng thống kê xảy ra ở đó?

Điều này bằng cách nào đó giúp giảm phương sai của các lỗi?

Đây có phải là giống nhau cho hồi quy và phân loại?

Câu trả lời:


16

Tôi nghĩ trong bài báo gốc họ đề xuất sử dụng ), nhưng dù theo cách nào thì ý tưởng là như sau:đăng nhập2(N+1

Số lượng các tính năng được chọn ngẫu nhiên có thể ảnh hưởng đến lỗi tổng quát theo hai cách: chọn nhiều tính năng làm tăng sức mạnh của từng cây trong khi giảm số lượng tính năng dẫn đến mối tương quan thấp hơn giữa các cây làm tăng sức mạnh của toàn bộ khu rừng.

Điều thú vị là các tác giả của Rừng ngẫu nhiên (pdf) tìm thấy sự khác biệt theo kinh nghiệm giữa phân loại và hồi quy:

Một sự khác biệt thú vị giữa hồi quy và phân loại là sự tương quan tăng khá chậm khi số lượng các tính năng được sử dụng tăng lên.

Do đó, đối với hồi quy thường được khuyến khích, mang đến cho các giá trị lớn hơn \ sqrt N .N/3N

Nói chung, không có lời biện minh rõ ràng nào cho hoặc cho các vấn đề phân loại khác hơn là nó đã chỉ ra rằng mối tương quan thấp hơn giữa các cây có thể làm giảm lỗi tổng quát hóa đủ để bù đắp sự giảm sức mạnh của từng cây. Cụ thể, các tác giả lưu ý rằng phạm vi mà sự đánh đổi này có thể làm giảm lỗi tổng quát hóa là khá lớn:Nđăng nhậpN

Phạm vi ở giữa thường lớn. Trong phạm vi này, khi số lượng tính năng tăng lên, mối tương quan tăng lên, nhưng PE * (cây) bù lại bằng cách giảm.

(PE * là lỗi tổng quát hóa)

Như họ nói trong các yếu tố của học thống kê:

Trong thực tế, các giá trị tốt nhất cho các tham số này sẽ phụ thuộc vào sự cố và chúng nên được coi là tham số điều chỉnh.

Một điều vấn đề của bạn có thể phụ thuộc vào số lượng các biến phân loại. Nếu bạn có nhiều biến phân loại được mã hóa dưới dạng biến giả, việc tăng tham số sẽ có ý nghĩa. Một lần nữa, từ bài viết của Rừng ngẫu nhiên:

Khi nhiều biến được phân loại, sử dụng [số lượng tính năng] thấp sẽ dẫn đến tương quan thấp, nhưng cũng có cường độ thấp. [Số lượng tính năng] phải được tăng lên khoảng hai ba lần để có đủ sức mạnh để cung cấp độ chính xác của bộ kiểm tra tốt.Tôint(tôiog2M+1)


Cảm ơn, đó là một câu trả lời rất hữu ích. Thật vậy, tôi đã nghĩ rằng có một cái gì đó để làm với sức mạnh của từng cây so với sức mạnh của toàn bộ khu rừng. Và thực sự, rất thú vị khi có sự khác biệt giữa hồi quy và phân loại. Cảm ơn rất nhiều vì đã liên kết các bài báo gốc. Đã cố gắng để thu thập các giấy tờ như vậy cho rất nhiều kỹ thuật.
Valentin Calomme
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.