Tôi nghĩ trong bài báo gốc họ đề xuất sử dụng ), nhưng dù theo cách nào thì ý tưởng là như sau:đăng nhập2( N+ 1
Số lượng các tính năng được chọn ngẫu nhiên có thể ảnh hưởng đến lỗi tổng quát theo hai cách: chọn nhiều tính năng làm tăng sức mạnh của từng cây trong khi giảm số lượng tính năng dẫn đến mối tương quan thấp hơn giữa các cây làm tăng sức mạnh của toàn bộ khu rừng.
Điều thú vị là các tác giả của Rừng ngẫu nhiên (pdf) tìm thấy sự khác biệt theo kinh nghiệm giữa phân loại và hồi quy:
Một sự khác biệt thú vị giữa hồi quy và phân loại là sự tương quan tăng khá chậm khi số lượng các tính năng được sử dụng tăng lên.
Do đó, đối với hồi quy thường được khuyến khích, mang đến cho các giá trị lớn hơn \ sqrt N .N/ 3N--√
Nói chung, không có lời biện minh rõ ràng nào cho hoặc cho các vấn đề phân loại khác hơn là nó đã chỉ ra rằng mối tương quan thấp hơn giữa các cây có thể làm giảm lỗi tổng quát hóa đủ để bù đắp sự giảm sức mạnh của từng cây. Cụ thể, các tác giả lưu ý rằng phạm vi mà sự đánh đổi này có thể làm giảm lỗi tổng quát hóa là khá lớn:N--√đăng nhậpN
Phạm vi ở giữa thường lớn. Trong phạm vi này, khi số lượng tính năng tăng lên, mối tương quan tăng lên, nhưng PE * (cây) bù lại bằng cách giảm.
(PE * là lỗi tổng quát hóa)
Như họ nói trong các yếu tố của học thống kê:
Trong thực tế, các giá trị tốt nhất cho các tham số này sẽ phụ thuộc vào sự cố và chúng nên được coi là tham số điều chỉnh.
Một điều vấn đề của bạn có thể phụ thuộc vào số lượng các biến phân loại. Nếu bạn có nhiều biến phân loại được mã hóa dưới dạng biến giả, việc tăng tham số sẽ có ý nghĩa. Một lần nữa, từ bài viết của Rừng ngẫu nhiên:
Khi nhiều biến được phân loại, sử dụng [số lượng tính năng] thấp sẽ dẫn đến tương quan thấp, nhưng cũng có cường độ thấp. [Số lượng tính năng] phải được tăng lên khoảng hai ba lần để có đủ sức mạnh để cung cấp độ chính xác của bộ kiểm tra tốt.tôi n t ( l o g2M+ 1 )