Cảm ơn cho một câu hỏi rất hay! Tôi sẽ cố gắng đưa ra trực giác của mình đằng sau nó.
Để hiểu điều này, hãy nhớ "thành phần" của phân loại rừng ngẫu nhiên (có một số sửa đổi, nhưng đây là đường ống chung):
- Ở mỗi bước xây dựng cây riêng lẻ, chúng tôi tìm thấy sự phân chia dữ liệu tốt nhất
- Trong khi xây dựng một cây, chúng tôi không sử dụng toàn bộ dữ liệu, mà là mẫu bootstrap
- Chúng tôi tổng hợp các kết quả đầu ra của từng cây bằng cách lấy trung bình (thực tế 2 và 3 có nghĩa là quy trình đóng bao chung hơn ).
Giả sử điểm đầu tiên. Không phải lúc nào cũng có thể tìm thấy sự phân chia tốt nhất. Ví dụ trong tập dữ liệu sau đây, mỗi phần tách sẽ cung cấp chính xác một đối tượng phân loại sai.
Và tôi nghĩ rằng chính xác điểm này có thể gây nhầm lẫn: thực sự, hành vi của phân tách riêng lẻ tương tự như hành vi của trình phân loại Naive Bayes: nếu các biến phụ thuộc - không có phân chia nào tốt hơn cho phân loại Cây quyết định và phân loại Naive Bayes cũng thất bại (chỉ để nhắc nhở: các biến độc lập là giả định chính mà chúng ta đưa ra trong phân loại Naive Bayes; tất cả các giả định khác đến từ mô hình xác suất mà chúng ta chọn).
Nhưng ở đây có lợi thế lớn của cây quyết định: chúng tôi thực hiện bất kỳ sự phân tách nào và tiếp tục chia tách hơn nữa. Và đối với các phân tách sau, chúng ta sẽ tìm thấy một sự tách biệt hoàn hảo (màu đỏ).
Và vì chúng tôi không có mô hình xác suất, nhưng chỉ phân chia nhị phân, chúng tôi không cần phải đưa ra bất kỳ giả định nào cả.
Đó là về Cây quyết định, nhưng nó cũng áp dụng cho Rừng ngẫu nhiên. Sự khác biệt là đối với Rừng ngẫu nhiên, chúng tôi sử dụng Tập hợp Bootstrap. Nó không có mô hình bên dưới, và giả định duy nhất mà nó dựa vào đó là lấy mẫu là đại diện . Nhưng đây thường là một giả định phổ biến. Ví dụ: nếu một lớp bao gồm hai thành phần và trong tập dữ liệu của chúng tôi, một thành phần được đại diện bởi 100 mẫu và một thành phần khác được đại diện bởi 1 mẫu - có lẽ hầu hết các cây quyết định riêng lẻ sẽ chỉ thấy thành phần đầu tiên và Rừng ngẫu nhiên sẽ phân loại sai thành phần thứ hai .
Hy vọng nó sẽ cung cấp cho một số hiểu biết thêm.