Ai đó có thể vui lòng giải thích cho tôi khi sử dụng tạp chất Gini và thông tin đạt được cho cây quyết định không? Bạn có thể cho tôi tình huống / ví dụ về thời điểm tốt nhất để sử dụng không?
Ai đó có thể vui lòng giải thích cho tôi khi sử dụng tạp chất Gini và thông tin đạt được cho cây quyết định không? Bạn có thể cho tôi tình huống / ví dụ về thời điểm tốt nhất để sử dụng không?
Câu trả lời:
Bạn nên thử cả hai như là một phần của điều chỉnh tham số.
Về mặt lý thuyết, tạp chất Gini giảm thiểu điểm Brier trong khi entropy / thông tin thu được sẽ giảm thiểu việc mất nhật ký, do đó những người bạn quan tâm sẽ tạo ra sự khác biệt. Tuy nhiên, những thứ khác như khả năng mỗi người sẽ phát hiện ra các hiệu ứng đa biến trong sự phát triển của cây tham lam thay vì bị "phân tâm" bởi những người đơn phương cũng chơi vào mọi thứ. Tức là bạn có thể nhận được sự khái quát hóa tốt hơn từ một số liệu tạp chất không phải lúc nào cũng chọn phân chia "tốt nhất".
Trong thực tế (trong bối cảnh của rf, sau đó là giỏ hàng) tôi đã thấy entropy hoạt động tốt hơn đối với các tập dữ liệu chiều thấp sạch hơn, nơi bạn đang cố gắng điều chỉnh tín hiệu phức tạp hơn cũng như có thể trong khi gini hoạt động tốt hơn cho nhiễu, chiều cao những tín hiệu mà bạn đang cố gắng phát hiện ra một tín hiệu đơn giản trong số nhiều tín hiệu tiềm năng ồn ào. Đây chỉ là kinh nghiệm của tôi và gần như chắc chắn sẽ không giữ trong mọi trường hợp.
Lưu ý: bắt đầu như một nhận xét nhưng đã bị xóa và chuyển sang câu trả lời để định dạng mở rộng về mọi thứ.