Hàm chi phí nào tốt hơn cho cây rừng ngẫu nhiên: chỉ số Gini hoặc entropy?


12

Hàm chi phí nào tốt hơn cho cây rừng ngẫu nhiên: chỉ số Gini hoặc entropy?

Tôi đang cố gắng thực hiện rừng ngẫu nhiên ở Clojure.

Câu trả lời:


9

Như tôi đã tìm thấy trong Giới thiệu về Khai thác dữ liệu của Tan et. al:

Các nghiên cứu đã chỉ ra rằng việc lựa chọn biện pháp tạp chất ít ảnh hưởng đến hiệu suất của các thuật toán cảm ứng cây quyết định. Điều này là do nhiều biện pháp tạp chất khá phù hợp với nhau [...]. Thật vậy, chiến lược được sử dụng để cắt tỉa cây có tác động lớn hơn đến cây cuối cùng so với việc lựa chọn biện pháp tạp chất.

Do đó, bạn có thể chọn sử dụng chỉ mục Gini như GIỎ HÀNG hoặc Entropy như C4.5.

Tôi sẽ sử dụng Entropy, cụ thể hơn là Tỷ lệ tăng của C4.5 vì bạn có thể dễ dàng theo dõi cuốn sách được viết tốt bởi Quinlan: Chương trình C4.5 cho Học máy.


3
Nhận xét nhỏ - entropy sử dụng nhật ký, những gì có thể là một vấn đề thời gian tính toán.

8
Nhận xét đó là về cây quyết định thuần túy, không phải rừng ngẫu nhiên. Bạn thường không tỉa cây trong một khu rừng ngẫu nhiên vì bạn không cố gắng xây dựng một cây tốt nhất. Vì vậy, có vẻ sai lệch khi nói về những gì quan trọng hơn: cắt tỉa hoặc biện pháp tạp chất. Mục tiêu là tìm cây tốt nhất để sử dụng với rừng ngẫu nhiên.
Chan-Ho Suh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.