Làm thế nào là rừng ngẫu nhiên và cây cực kỳ ngẫu nhiên phân chia khác nhau?


9

Đối với rừng ngẫu nhiên, chúng tôi chia nút theo tạp chất Gini hoặc entropy cho một tập hợp các tính năng. RandomForestClassifier trong sklearn, chúng ta có thể chọn phân tách bằng cách sử dụng tiêu chí Gini hoặc Entropy. Tuy nhiên, những gì tôi đọc về Trình phân loại cây bổ sung, một giá trị ngẫu nhiên được chọn cho phần tách (tôi đoán sau đó không có gì để làm với Gini hoặc Entropy). ExtraTreesClassifier từ sklearn có tùy chọn chọn Gini hoặc Entropy cho phần tách. Tôi có một chút bối rối ở đây.

Câu trả lời:


10

Một lần lặp lại của Rừng ngẫu nhiên:

  1. Chọn các tính năng ngẫu nhiên làm tập hợp các tính năng chia táchm
  2. Trong mỗi tính năng này, tìm điểm cắt "tốt nhất", trong đó "tốt nhất" được xác định bởi Gini / Entropy / bất kỳ biện pháp nào
  3. Bây giờ bạn có các tính năng được ghép nối với các điểm cắt tối ưu của chúng. Chọn làm tính năng chia tách của bạn và cắt điểm cặp có hiệu suất "tốt nhất" đối với Gini / Entropy / bất kỳ biện pháp nàom

Một lần lặp của các cây cực kỳ ngẫu nhiên:

  1. Chọn các tính năng ngẫu nhiên làm tập hợp các tính năng chia táchm

  2. Trong mỗi một trong các tính năng , với vẽ một điểm cắt ngẫu nhiên đơn thống nhất từ khoảng . Đánh giá hiệu suất của tính năng này với điểm dừng này liên quan đến Gini / Entropy / bất kỳ biện pháp nàoFii1,...,m(min(Fi),max(Fi))

  3. Bây giờ bạn có các tính năng được ghép nối với các điểm cắt được chọn ngẫu nhiên của chúng. Chọn làm tính năng chia tách của bạn và cắt điểm cặp có hiệu suất "tốt nhất" đối với Gini / Entropy / bất kỳ biện pháp nàom

Giải thích tuyệt vời, tôi đã vật lộn với điều này và điều này đã xóa nó hoàn toàn.
Yu Chen

Tôi đang bối rối trên những cây thừa. Tôi nghĩ rằng tất cả các cây bổ sung đã làm là vẽ một tập hợp con các tính năng ngẫu nhiên, và sau đó vẽ một tính năng ngẫu nhiên TỪ tập hợp các tính năng đó. Tôi nghĩ rằng nó đã không làm bất kỳ tối ưu hóa liên quan đến phân chia số liệu?
Michael Hsu

Nó không tối ưu hóa các số liệu phân chia w / r / t, nhưng chỉ sau khi các số liệu phân chia đó được chọn ngẫu nhiên. Từ tài liệu riêng của scikit-learn: "Như trong các khu rừng ngẫu nhiên, một tập hợp con các tính năng ứng cử viên ngẫu nhiên được sử dụng, nhưng thay vì tìm kiếm các ngưỡng phân biệt đối xử nhất, các ngưỡng được rút ngẫu nhiên cho từng tính năng của ứng viên và các ngưỡng tốt nhất được tạo ngẫu nhiên này được chọn làm quy tắc chia tách "
klumbard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.