Làm thế nào là một điểm phân tách được chọn cho các biến liên tục trong cây quyết định?


14

Tôi có hai câu hỏi liên quan đến cây quyết định:

  1. Nếu chúng ta có một thuộc tính liên tục, làm thế nào để chúng ta chọn giá trị chia tách?

    Ví dụ: Tuổi = (20,29,50,40 ....)

  2. Hãy tưởng tượng rằng chúng tôi có một thuộc tính liên tục có giá trị trong . Làm thế nào tôi có thể viết một thuật toán tìm điểm phân chia , để khi chúng ta chia cho , chúng ta có mức tăng tối thiểu cho ?fRvfvf>v

Câu trả lời:


18

Để đưa ra một điểm phân tách, các giá trị được sắp xếp và điểm giữa giữa các giá trị liền kề được đánh giá theo một số liệu, thường là mức tăng thông tin hoặc tạp chất gini. Ví dụ của bạn, giả sử chúng ta có bốn ví dụ và các giá trị của biến tuổi là . Các điểm giữa giữa các giá trị ( 24,5 , 34,5 , 45 ) được đánh giá và bất kỳ phân chia nào sẽ mang lại mức tăng thông tin tốt nhất (hoặc bất kỳ số liệu nào bạn đang sử dụng) trên dữ liệu đào tạo được sử dụng.(20,29,40,50)(24,5,34,5,45)

Bạn có thể tiết kiệm một số thời gian tính toán bằng cách chỉ kiểm tra các điểm phân tách nằm giữa các ví dụ của các lớp khác nhau, bởi vì chỉ những phân chia này có thể là tối ưu để thu được thông tin.


@timleathart OP đang mong đợi được "cho ăn bằng thìa" việc triển khai trong R. Tôi tự hỏi những gì OP đã cố gắng cho đến nay có liên quan đến việc thực hiện R không? Làm thế nào về "hiển thị một số nỗ lực", OP?
mnm

@timleathart nhưng Normaly cho một thuộc tính f chúng tôi chọn phân chia v mang lại mức tăng thông tin lớn nhất cho f> v, nhưng ở đây hãy xem câu hỏi họ yêu cầu mức tăng tối thiểu.
WALID BELRHALMIA

@timleathart, bạn có thể giải thích thêm? Tôi cần biết cách tối ưu hóa tốt nhất để xác định các phần tách như vậy và kiểm tra mức tăng thông tin. Hãy nói rằng một biến có rất nhiều biến thể và biến khác gần như không đổi. Có bao nhiêu phân chia như vậy nên có?
Arpit Sisodia

@timeleathart, mở rộng câu trả lời của bạn, phần tách này sẽ không được tối ưu hóa khi các giá trị là (20,21,22,23, 45,67,80). Không nên sử dụng tối thiểu để lặp lại tối đa ở đây? Xin hãy sửa tôi nếu tôi sai trong giả định của mình :)
Arpit Sisodia

Điều này làm rõ sự nhầm lẫn của tôi!
Kim Hoa Vương
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.