Cây quyết định với biến đầu vào liên tục


8

Được biết, khi xây dựng cây quyết định, chúng tôi sẽ phân tách biến đầu vào một cách triệt để và tìm cách phân chia 'tốt nhất' theo phương pháp kiểm tra thống kê hoặc phương pháp hàm tạp chất.

Câu hỏi của tôi là khi chúng ta sử dụng một biến liên tục làm biến đầu vào (chỉ một vài giá trị trùng lặp), số lượng phân chia có thể có thể rất lớn, để tìm ra sự phân chia 'tốt nhất' sẽ tốn thời gian. Làm thế nào các nhà khoa học dữ liệu đối phó với nó?

Tôi đã đọc một số tài liệu mà mọi người sẽ thực hiện một cụm các cấp độ đầu vào để hạn chế sự phân tách có thể. ( ví dụ ). Tuy nhiên, họ không giải thích nó được thực hiện như thế nào. Chúng ta dựa vào cái gì để phân cụm một biến đơn biến? Có bất kỳ tài nguyên để biết thêm chi tiết hoặc bất cứ ai có thể giải thích chi tiết?

Cảm ơn!


Không có một thuật toán để đào tạo một khu rừng ngẫu nhiên mà nhiều thuật toán. Ví dụ: ID3, C4.5, GIỎ HÀNG, CHAID hoặc MARS. Câu trả lời cho câu hỏi của bạn phụ thuộc rất nhiều vào thuật toán được sử dụng ...
MaxBenChrist 16/2/2016

@MaxBenChrist Bạn có phiền khi chọn một đến hai trong số chúng, ví dụ GIỎ HÀNG để giải thích cách biến đầu vào được phân cụm không? Cảm ơn!
pe-perry

Các thuật toán sẽ phân chia theo các thùng / khoảng và tìm ra điểm mang lại kết quả tham lam nhất.
HelloWorld

Câu trả lời:


11

X

[1,3,4,6,2,5,18,10, -3, -5]

X

[-5, -3,1,2,3,4,5,6,10,18]

và "gom" dữ liệu của bạn vào thùng

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Vì vậy, sau đó bạn sẽ chỉ phải kiểm tra -1,2,5,4,5 và 8 điểm phân tách có thể có (bạn nội suy tuyến tính giữa các thùng)

Bài viết sau đây là so sánh ba quy tắc về cách chọn các điểm phân tách để kiểm tra. Tôi nghĩ đó là những gì bạn đang tìm kiếm.

@article {chickeringffic, title = {Xác định hiệu quả các điểm phân chia động trong cây quyết định}, tác giả = {Chickering, David Maxwell và Meek, Christopher và Rounthwaite, Robert}}

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.