Các thuật toán cây quyết định tiêu chuẩn, chẳng hạn như ID3 và C4.5, có cách tiếp cận mạnh mẽ để chọn điểm cắt trong một tính năng liên tục. Mỗi giá trị được kiểm tra như một điểm cắt có thể. (Bằng cách kiểm tra tôi có nghĩa là, ví dụ như mức tăng Thông tin được tính ở mọi giá trị có thể.)
Với nhiều tính năng liên tục và nhiều dữ liệu (do đó có nhiều giá trị cho mỗi tính năng), apporach này có vẻ rất không hiệu quả!
Tôi cho rằng việc tìm ra một cách tốt hơn để làm điều này là một chủ đề nóng trong Machine Learning. Trong thực tế, tìm kiếm Google Scholar của tôi đã tiết lộ một số cách tiếp cận khác. Chẳng hạn như rời rạc với phương tiện k. Sau đó, dường như có rất nhiều bài báo giải quyết các vấn đề cụ thể trong các lĩnh vực cụ thể.
Nhưng có một bài đánh giá gần đây, bài đăng trên blog hoặc cuốn sách cung cấp một cái nhìn tổng quan về các apporaches phổ biến cho sự rời rạc? Tôi không thể tìm thấy một ...
Hoặc nếu không, có thể một trong các bạn là một chuyên gia về chủ đề này và sẵn sàng viết lên một cái nhìn tổng quan nhỏ. Điều đó sẽ rất hữu ích!