Có một mô tả thực sự đơn giản về sự khác biệt thực tế giữa hai kỹ thuật này?
Cả hai dường như được sử dụng cho việc học có giám sát (mặc dù các quy tắc kết hợp cũng có thể xử lý không giám sát).
Cả hai có thể được sử dụng để dự đoán
Gần nhất tôi đã tìm thấy một mô tả 'tốt' là từ Sách giáo khoa Statsoft . Họ nói Quy tắc Hiệp hội được sử dụng để:
... Phát hiện mối quan hệ hoặc liên kết giữa các giá trị cụ thể của các biến phân loại trong các tập dữ liệu lớn.
Trong khi các trình phân loại Cây quyết định được mô tả là được sử dụng để:
... dự đoán thành viên của các trường hợp hoặc đối tượng trong các lớp của biến phụ thuộc phân loại từ các phép đo của chúng trên một hoặc nhiều biến dự đoán.
Tuy nhiên, tại R Data Mining, họ đưa ra một ví dụ về Quy tắc kết hợp đang được sử dụng với trường mục tiêu .
Vì vậy, cả hai có thể được sử dụng để dự đoán thành viên nhóm, sự khác biệt chính mà cây quyết định có thể xử lý dữ liệu đầu vào không phân loại trong khi quy tắc kết hợp không thể? Hoặc có một cái gì đó cơ bản hơn? Một trang web ( sqlserverdatamining.com ) nói rằng sự khác biệt chính là:
Các quy tắc cây quyết định dựa trên mức tăng thông tin trong khi quy tắc kết hợp dựa trên mức độ phổ biến và / hoặc độ tin cậy.
Vì vậy (có thể trả lời câu hỏi của riêng tôi) có nghĩa là các quy tắc kết hợp được đánh giá hoàn toàn về mức độ thường xuyên xuất hiện trong tập dữ liệu (và tần suất chúng là 'đúng') trong khi các cây quyết định thực sự đang cố gắng giảm thiểu phương sai?
Nếu bất cứ ai biết về một mô tả hay, họ sẽ sẵn sàng chỉ cho tôi hướng tới thì điều đó thật tuyệt.