Sự khác biệt thực tế giữa các quy tắc kết hợp và cây quyết định trong khai thác dữ liệu là gì?


19

Có một mô tả thực sự đơn giản về sự khác biệt thực tế giữa hai kỹ thuật này?

  • Cả hai dường như được sử dụng cho việc học có giám sát (mặc dù các quy tắc kết hợp cũng có thể xử lý không giám sát).

  • Cả hai có thể được sử dụng để dự đoán

Gần nhất tôi đã tìm thấy một mô tả 'tốt' là từ Sách giáo khoa Statsoft . Họ nói Quy tắc Hiệp hội được sử dụng để:

... Phát hiện mối quan hệ hoặc liên kết giữa các giá trị cụ thể của các biến phân loại trong các tập dữ liệu lớn.

Trong khi các trình phân loại Cây quyết định được mô tả là được sử dụng để:

... dự đoán thành viên của các trường hợp hoặc đối tượng trong các lớp của biến phụ thuộc phân loại từ các phép đo của chúng trên một hoặc nhiều biến dự đoán.

Tuy nhiên, tại R Data Mining, họ đưa ra một ví dụ về Quy tắc kết hợp đang được sử dụng với trường mục tiêu .

Vì vậy, cả hai có thể được sử dụng để dự đoán thành viên nhóm, sự khác biệt chính mà cây quyết định có thể xử lý dữ liệu đầu vào không phân loại trong khi quy tắc kết hợp không thể? Hoặc có một cái gì đó cơ bản hơn? Một trang web ( sqlserverdatamining.com ) nói rằng sự khác biệt chính là:

Các quy tắc cây quyết định dựa trên mức tăng thông tin trong khi quy tắc kết hợp dựa trên mức độ phổ biến và / hoặc độ tin cậy.

Vì vậy (có thể trả lời câu hỏi của riêng tôi) có nghĩa là các quy tắc kết hợp được đánh giá hoàn toàn về mức độ thường xuyên xuất hiện trong tập dữ liệu (và tần suất chúng là 'đúng') trong khi các cây quyết định thực sự đang cố gắng giảm thiểu phương sai?

Nếu bất cứ ai biết về một mô tả hay, họ sẽ sẵn sàng chỉ cho tôi hướng tới thì điều đó thật tuyệt.

Câu trả lời:


14

F= =F1,Giáo dục,FmCFCF

t1= ={tôi1,tôi2}t2= ={tôi1,tôi3,tôi4,tôi5}t3= ={tôi2,tôi3,tôi4,tôi5}tn= ={tôi2,tôi3,tôi4,tôi5}
{tôi3,tôi5}{tôi4}

Nó chỉ ra rằng bạn có thể sử dụng phân tích liên kết cho một số nhiệm vụ phân loại cụ thể, ví dụ như khi tất cả các tính năng của bạn là phân loại. Bạn chỉ cần xem các mục là các tính năng, nhưng đây không phải là phân tích hiệp hội được sinh ra để làm gì.


3
  • "Các quy tắc kết hợp nhằm tìm ra tất cả các quy tắc trên các ngưỡng nhất định liên quan đến các tập hợp con của các bản ghi chồng chéo, trong khi các cây quyết định tìm các vùng trong không gian nơi hầu hết các bản ghi thuộc cùng một lớp. Mặt khác, các cây quyết định có thể bỏ lỡ nhiều quy tắc dự đoán được tìm thấy bởi các quy tắc kết hợp bởi vì chúng liên tiếp phân vùng thành các tập con nhỏ hơn. Khi một quy tắc được tìm thấy bởi cây quyết định không được tìm thấy bởi các quy tắc kết hợp, đó là do một ràng buộc cắt xén không gian tìm kiếm hoặc vì sự hỗ trợ hoặc độ tin cậy quá cao. "

  • "Các thuật toán quy tắc kết hợp có thể chậm, mặc dù có nhiều tối ưu hóa được đề xuất trong tài liệu vì chúng hoạt động trên một không gian tổ hợp, trong khi các cây quyết định có thể tương đối nhanh hơn nhiều vì mỗi phân tách thu được các tập con nhỏ hơn liên tiếp."

  • Một vấn đề khác là các cây quyết định có thể lặp lại cùng một thuộc tính nhiều lần cho cùng một quy tắc vì thuộc tính đó là một phân biệt đối xử tốt. Đây không phải là một vấn đề lớn vì các quy tắc là liên từ và do đó quy tắc có thể được đơn giản hóa thành một khoảng cho thuộc tính, nhưng khoảng đó thường sẽ nhỏ và quy tắc quá cụ thể. "

Ngoại trừ:

Ordonez, C., & Zhao, K. (2011). Đánh giá các quy tắc kết hợp và cây quyết định để dự đoán nhiều thuộc tính mục tiêu. Phân tích dữ liệu thông minh, 15 (2), 173 Công1919.

Một bài viết hay về chủ đề này, chắc chắn đáng đọc.


2

Chúng tôi có thể lập luận rằng cả quy tắc kết hợp và cây quyết định đề xuất một bộ quy tắc cho người dùng và do đó cả hai đều giống nhau, nhưng chúng tôi phải hiểu sự khác biệt về mặt lý thuyết giữa cây quyết định và quy tắc kết hợp và hơn nữa các quy tắc được đề xuất bởi cả hai đều khác nhau về ý nghĩa hoặc đang sử dụng.

Thứ nhất, cây quyết định là một cách tiếp cận có giám sát trong đó thuật toán cố gắng dự đoán "kết quả". Một ví dụ điển hình về "kết quả" trong các tình huống thực tế có thể là, ví dụ như khuấy đảo, lừa đảo, phản ứng với chiến dịch, v.v. Vì vậy, quy tắc cây quyết định được sử dụng để dự đoán kết quả.

Học quy tắc kết hợp là một cách tiếp cận không giám sát, trong đó thuật toán cố gắng tìm các liên kết giữa các mục, thường trong các cơ sở dữ liệu thương mại lớn. Một ví dụ điển hình của cơ sở dữ liệu thương mại lớn là một cơ sở chứa các giao dịch của các nhà bán lẻ, chẳng hạn như lịch sử mua hàng của khách hàng trên một trang web thương mại điện tử. Các mặt hàng có thể là sản phẩm được mua từ các cửa hàng hoặc phim được xem trên nền tảng phát trực tuyến. Học quy tắc hiệp hội là tất cả về cách mua một sản phẩm đang gây ra việc mua một sản phẩm khác.

Thứ hai, cây quyết định được xây dựng dựa trên một số số liệu không chắc chắn / không chắc chắn, ví dụ mức tăng thông tin, hệ số Gini hoặc entropy, trong khi các quy tắc kết hợp được dựa trên sự hỗ trợ, độ tin cậy và độ nâng.

Thứ ba, vì cây quyết định là cách tiếp cận "có giám sát", độ chính xác của nó là có thể đo lường được, trong khi học quy tắc kết hợp là cách tiếp cận "không giám sát", và do đó độ chính xác của nó là chủ quan.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.