Cây quyết định dường như là một phương pháp học máy rất dễ hiểu. Sau khi được tạo, nó có thể dễ dàng được kiểm tra bởi một con người, đó là một lợi thế lớn trong một số ứng dụng.
Các mặt yếu thực tế của cây quyết định là gì?
Cây quyết định dường như là một phương pháp học máy rất dễ hiểu. Sau khi được tạo, nó có thể dễ dàng được kiểm tra bởi một con người, đó là một lợi thế lớn trong một số ứng dụng.
Các mặt yếu thực tế của cây quyết định là gì?
Câu trả lời:
Đây là một cặp vợ chồng tôi có thể nghĩ ra:
Một số trong số này có liên quan đến vấn đề đa cộng tuyến : khi hai biến cả hai cùng giải thích một điều, một cây quyết định sẽ tham lam chọn cái tốt nhất, trong khi nhiều phương pháp khác sẽ sử dụng cả hai. Các phương pháp tập hợp như rừng ngẫu nhiên có thể phủ nhận điều này ở một mức độ nhất định, nhưng bạn mất đi sự dễ hiểu.
Tuy nhiên, vấn đề lớn nhất, theo quan điểm của tôi ít nhất, là thiếu một khuôn khổ xác suất nguyên tắc. Nhiều phương pháp khác có những thứ như khoảng tin cậy, phân phối sau, v.v., điều này cho chúng ta một số ý tưởng về việc một mô hình tốt như thế nào. Cây quyết định cuối cùng là một heuristic ad hoc, nó vẫn có thể rất hữu ích (chúng rất tuyệt vời trong việc tìm ra nguồn lỗi trong xử lý dữ liệu), nhưng có nguy cơ mọi người coi đầu ra là "mô hình chính xác" (từ tôi kinh nghiệm, điều này xảy ra rất nhiều trong tiếp thị).
Một nhược điểm là tất cả các điều khoản được giả định để tương tác. Đó là, bạn không thể có hai biến giải thích hoạt động độc lập. Mỗi biến trong cây buộc phải tương tác với mọi biến tiếp theo trên cây. Điều này cực kỳ không hiệu quả nếu có các biến không có hoặc tương tác yếu.
Câu trả lời của tôi được chuyển đến GIỎ HÀNG (việc triển khai C 4.5 / C 5) mặc dù tôi không nghĩ là bị giới hạn. Tôi đoán rằng đây là những gì OP có trong đầu - đó thường là ý nghĩa của ai đó khi họ nói "Cây quyết định".
Hạn chế của cây quyết định :
Hiệu năng thấp
Bởi 'hiệu suất' tôi không có nghĩa là độ phân giải, nhưng tốc độ thực hiện . Lý do tại sao nó nghèo là vì bạn cần phải 'vẽ lại cây' mỗi khi bạn muốn cập nhật mô hình GIỎ HÀNG - dữ liệu được phân loại bởi Cây đã được đào tạo, sau đó bạn muốn thêm vào Cây (nghĩa là sử dụng như một điểm dữ liệu đào tạo) yêu cầu bạn bắt đầu từ hơn - không thể thêm các trường hợp đào tạo, vì chúng có thể được áp dụng cho hầu hết các thuật toán học có giám sát khác. Có lẽ cách tốt nhất để nói điều này là Cây quyết định không thể được đào tạo ở chế độ trực tuyến, thay vì chỉ ở chế độ hàng loạt. Rõ ràng là bạn sẽ không nhận thấy giới hạn này nếu bạn không cập nhật trình phân loại của mình, nhưng sau đó tôi sẽ mong đợi rằng bạn sẽ thấy độ phân giải giảm.
Điều này rất quan trọng vì ví dụ, đối với Perceptionron nhiều lớp, khi được đào tạo, nó có thể bắt đầu phân loại dữ liệu; dữ liệu đó cũng có thể được sử dụng để 'điều chỉnh' trình phân loại đã được đào tạo, mặc dù với Cây quyết định, bạn cần phải đào tạo lại với toàn bộ tập dữ liệu (dữ liệu gốc được sử dụng trong đào tạo cộng với bất kỳ trường hợp mới nào).
Giải quyết kém về dữ liệu với các mối quan hệ phức tạp giữa các biến
Cây quyết định phân loại theo đánh giá từng bước một điểm dữ liệu của lớp chưa biết, một nút tại thời điểm, bắt đầu từ nút gốc và kết thúc bằng nút cuối. Và tại mỗi nút, chỉ có hai khả năng (trái-phải), do đó có một số mối quan hệ khác nhau mà Cây quyết định không thể học được.
Thực tế giới hạn trong phân loại
Cây quyết định hoạt động tốt nhất khi chúng được đào tạo để gán điểm dữ liệu cho một lớp - tốt nhất là một trong số ít các lớp có thể. Tôi không tin rằng mình đã từng có bất kỳ thành công nào khi sử dụng Cây quyết định trong chế độ hồi quy (nghĩa là đầu ra liên tục, chẳng hạn như giá hoặc doanh thu trọn đời dự kiến). Đây không phải là một giới hạn chính thức hoặc vốn có mà là một thực tế. Hầu hết thời gian, Cây quyết định được sử dụng để dự đoán các yếu tố hoặc kết quả riêng biệt.
Độ phân giải kém với các biến kỳ vọng liên tục
Một lần nữa, về nguyên tắc, bạn có thể có các biến độc lập như "thời gian tải xuống" hoặc "số ngày kể từ lần mua trực tuyến trước" - chỉ cần thay đổi tiêu chí chia tách của bạn thành phương sai (thường là Thông tin Entropy hoặc Gini tạp chất cho các biến rời rạc) nhưng trong tôi kinh nghiệm Cây quyết định hiếm khi hoạt động tốt trong những trường hợp này. Trường hợp ngoại lệ là các trường hợp như "tuổi của học sinh" trông có vẻ liên tục nhưng trong thực tế, phạm vi của các giá trị là khá nhỏ (đặc biệt nếu chúng được báo cáo là số nguyên).
Có những câu trả lời tốt ở đây, nhưng tôi ngạc nhiên rằng một điều chưa được nhấn mạnh. GIỎ HÀNG không đưa ra bất kỳ giả định phân phối nào về dữ liệu, đặc biệt là biến phản hồi. Ngược lại, hồi quy OLS (đối với các biến trả lời liên tục) và hồi quy logistic (đối với các biến trả lời phân loại nhất định), ví dụ, thực hiện các giả định mạnh mẽ; cụ thể, hồi quy OLS giả định rằng phản hồi được phân phối theo điều kiện thông thường và logistic giả định rằng phản hồi là nhị thức hoặc đa thức.
Việc thiếu những giả định như vậy là một con dao hai lưỡi. Khi những giả định đó không được đảm bảo, điều này mang lại cho cách tiếp cận một lợi thế tương đối. Mặt khác, khi các giả định đó nắm giữ, có thể trích xuất thêm thông tin từ dữ liệu bằng cách tính đến các sự kiện đó. Đó là, các phương pháp hồi quy tiêu chuẩn có thể có nhiều thông tin hơn GIỎ HÀNG khi các giả định là đúng.