Mặt yếu của cây quyết định là gì?


34

Cây quyết định dường như là một phương pháp học máy rất dễ hiểu. Sau khi được tạo, nó có thể dễ dàng được kiểm tra bởi một con người, đó là một lợi thế lớn trong một số ứng dụng.

Các mặt yếu thực tế của cây quyết định là gì?

Câu trả lời:


37

Đây là một cặp vợ chồng tôi có thể nghĩ ra:

  • Chúng có thể cực kỳ nhạy cảm với những nhiễu loạn nhỏ trong dữ liệu: một thay đổi nhỏ có thể dẫn đến một cây khác biệt mạnh mẽ.
  • Họ có thể dễ dàng tập luyện quá sức. Điều này có thể được phủ định bằng các phương pháp xác nhận và cắt tỉa, nhưng đây là một khu vực màu xám.
  • Họ có thể có vấn đề ngoài dự đoán mẫu (điều này có liên quan đến việc họ không được trơn tru).

Một số trong số này có liên quan đến vấn đề đa cộng tuyến : khi hai biến cả hai cùng giải thích một điều, một cây quyết định sẽ tham lam chọn cái tốt nhất, trong khi nhiều phương pháp khác sẽ sử dụng cả hai. Các phương pháp tập hợp như rừng ngẫu nhiên có thể phủ nhận điều này ở một mức độ nhất định, nhưng bạn mất đi sự dễ hiểu.

Tuy nhiên, vấn đề lớn nhất, theo quan điểm của tôi ít nhất, là thiếu một khuôn khổ xác suất nguyên tắc. Nhiều phương pháp khác có những thứ như khoảng tin cậy, phân phối sau, v.v., điều này cho chúng ta một số ý tưởng về việc một mô hình tốt như thế nào. Cây quyết định cuối cùng là một heuristic ad hoc, nó vẫn có thể rất hữu ích (chúng rất tuyệt vời trong việc tìm ra nguồn lỗi trong xử lý dữ liệu), nhưng có nguy cơ mọi người coi đầu ra là "mô hình chính xác" (từ tôi kinh nghiệm, điều này xảy ra rất nhiều trong tiếp thị).


2
Từ quan điểm ML, cây có thể được kiểm tra theo cách tương tự như bất kỳ phân loại nào khác (ví dụ CV). Tuy nhiên, điều đó cho thấy rằng sự phù hợp quá mức đã xảy ra ;-) Ngoài ra, RF thoát khỏi tình trạng đa hình không phải vì nó là do tập hợp, mà bởi vì cây của nó là tối ưu.

2
Để biết khung xác suất của các cây quyết định, hãy xem DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ) dựa trên bài báo "Wallace CS & Patrick JD,` Mã hóa cây quyết định ', Machine Learning , 11, 1993, tr7-22 ".
emakalic

2
Ngoài ra, không thể có được CI (cho các dự đoán) bằng cách sử dụng bootstrapping?
Tal Galili

@Simon Byrne, tôi có một câu hỏi liên quan đến nhận xét của bạn "Tuy nhiên, vấn đề lớn nhất, theo quan điểm của tôi ít nhất, là thiếu một khuôn khổ xác suất nguyên tắc". Tha thứ cho sự thiếu hiểu biết của tôi, nhưng bạn có thể vui lòng chỉ cho tôi một số khuôn khổ xác suất nguyên tắc thực tế (cụ thể là trong bối cảnh phân loại). Tôi rất quan tâm đến giới hạn này của cây quyết định.
Amelio Vazquez-Reina

2
@AmV, một ví dụ sẽ là hồi quy logistic: chúng ta có thể sử dụng thực tế là mỗi quan sát xuất phát từ nhị thức để có được khoảng tin cậy / khoảng tin cậy và kiểm tra các giả định của mô hình.
Simon Byrne

23

Một nhược điểm là tất cả các điều khoản được giả định để tương tác. Đó là, bạn không thể có hai biến giải thích hoạt động độc lập. Mỗi biến trong cây buộc phải tương tác với mọi biến tiếp theo trên cây. Điều này cực kỳ không hiệu quả nếu có các biến không có hoặc tương tác yếu.


Tôi tự hỏi liệu đây có phải là một hạn chế thực tế hay không - đối với một biến chỉ ảnh hưởng yếu đến việc phân loại, trực giác của tôi là Cây sẽ không bị phân tách trên biến đó (nghĩa là nó sẽ không phải là một nút) nó vô hình khi phân loại cây quyết định.
doug

Tôi đang nói về tương tác yếu, không ảnh hưởng yếu đến phân loại. Một tương tác là một mối quan hệ giữa hai trong số các biến dự đoán.
Rob Hyndman

2
Điều này có thể không hiệu quả, nhưng cấu trúc cây có thể xử lý nó.

Đó là lý do tại sao tôi nói không hiệu quả thay vì thiên vị hoặc không chính xác. Nếu bạn có vô số dữ liệu, nó không thành vấn đề. Nhưng nếu bạn lắp một cây cho vài trăm quan sát so với các tương tác giả định có thể làm giảm đáng kể độ chính xác dự đoán.
Rob Hyndman

2
Đồng ý; Tôi chỉ muốn làm nổi bật nó. Tuy nhiên, tôi nghĩ rằng việc giảm độ chính xác dự đoán có thể được loại bỏ bằng cách sử dụng đào tạo phù hợp; trong phát sinh học, vấn đề tương tự (tính tham lam) đã giảm đi khi quét Monte Carlo không gian cây có thể để tìm khả năng tối đa - tôi không biết có cách tiếp cận tương tự nào trong thống kê không, có lẽ không ai bị làm phiền bởi vấn đề này mức độ.

12

Câu trả lời của tôi được chuyển đến GIỎ HÀNG (việc triển khai C 4.5 / C 5) mặc dù tôi không nghĩ là bị giới hạn. Tôi đoán rằng đây là những gì OP có trong đầu - đó thường là ý nghĩa của ai đó khi họ nói "Cây quyết định".

Hạn chế của cây quyết định :


Hiệu năng thấp

Bởi 'hiệu suất' tôi không có nghĩa là độ phân giải, nhưng tốc độ thực hiện . Lý do tại sao nó nghèo là vì bạn cần phải 'vẽ lại cây' mỗi khi bạn muốn cập nhật mô hình GIỎ HÀNG - dữ liệu được phân loại bởi Cây đã được đào tạo, sau đó bạn muốn thêm vào Cây (nghĩa là sử dụng như một điểm dữ liệu đào tạo) yêu cầu bạn bắt đầu từ hơn - không thể thêm các trường hợp đào tạo, vì chúng có thể được áp dụng cho hầu hết các thuật toán học có giám sát khác. Có lẽ cách tốt nhất để nói điều này là Cây quyết định không thể được đào tạo ở chế độ trực tuyến, thay vì chỉ ở chế độ hàng loạt. Rõ ràng là bạn sẽ không nhận thấy giới hạn này nếu bạn không cập nhật trình phân loại của mình, nhưng sau đó tôi sẽ mong đợi rằng bạn sẽ thấy độ phân giải giảm.

Điều này rất quan trọng vì ví dụ, đối với Perceptionron nhiều lớp, khi được đào tạo, nó có thể bắt đầu phân loại dữ liệu; dữ liệu đó cũng có thể được sử dụng để 'điều chỉnh' trình phân loại đã được đào tạo, mặc dù với Cây quyết định, bạn cần phải đào tạo lại với toàn bộ tập dữ liệu (dữ liệu gốc được sử dụng trong đào tạo cộng với bất kỳ trường hợp mới nào).


Giải quyết kém về dữ liệu với các mối quan hệ phức tạp giữa các biến

Cây quyết định phân loại theo đánh giá từng bước một điểm dữ liệu của lớp chưa biết, một nút tại thời điểm, bắt đầu từ nút gốc và kết thúc bằng nút cuối. Và tại mỗi nút, chỉ có hai khả năng (trái-phải), do đó có một số mối quan hệ khác nhau mà Cây quyết định không thể học được.


Thực tế giới hạn trong phân loại

Cây quyết định hoạt động tốt nhất khi chúng được đào tạo để gán điểm dữ liệu cho một lớp - tốt nhất là một trong số ít các lớp có thể. Tôi không tin rằng mình đã từng có bất kỳ thành công nào khi sử dụng Cây quyết định trong chế độ hồi quy (nghĩa là đầu ra liên tục, chẳng hạn như giá hoặc doanh thu trọn đời dự kiến). Đây không phải là một giới hạn chính thức hoặc vốn có mà là một thực tế. Hầu hết thời gian, Cây quyết định được sử dụng để dự đoán các yếu tố hoặc kết quả riêng biệt.


Độ phân giải kém với các biến kỳ vọng liên tục

Một lần nữa, về nguyên tắc, bạn có thể có các biến độc lập như "thời gian tải xuống" hoặc "số ngày kể từ lần mua trực tuyến trước" - chỉ cần thay đổi tiêu chí chia tách của bạn thành phương sai (thường là Thông tin Entropy hoặc Gini tạp chất cho các biến rời rạc) nhưng trong tôi kinh nghiệm Cây quyết định hiếm khi hoạt động tốt trong những trường hợp này. Trường hợp ngoại lệ là các trường hợp như "tuổi của học sinh" trông có vẻ liên tục nhưng trong thực tế, phạm vi của các giá trị là khá nhỏ (đặc biệt nếu chúng được báo cáo là số nguyên).


1
+1 cho cuộc gọi tốt trên góc hiệu suất, thường không có đủ phát. Tôi đã thấy Cây quyết định gặp vấn đề về hiệu năng trên một số nền tảng phần mềm được thiết kế cho các bộ dữ liệu lớn (như SQL Server), ít nhất là so với các phương pháp khai thác dữ liệu khác. Điều này là ngoài vấn đề đào tạo lại toàn bộ bạn đưa ra. Nó dường như trở nên tồi tệ hơn trong trường hợp xảy ra quá mức (mặc dù điều đó có thể nói về nhiều thuật toán khai thác khác).
SQLServerSteve

10

Có những câu trả lời tốt ở đây, nhưng tôi ngạc nhiên rằng một điều chưa được nhấn mạnh. GIỎ HÀNG không đưa ra bất kỳ giả định phân phối nào về dữ liệu, đặc biệt là biến phản hồi. Ngược lại, hồi quy OLS (đối với các biến trả lời liên tục) và hồi quy logistic (đối với các biến trả lời phân loại nhất định), ví dụ, thực hiện các giả định mạnh mẽ; cụ thể, hồi quy OLS giả định rằng phản hồi được phân phối theo điều kiện thông thường và logistic giả định rằng phản hồi là nhị thức hoặc đa thức.

Việc thiếu những giả định như vậy là một con dao hai lưỡi. Khi những giả định đó không được đảm bảo, điều này mang lại cho cách tiếp cận một lợi thế tương đối. Mặt khác, khi các giả định đó nắm giữ, có thể trích xuất thêm thông tin từ dữ liệu bằng cách tính đến các sự kiện đó. Đó là, các phương pháp hồi quy tiêu chuẩn có thể có nhiều thông tin hơn GIỎ HÀNG khi các giả định là đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.