Là tổng của hai cây quyết định tương đương với một cây quyết định?


15

Giả sử chúng ta có hai cây hồi quy (cây A và cây B) rằng tấm bản đồ đầu vào để đầu ra yR . Hãy để y = f Một ( x ) cho cây A và f B ( x ) cho cây B. Mỗi cây sử dụng chia nhị phân, với siêu phẳng như các chức năng tách.xRdy^Ry^= =fMột(x)fB(x)

Bây giờ, giả sử chúng ta lấy một tổng trọng số của các đầu ra của cây:

fC(x)= =wMột fMột(x)+wB fB(x)

Hàm tương đương với cây hồi quy đơn (sâu hơn) không? fCNếu câu trả lời là "đôi khi", thì trong những điều kiện nào?

Lý tưởng nhất là tôi muốn cho phép các siêu phẳng xiên (tức là các phần tách được thực hiện trên các kết hợp tuyến tính của các tính năng). Nhưng, giả sử chia tách một tính năng có thể ổn nếu đó là câu trả lời duy nhất có sẵn.

Thí dụ

Dưới đây là hai cây hồi quy được xác định trên không gian đầu vào 2d:

nhập mô tả hình ảnh ở đây

Hình hiển thị cách mỗi phân vùng cây không gian đầu vào và đầu ra cho từng vùng (được mã hóa theo thang độ xám). Số màu biểu thị các vùng của không gian đầu vào: 3,4,5,6 tương ứng với các nút lá. 1 là liên minh của 3 & 4, v.v.

Bây giờ giả sử chúng ta trung bình sản lượng của cây A và B:

nhập mô tả hình ảnh ở đây

Sản lượng trung bình được vẽ ở bên trái, với ranh giới quyết định của cây A và B được đặt chồng lên nhau. Trong trường hợp này, có thể xây dựng một cây sâu hơn, đơn lẻ có đầu ra tương đương với mức trung bình (được vẽ ở bên phải). Mỗi nút tương ứng với một vùng không gian đầu vào có thể được xây dựng ngoài các vùng được xác định bởi cây A và B (được biểu thị bằng số màu trên mỗi nút; nhiều số biểu thị giao điểm của hai vùng). Lưu ý rằng cây này không phải là duy nhất - chúng ta có thể đã bắt đầu xây dựng từ cây B thay vì cây A.

Ví dụ này cho thấy có trường hợp câu trả lời là "có". Tôi muốn biết liệu điều này luôn luôn đúng.


2
Hmm .. Nếu đó là trường hợp tại sao chúng ta sẽ đào tạo một khu rừng ngẫu nhiên? (Bởi vì rõ ràng sự kết hợp tuyến tính của 500 cây có thể được biểu thị lại thành tổng cộng theo cặp có trọng số là 49 cây) Câu hỏi hay, +1.
usεr11852 nói Phục hồi Monic

Câu hỏi thú vị! Tôi sẽ giả sử không gian giả thuyết của các cây quyết định và các cây quyết định (tăng cường, kết hợp tuyến tính của các cây) là như nhau. Mong chờ câu trả lời ..
Laksan Nathan 23/03/18

@ usεr11852 Có lẽ vì sử dụng một cây rất lớn thay vì rừng chậm hơn rất nhiều? Giống như trong các mạng thần kinh, một mạng lớp ẩn có thể xấp xỉ tất cả các chức năng liên tục nhưng việc thêm các lớp làm cho mạng nhanh hơn. Không nói đây là trường hợp ở đây nhưng nó có thể.
Harto Saarinen

1
@HartoSaarinen: Đây là một cách suy nghĩ thú vị về điều này nhưng tôi nghi ngờ nó không dễ dàng nắm giữ. Người ta chấp nhận rằng những cây rất sâu có thể quá phù hợp và khái quát kém (dự đoán của chúng cũng khá không ổn định). Ngoài ra (liên quan đến cân nhắc tốc độ) cây sâu hơn đòi hỏi phải chia nhiều hơn theo cấp số nhân và do đó thời gian đào tạo nhiều hơn. (Một cây có chiều sâu 10 có ít nhất 1023 chia tách nhưng một cây có chiều sâu 20, 1.048.575 chia Rất nhiều công việc hơn.!)
usεr11852 nói Khôi phục Monic

1
@ usεr11852 Tôi đồng ý rằng nó có thể hoàn toàn sai sự thật và câu trả lời có thể là một cái gì đó hoàn toàn khác. Đây là những gì làm cho lĩnh vực này rất thú vị tại thời điểm này, siêu nhiều điều sẽ được khám phá!
Harto Saarinen

Câu trả lời:


6

Đúng, tổng trọng số của cây hồi quy tương đương với cây hồi quy đơn (sâu hơn).

Hàm xấp xỉ phổ quát

Cây hồi quy là một xấp xỉ hàm phổ quát (xem ví dụ cstheory ). Hầu hết các nghiên cứu về xấp xỉ chức năng phổ quát được thực hiện trên các mạng thần kinh nhân tạo với một lớp ẩn (đọc blog tuyệt vời này ). Tuy nhiên, hầu hết các thuật toán học máy là xấp xỉ hàm phổ quát.

Là một hàm xấp xỉ hàm phổ quát có nghĩa là bất kỳ hàm tùy ý nào cũng có thể được biểu diễn xấp xỉ. Do đó, cho dù hàm có phức tạp đến đâu, một xấp xỉ hàm phổ có thể biểu diễn nó với bất kỳ độ chính xác mong muốn nào. Trong trường hợp cây hồi quy, bạn có thể tưởng tượng một cây sâu vô hạn. Cây sâu vô hạn này có thể gán bất kỳ giá trị nào cho bất kỳ điểm nào trong không gian.

Do tổng trọng số của cây hồi quy là một hàm tùy ý khác, nên tồn tại một cây hồi quy khác đại diện cho hàm đó.

Một thuật toán để tạo ra một cây như vậy

T1T2T2T1T1T2

Ví dụ dưới đây cho thấy hai cây đơn giản được thêm trọng lượng 0,5. Lưu ý rằng một nút sẽ không bao giờ đạt được, bởi vì không tồn tại một số nhỏ hơn 3 và lớn hơn 5. Điều này cho thấy rằng những cây này có thể được cải thiện, nhưng nó không làm cho chúng không hợp lệ.

nhập mô tả hình ảnh ở đây

Tại sao sử dụng thuật toán phức tạp hơn

Một câu hỏi bổ sung thú vị đã được @ usεr11852 đưa ra trong các nhận xét: tại sao chúng ta sẽ sử dụng thuật toán tăng cường (hoặc trên thực tế là bất kỳ thuật toán học máy phức tạp nào) nếu mọi chức năng có thể được mô hình hóa bằng cây hồi quy đơn giản?

Cây hồi quy thực sự có thể đại diện cho bất kỳ chức năng nào nhưng đó chỉ là một tiêu chí cho thuật toán học máy. Một tài sản quan trọng khác là họ khái quát như thế nào. Cây hồi quy sâu dễ bị quá mức, tức là chúng không khái quát tốt. Một khu rừng ngẫu nhiên trung bình rất nhiều cây sâu để ngăn chặn điều này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.