Làm thế nào nên phân chia cây quyết định khi dự đoán các biến liên tục?


15

Tôi thực sự đang viết một triển khai Rừng ngẫu nhiên nhưng tôi tin rằng câu hỏi dành riêng cho cây quyết định (không phụ thuộc vào RF).

Vì vậy, bối cảnh là tôi đang tạo một nút trong cây quyết định và cả hai biến dự đoán và biến đích đều liên tục. Nút có ngưỡng phân chia dữ liệu phân vùng thành hai bộ và tôi tạo dự đoán mới cho mỗi tập hợp con dựa trên giá trị mục tiêu trung bình trong mỗi bộ. Đây có phải là cách tiếp cận chính xác?

Lý do tôi hỏi là khi dự đoán các biến nhị phân, tôi tin rằng cách tiếp cận (chính xác?) Điển hình là chia dữ liệu thành các tập con 0 và 1 mà không lấy trung bình trên các hàng dữ liệu trong mỗi tập hợp con. Các phân chia tiếp theo sẽ phân chia thành các tập hợp hạt nhỏ hơn và lấy trung bình ở mỗi kết quả phân tách, các phân tách tiếp theo (hạ cây quyết định) hoạt động trên các biến hiện là biến liên tục thay vì biến nhị phân (vì chúng tôi đang hoạt động trên các giá trị lỗi còn lại thay vì ban đầu mục tiêu).

Câu hỏi phụ: Sự khác biệt giữa hai cách tiếp cận (nhị phân so với liên tục) có ý nghĩa - hay chúng thực sự sẽ cho kết quả giống hệt nhau cho một cây quyết định hoàn chỉnh?


1
Việc phân tách trên một biến liên tục sẽ đảm bảo làm cho "mô hình" kết quả không phù hợp với dữ liệu. Nếu bạn có một X liên tục và một Y liên tục, hãy cân nhắc việc sử dụng chất lỏng không đối xứng hoàng thổ.
Frank Harrell

Vấn đề tôi đang làm việc hiện tại có nhiều biến dự đoán (kết hợp giữa liên tục và nhị phân) và một biến mục tiêu duy nhất. Do đó tôi tin rằng RF là một cách tiếp cận hợp lý để thực hiện.
redcalx

2
Rất có thể là như vậy. Nhưng một khu rừng ngẫu nhiên là một hỗn hợp của các cây (nó không phải là cây quyết định), do đó, nó xấp xỉ các mối quan hệ liên tục bằng cách thực hiện nhiều lần phân tách và thực tế là sử dụng co rút. Vì vậy, tôi không nghĩ rằng câu hỏi ban đầu của bạn áp dụng, nếu tôi hiểu nó.
Frank Harrell

Tôi đang bị cám dỗ để nói rằng mô tả của bạn trong những trường hợp liên tục là đúng (tức là cách tiêu chuẩn làm việc), nhưng sau đó mô tả của bạn trong những trường hợp biến nhị phân không phù hợp chút nào với sự hiểu biết của tôi về rừng cách ngẫu nhiên (hoặc quyết định cây cối) hoạt động, vì vậy tôi lo lắng rằng một trong số chúng ta bối rối.
Joran

@joran. Yah, bằng cách buộc các dự đoán là 0 hoặc 1, bạn sẽ mất khả năng điều chỉnh tinh tế cho các dự đoán (từ 0 đến 1) có thể làm giảm lỗi (ví dụ: lỗi dự đoán bình phương). Vì vậy, tôi nghi ngờ rằng cách tiếp cận là kém hơn. Tôi đã thử nó và hầu hết các nỗ lực xây dựng cây quyết định đều không tìm thấy ngay cả một phân tách duy nhất giúp cải thiện lỗi.
redcalx

Câu trả lời:


10

Một vấn đề tiềm năng với cây là chúng có xu hướng khớp kém ở đuôi. Hãy nghĩ về một nút thiết bị đầu cuối nắm bắt phạm vi thấp của tập huấn luyện. Nó sẽ dự đoán bằng cách sử dụng giá trị trung bình của các điểm tập huấn, sẽ luôn dự đoán trước kết quả (vì đó là giá trị trung bình).

Bạn có thể thử cây mô hình [1]. Chúng sẽ phù hợp với các mô hình tuyến tính trong các nút đầu cuối và (tôi nghĩ) thực hiện công việc tốt hơn các cây hồi quy. Tốt hơn nữa, hãy sử dụng một phiên bản phát triển hơn có tên là Cubist kết hợp các cách tiếp cận khác nhau ([1] và [2] bên dưới).

Những mô hình này cũng xử lý các dự đoán liên tục và rời rạc khác nhau. Họ có thể thực hiện phân chia nhiều cách cho các biến phân loại. Tiêu chí chia tách rất giống với cây GIỎI.

Cây mô hình có thể được tìm thấy trong R trong gói Rweka (được gọi là 'M5P') và Cubist nằm trong gói Cubist. Tất nhiên, bạn cũng có thể sử dụng Weka và Cubist có phiên bản C có sẵn tại trang web RuleQuest.

[1] Quinlan, J. (1992). Học với các lớp liên tục. Kỷ yếu của Hội nghị chung Úc lần thứ 5 về Trí tuệ nhân tạo, 343 Từ348.

[2] Quinlan, J. (1993). Kết hợp học tập dựa trên cá thể và dựa trên mô hình. Kỷ yếu hội thảo quốc tế lần thứ mười về học máy, 236 từ243.


1
Bạn không thể có những cái cây sâu hơn để giảm thiểu sự phù hợp với đuôi?
Jase
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.