Cây GIỎI có nắm bắt được sự tương tác giữa các yếu tố dự đoán không?


9

Bài viết này tuyên bố rằng trong GIỎI, vì phân chia nhị phân được thực hiện trên một hiệp phương sai duy nhất ở mỗi bước, tất cả các phân chia là trực giao và do đó tương tác giữa các hiệp phương sai không được xem xét.

Tuy nhiên, ngược lại, rất nhiều tài liệu tham khảo rất nghiêm túc khẳng định rằng cấu trúc phân cấp của cây đảm bảo rằng sự tương tác giữa các yếu tố dự đoán được tự động mô hình hóa (ví dụ, bài báo này , và dĩ nhiên là cả Hastie).

Ai đúng Các cây trồng GIỎI có nắm bắt được các tương tác giữa các biến đầu vào không?


Lỗ hổng trong đối số là các phần tách được thực hiện trên các tập hợp con của hiệp phương sai được xác định bởi các phần tách được thực hiện trước đó.

.... "...
Antoine

Câu trả lời:


12

GIỎ HÀNG có thể chụp hiệu ứng tương tác. Hiệu ứng tương tác giữa và xảy ra khi hiệu ứng của biến giải thích đối với biến trả lời phụ thuộc vào mức độ . Điều này xảy ra trong ví dụ sau:X1X2X1YX2

nhập mô tả hình ảnh ở đây

Ảnh hưởng của điều kiện kinh tế kém (gọi đây là ) tùy thuộc vào loại tòa nhà nào được mua ( ). Khi đầu tư vào một tòa nhà văn phòng, điều kiện kinh tế kém làm giảm 140.000 đô la giá trị dự đoán của khoản đầu tư. Nhưng khi đầu tư vào một tòa nhà chung cư, giá trị dự đoán của khoản đầu tư giảm 20.000 đô la. Ảnh hưởng của điều kiện kinh tế kém đến giá trị dự đoán của khoản đầu tư của bạn phụ thuộc vào loại tài sản được mua. Đây là một hiệu ứng tương tác.X1X2


2

Câu trả lời ngắn

GIỎ HÀNG cần giúp đỡ trong việc nắm bắt các tương tác.

Câu trả lời dài

Lấy thuật toán tham lam chính xác (Chen và Guestrin, 2016):

Thuật toán tham lam chính xác

Giá trị trung bình trên lá sẽ là một kỳ vọng có điều kiện, nhưng mọi phân chia trên đường đến lá là độc lập với nhau. Nếu Tính năng A không quan trọng nhưng nó tương tác với Tính năng B, thuật toán sẽ không phân tách trên Tính năng A. Nếu không có sự phân tách này, thuật toán không thể thấy trước sự phân tách trên Tính năng B, cần thiết để tạo ra sự tương tác.

Cây có thể chọn các tương tác trong các kịch bản đơn giản nhất. Nếu bạn có bộ dữ liệu với hai tính năng và đích , thuật toán không có gì để phân chia ngoài và , do đó, bạn sẽ nhận được bốn lá với ước tính đúng.x1,x2y=XOR(x1,x2)x1x2XOR

Với nhiều tính năng, chính quy hóa và giới hạn cứng về số lượng phân chia, cùng một thuật toán có thể bỏ qua các tương tác.

Cách giải quyết

Tương tác rõ ràng như các tính năng mới

Một ví dụ từ Zhang ("Chiến thắng các cuộc thi khoa học dữ liệu", 2015):

Zhang về tương tác

Thuật toán cây không tham lam

Trong câu hỏi khác, Simone đề xuất các thuật toán dựa trên giao diện và cây quyết định xiên .

Một cách tiếp cận học tập khác nhau

Một số phương pháp học tập xử lý các tương tác tốt hơn.

Dưới đây là bảng từ Các yếu tố của học thống kê (dòng "Khả năng trích xuất các kết hợp tuyến tính của các tính năng"):

So sánh phương pháp học tập

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.