Câu trả lời ngắn
GIỎ HÀNG cần giúp đỡ trong việc nắm bắt các tương tác.
Câu trả lời dài
Lấy thuật toán tham lam chính xác (Chen và Guestrin, 2016):
Giá trị trung bình trên lá sẽ là một kỳ vọng có điều kiện, nhưng mọi phân chia trên đường đến lá là độc lập với nhau. Nếu Tính năng A không quan trọng nhưng nó tương tác với Tính năng B, thuật toán sẽ không phân tách trên Tính năng A. Nếu không có sự phân tách này, thuật toán không thể thấy trước sự phân tách trên Tính năng B, cần thiết để tạo ra sự tương tác.
Cây có thể chọn các tương tác trong các kịch bản đơn giản nhất. Nếu bạn có bộ dữ liệu với hai tính năng và đích , thuật toán không có gì để phân chia ngoài và , do đó, bạn sẽ nhận được bốn lá với ước tính đúng.x1,x2y=XOR(x1,x2)x1x2XOR
Với nhiều tính năng, chính quy hóa và giới hạn cứng về số lượng phân chia, cùng một thuật toán có thể bỏ qua các tương tác.
Cách giải quyết
Tương tác rõ ràng như các tính năng mới
Một ví dụ từ Zhang ("Chiến thắng các cuộc thi khoa học dữ liệu", 2015):
Thuật toán cây không tham lam
Trong câu hỏi khác, Simone đề xuất các thuật toán dựa trên giao diện và cây quyết định xiên .
Một cách tiếp cận học tập khác nhau
Một số phương pháp học tập xử lý các tương tác tốt hơn.
Dưới đây là bảng từ Các yếu tố của học thống kê (dòng "Khả năng trích xuất các kết hợp tuyến tính của các tính năng"):