Tôi đã phân tích một tập dữ liệu gồm ~ 400k bản ghi và 9 biến Biến phụ thuộc là nhị phân. Tôi đã trang bị hồi quy logistic, cây hồi quy, rừng ngẫu nhiên và cây tăng cường độ dốc. Tất cả chúng đều cho độ tốt giống hệt ảo của các số phù hợp khi tôi xác thực chúng trên một tập dữ liệu khác.
Tại sao cái này rất? Tôi đoán rằng đó là vì những quan sát của tôi về tỷ lệ biến rất cao. Nếu điều này là chính xác, tại quan sát tỷ lệ biến nào, các mô hình khác nhau sẽ bắt đầu cho kết quả khác nhau?