Đối với mô hình dự đoán, chúng ta có cần quan tâm đến các khái niệm thống kê như hiệu ứng ngẫu nhiên và không độc lập của các quan sát (các biện pháp lặp đi lặp lại) không? Ví dụ....
Tôi có dữ liệu từ 5 chiến dịch thư trực tiếp (diễn ra trong suốt một năm) với các thuộc tính khác nhau và cờ để mua. Lý tưởng nhất là tôi sẽ sử dụng tất cả dữ liệu này kết hợp để xây dựng mô hình mua các thuộc tính khách hàng nhất định tại thời điểm chiến dịch. Lý do là sự kiện mua hàng rất hiếm và tôi muốn sử dụng càng nhiều thông tin càng tốt. Có khả năng một khách hàng nhất định có thể có mặt ở bất kỳ nơi nào từ 1 đến 5 trong số các chiến dịch - có nghĩa là không có sự độc lập giữa các hồ sơ.
Có vấn đề này khi sử dụng:
1) Phương pháp học máy (ví dụ: cây, MLP, SVM)
2) Một cách tiếp cận thống kê (hồi quy logistic)?
**ADD:**
Suy nghĩ của tôi về mô hình dự đoán là nếu mô hình hoạt động, sử dụng nó. Vì vậy mà tôi chưa bao giờ thực sự xem xét tầm quan trọng của các giả định. Suy nghĩ về trường hợp tôi mô tả ở trên khiến tôi băn khoăn.
Lấy các thuật toán học máy như a MLP and SVM
. Chúng được sử dụng thành công để mô hình hóa một sự kiện nhị phân như ví dụ của tôi ở trên nhưng cũng là dữ liệu chuỗi thời gian có mối tương quan rõ ràng. Tuy nhiên, nhiều hàm sử dụng mất khả năng và có nguồn gốc giả định rằng các lỗi là iid. Ví dụ, các cây được tăng cường độ dốc trong R gbm
sử dụng các hàm mất lệch được lấy từ nhị thức ( Trang 10 ).