Tôi muốn đánh giá một số mô hình khác nhau cung cấp dự đoán hành vi ở cấp độ hàng tháng. Dữ liệu được cân bằng và 100.000 và 12. Kết quả là tham dự một buổi hòa nhạc trong một tháng nhất định, do đó, con số này không bằng ~ 80% số người trong bất kỳ tháng nào, nhưng có một lượng lớn người dùng nặng. Những dự đoán mà tôi dường như không tôn trọng bản chất đếm của kết quả: các buổi hòa nhạc phân đoạn là phổ biến.
Tôi không biết gì về các mô hình. Tôi chỉ quan sát 6 dự đoán hộp đen khác nhau cho mỗi người mỗi tháng. Tôi có thêm một năm dữ liệu mà các nhà xây dựng mô hình không có để ước tính (mặc dù những người đi xem hòa nhạc vẫn giữ nguyên) và tôi muốn đánh giá xem mỗi nơi hoạt động tốt (về độ chính xác và độ chính xác). Ví dụ, một số mô hình dự đoán tốt cho người đi xem hòa nhạc thường xuyên, nhưng thất bại cho khoai tây văng? Dự đoán cho tháng 1 có tốt hơn dự đoán cho tháng 12 không? Ngoài ra, thật tuyệt khi biết rằng các dự đoán cho phép tôi xếp hạng mọi người một cách chính xác về mặt thực tế, ngay cả khi độ lớn chính xác không thể tin cậy được.
Suy nghĩ đầu tiên của tôi là chạy một hồi quy hiệu ứng cố định thực tế trên các hình nộm dự đoán và thời gian và xem xét RMSEs hoặc cho mỗi mô hình. Nhưng điều đó không trả lời cho câu hỏi về việc mỗi mô hình hoạt động tốt ở đâu hoặc nếu sự khác biệt là đáng kể (trừ khi tôi khởi động RMSE). Sự phân phối kết quả cũng làm tôi lo lắng với phương pháp này.
Ý tưởng thứ hai của tôi là biến kết quả thành 0, 1-3 và 3+ và tính toán ma trận nhầm lẫn, nhưng điều này bỏ qua thứ nguyên thời gian, trừ khi tôi thực hiện 12 trong số này. Nó cũng khá thô.
Tôi biết các lệnh Stata concord
của TJ Steichen và NJ Cox - có by()
tùy chọn này, nhưng điều đó sẽ yêu cầu thu gọn dữ liệu thành tổng số hàng năm. Điều này tính toán Chỉ số tương quan của Lin với các khoảng tin cậy, trong số các chỉ số hữu ích khác. CCC nằm trong khoảng từ -1 đến 1, với thỏa thuận hoàn hảo là 1.
Ngoài ra còn có củaellell (được tính toán
bởi R. Newson), có tùy chọn này, nhưng tôi không chắc điều đó sẽ cho phép tôi xử lý dữ liệu bảng điều khiển. Điều này cung cấp cho bạn khoảng tin cậy. C củaellell là sự khái quát hóa khu vực dưới một đường cong ROC (AUC) cho một kết quả liên tục. Đó là tỷ lệ của tất cả các cặp có thể được đặt hàng sao cho đối tượng có dự đoán cao hơn thực sự có kết quả cao hơn. Vì vậy, cho các dự đoán ngẫu nhiên cho một mô hình phân biệt hoàn hảo. Xem cuốn sách của Mitchell, tr.493somersd
cluster
Làm thế nào bạn sẽ giải quyết vấn đề này? Bạn có đề xuất tính toán thống kê như MAPE phổ biến trong dự báo không?
Những điều hữu ích được tìm thấy cho đến nay:
- Các slide trên một phiên bản đo lặp lại của Hệ số tương quan kết nối của Lin