Thật hữu ích khi lùi lại một bước và quên đi khía cạnh dự báo trong một phút. Hãy xem xét bất kỳ phân phối và giả sử chúng tôi muốn tóm tắt nó bằng một số duy nhất.F
Bạn học rất sớm trong các lớp thống kê của mình rằng sử dụng kỳ vọng của làm tóm tắt một số sẽ giảm thiểu lỗi bình phương dự kiến.F
Câu hỏi bây giờ là: tại sao sử dụng trung vị của giảm thiểu sai số tuyệt đối dự kiến ?F
Đối với điều này, tôi thường khuyên bạn nên "Trực quan hóa trung vị là vị trí sai lệch tối thiểu" của Hanley et al. (2001, Thống kê người Mỹ ) . Họ đã thiết lập một applet nhỏ cùng với bài báo của họ, điều không may có lẽ không còn hoạt động với các trình duyệt hiện đại nữa, nhưng chúng ta có thể làm theo logic trong bài báo.
Giả sử bạn đứng trước một ngân hàng thang máy. Chúng có thể được bố trí cách đều nhau, hoặc một số khoảng cách giữa các cửa thang máy có thể lớn hơn các cửa khác (ví dụ, một số thang máy có thể bị hỏng). Trước thang máy nào bạn nên đứng để có bước đi dự kiến tối thiểu khi một trong những thang máy không đến? Lưu ý rằng bước đi dự kiến này đóng vai trò của lỗi tuyệt đối dự kiến!
Giả sử bạn có ba thang máy A, B và C.
- Nếu bạn đợi trước A, bạn có thể cần đi bộ từ A đến B (nếu B đến) hoặc từ A đến C (nếu C đến) - đi qua B!
- Nếu bạn đợi trước B, bạn cần đi bộ từ B đến A (nếu A đến) hoặc từ B đến C (nếu C đến).
- Nếu bạn đợi trước C, bạn cần đi bộ từ C đến A (nếu A đến) - đi qua B - hoặc từ C đến B (nếu B đến).
Lưu ý rằng từ vị trí chờ đầu tiên và cuối cùng, có một khoảng cách - AB ở vị trí đầu tiên, BC ở vị trí cuối cùng - rằng bạn cần đi bộ trong nhiều trường hợp thang máy đến. Do đó, cách tốt nhất của bạn là đứng ngay trước thang máy giữa - bất kể ba thang máy được bố trí như thế nào.
Đây là Hình 1 từ Hanley et al.:
Điều này khái quát dễ dàng đến hơn ba thang máy. Hoặc đến thang máy với các cơ hội khác nhau để đến đầu tiên. Hoặc thực sự để vô số thang máy. Vì vậy, chúng ta có thể áp dụng logic này cho tất cả các phân phối rời rạc và sau đó vượt qua giới hạn để đến các phân phối liên tục.
F^
Và tất nhiên, trung vị có thể khác hoàn toàn so với kỳ vọng nếu không đối xứng. Một ví dụ quan trọng là với dữ liệu đếm khối lượng thấp , đặc biệt là chuỗi thời gian không liên tục . Thật vậy, nếu bạn có cơ hội bán hàng bằng 50% hoặc cao hơn, ví dụ: nếu doanh số được phân phối bằng Poisson với tham số , thì bạn sẽ giảm thiểu lỗi tuyệt đối dự kiến của mình bằng cách dự báo số không bằng phẳng - điều này khá không trực quan , ngay cả đối với chuỗi thời gian không liên tục. Tôi đã viết một bài báo nhỏ về điều này ( Kolassa, 2016, Tạp chí Dự báo Quốc tế ).F^λ ≤ ln2
Do đó, nếu bạn nghi ngờ rằng phân phối dự đoán của bạn là (hoặc nên) không đối xứng, như trong hai trường hợp trên, thì nếu bạn muốn nhận dự báo kỳ vọng không thiên vị, hãy sử dụng rmse . Nếu phân phối có thể được giả định đối xứng (điển hình cho chuỗi âm lượng lớn), thì trung bình và trung bình trùng khớp và sử dụng mae cũng sẽ hướng dẫn bạn dự báo không thiên vị - và MAE dễ hiểu hơn.
Tương tự, giảm thiểu mape có thể dẫn đến dự báo sai lệch, ngay cả đối với các phân phối đối xứng. Câu trả lời trước đó của tôi chứa một ví dụ mô phỏng với chuỗi phân phối dương tính không đối xứng (phân phối lognormally) có thể được dự báo một cách có ý nghĩa bằng cách sử dụng ba dự báo điểm khác nhau, tùy thuộc vào việc chúng tôi muốn giảm thiểu MSE, MAE hay MAPE.