Tại sao giảm thiểu MAE dẫn đến dự báo trung vị mà không phải là trung bình?

19

Từ Dự báo: Nguyên tắc và sách giáo khoa Thực hành của Rob J Hyndman và George Athanasopoulos , cụ thể là phần đo lường độ chính xác :

Một phương pháp dự báo giảm thiểu MAE sẽ dẫn đến dự báo về trung vị, trong khi giảm thiểu RMSE sẽ dẫn đến dự báo về giá trị trung bình

Ai đó có thể đưa ra một lời giải thích trực quan về lý do tại sao giảm thiểu MAE dẫn đến dự báo trung vị và không phải là trung bình? Và điều này có ý nghĩa gì trong thực tế?

Tôi đã hỏi một khách hàng: "điều gì quan trọng hơn đối với bạn để làm cho các dự báo có ý nghĩa chính xác hơn hoặc để tránh các dự báo rất không chính xác?". Ông nói rằng để làm cho dự báo có nghĩa là chính xác hơn có ưu tiên cao hơn. Vậy, trong trường hợp này, tôi nên sử dụng MAE hay RMSE? Trước khi tôi đọc trích dẫn này, tôi tin rằng MAE sẽ tốt hơn cho điều kiện như vậy. Và bây giờ tôi nghi ngờ.

— Cám Ds
nguồn

17

Thật hữu ích khi lùi lại một bước và quên đi khía cạnh dự báo trong một phút. Hãy xem xét bất kỳ phân phối và giả sử chúng tôi muốn tóm tắt nó bằng một số duy nhất. $F$

Bạn học rất sớm trong các lớp thống kê của mình rằng sử dụng kỳ vọng của làm tóm tắt một số sẽ giảm thiểu lỗi bình phương dự kiến. $F$

Câu hỏi bây giờ là: tại sao sử dụng trung vị của giảm thiểu sai số tuyệt đối dự kiến ? $F$

Đối với điều này, tôi thường khuyên bạn nên "Trực quan hóa trung vị là vị trí sai lệch tối thiểu" của Hanley et al. (2001, Thống kê người Mỹ ) . Họ đã thiết lập một applet nhỏ cùng với bài báo của họ, điều không may có lẽ không còn hoạt động với các trình duyệt hiện đại nữa, nhưng chúng ta có thể làm theo logic trong bài báo.

Giả sử bạn đứng trước một ngân hàng thang máy. Chúng có thể được bố trí cách đều nhau, hoặc một số khoảng cách giữa các cửa thang máy có thể lớn hơn các cửa khác (ví dụ, một số thang máy có thể bị hỏng). Trước thang máy nào bạn nên đứng để có bước đi dự kiến tối thiểu khi một trong những thang máy không đến? Lưu ý rằng bước đi dự kiến này đóng vai trò của lỗi tuyệt đối dự kiến!

Giả sử bạn có ba thang máy A, B và C.

Nếu bạn đợi trước A, bạn có thể cần đi bộ từ A đến B (nếu B đến) hoặc từ A đến C (nếu C đến) - đi qua B!
Nếu bạn đợi trước B, bạn cần đi bộ từ B đến A (nếu A đến) hoặc từ B đến C (nếu C đến).
Nếu bạn đợi trước C, bạn cần đi bộ từ C đến A (nếu A đến) - đi qua B - hoặc từ C đến B (nếu B đến).

Lưu ý rằng từ vị trí chờ đầu tiên và cuối cùng, có một khoảng cách - AB ở vị trí đầu tiên, BC ở vị trí cuối cùng - rằng bạn cần đi bộ trong nhiều trường hợp thang máy đến. Do đó, cách tốt nhất của bạn là đứng ngay trước thang máy giữa - bất kể ba thang máy được bố trí như thế nào.

Đây là Hình 1 từ Hanley et al.:

Điều này khái quát dễ dàng đến hơn ba thang máy. Hoặc đến thang máy với các cơ hội khác nhau để đến đầu tiên. Hoặc thực sự để vô số thang máy. Vì vậy, chúng ta có thể áp dụng logic này cho tất cả các phân phối rời rạc và sau đó vượt qua giới hạn để đến các phân phối liên tục.

$\hat{F}$

Và tất nhiên, trung vị có thể khác hoàn toàn so với kỳ vọng nếu không đối xứng. Một ví dụ quan trọng là với dữ liệu đếm khối lượng thấp , đặc biệt là chuỗi thời gian không liên tục . Thật vậy, nếu bạn có cơ hội bán hàng bằng 50% hoặc cao hơn, ví dụ: nếu doanh số được phân phối bằng Poisson với tham số , thì bạn sẽ giảm thiểu lỗi tuyệt đối dự kiến của mình bằng cách dự báo số không bằng phẳng - điều này khá không trực quan , ngay cả đối với chuỗi thời gian không liên tục. Tôi đã viết một bài báo nhỏ về điều này ( Kolassa, 2016, Tạp chí Dự báo Quốc tế ). $\hat{F}$ $\lambda\leq \ln 2$

Do đó, nếu bạn nghi ngờ rằng phân phối dự đoán của bạn là (hoặc nên) không đối xứng, như trong hai trường hợp trên, thì nếu bạn muốn nhận dự báo kỳ vọng không thiên vị, hãy sử dụng rmse . Nếu phân phối có thể được giả định đối xứng (điển hình cho chuỗi âm lượng lớn), thì trung bình và trung bình trùng khớp và sử dụng mae cũng sẽ hướng dẫn bạn dự báo không thiên vị - và MAE dễ hiểu hơn.

Tương tự, giảm thiểu mape có thể dẫn đến dự báo sai lệch, ngay cả đối với các phân phối đối xứng. Câu trả lời trước đó của tôi chứa một ví dụ mô phỏng với chuỗi phân phối dương tính không đối xứng (phân phối lognormally) có thể được dự báo một cách có ý nghĩa bằng cách sử dụng ba dự báo điểm khác nhau, tùy thuộc vào việc chúng tôi muốn giảm thiểu MSE, MAE hay MAPE.

— S. Kolassa - Tái lập Monica
nguồn

9

Stephan trả lời cho bạn một lời giải thích trực quan về lý do tại sao việc giảm thiểu sai số trung bình tuyệt đối mang lại cho bạn trung vị. Bây giờ để trả lời MSE, MAE hoặc MAPE sẽ sử dụng:

MAE mạnh mẽ , có nghĩa là nó ít nhạy cảm hơn với các ngoại lệ. Hãy tưởng tượng một loạt có lỗi lớn hơn một triệu lần so với những gì nó cần. Trên MSE, nó sẽ kéo dự báo một triệu / N lần (trong đó N là số điểm), trong khi MAE sẽ chỉ được kéo cho 1 đơn vị.

Thật không may, MAE không phải là duy nhất , vì vậy nó có thể thể hiện một số loại hành vi tâm thần phân liệt.

Vì vậy, khuyến nghị của tôi là đầu tiên tạo MSE, sau đó sử dụng các tham số MSE để bắt đầu hồi quy MAE.

Trong mọi trường hợp so sánh cả hai dự báo: nếu chúng rất khác nhau thì có gì đó có mùi trong dữ liệu của bạn.

— AlainD
nguồn