Hồi quy cho câu đố trung bình


9

Trong chương "Suy nghĩ về ý nghĩa" của "Suy nghĩ, nhanh và chậm" của Daniel Kahneman, một ví dụ được đưa ra và người đọc được yêu cầu dự báo doanh số của các cửa hàng riêng lẻ đưa ra dự báo doanh số chung và số lượng bán hàng từ năm trước . Chẳng hạn (ví dụ về cuốn sách có 4 cửa hàng, tôi sử dụng 2 ở đây để đơn giản):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Dự báo ngây thơ sẽ là 110 và 550 cho các cửa hàng 1 và 2, tăng 10% cho mỗi cửa hàng. Tuy nhiên, tác giả khẳng định cách tiếp cận ngây thơ này là sai. Cửa hàng hoạt động kém hơn có khả năng tăng hơn 10% và cửa hàng hoạt động tốt hơn sẽ tăng (hoặc thậm chí giảm) dưới 10%. Vì vậy, có lẽ dự báo 115 (tăng 15%) và 535 (tăng 7%) sẽ "chính xác" hơn so với dự báo ngây thơ.

Điều tôi không hiểu là làm thế nào chúng ta có thể kết luận rằng doanh số của 100 cửa hàng 1 nhất thiết phải là cửa hàng hoạt động kém hơn? Có lẽ, do sự khác biệt về địa điểm, các phương tiện theo chuỗi thời gian thực của các cửa hàng 1 và 2 là 10 và 550, và cửa hàng 1 đã có một năm siêu năm 2011 và cửa hàng 2 đã có một năm thảm họa vào năm 2011. Sau đó, nó sẽ không có ý nghĩa để dự báo giảm cho cửa hàng 1 và tăng cho cửa hàng 2?

Tôi biết rằng thông tin chuỗi thời gian không được đưa ra trong ví dụ ban đầu, nhưng tôi có ấn tượng rằng "hồi quy trung bình" đề cập đến ý nghĩa cắt ngang và do đó thông tin chuỗi thời gian không quan trọng. Tôi đang hiểu lầm điều gì?

Câu trả lời:


8

Tôi tình cờ được đọc cuốn sách đó. Bạn chưa sao chép đầy đủ thông tin chính. Nó nói rằng "tất cả các cửa hàng đều giống nhau về kích thước và lựa chọn hàng hóa, nhưng doanh số của chúng khác nhau do vị trí, cạnh tranh và các yếu tố ngẫu nhiên." Đó là chìa khóa, đặc biệt là bit cuối cùng. Các yếu tố ngẫu nhiên là cần thiết để hồi quy trung bình xảy ra (nếu doanh số tăng theo một mức cố định, thì mức tăng 10% phân tán đều giữa các cửa hàng sẽ là đúng).


2
Bạn có nói rằng giả định "tất cả các cửa hàng đều giống nhau" ngụ ý rằng chuỗi thời gian của chúng có nghĩa là giống nhau không? Nếu không, hai cửa hàng giống hệt nhau vẫn có thể có phương tiện rất khác nhau do vị trí.

1
Tôi thừa nhận đó không phải là từ ngữ lớn nhất của một vấn đề, nhưng nó rõ ràng hơn nhiều so với những gì bạn có trong câu hỏi ban đầu của mình.
Peter Flom

2

Với rất ít điểm dữ liệu, câu trả lời sẽ gần như hoàn toàn được quyết định bởi trước đó (hoặc tương đương ngụ ý). Nếu tác giả đã thấy rất nhiều loại dữ liệu này trước đây, họ có thể có lý do chính đáng để nghĩ rằng câu trả lời của họ có nhiều khả năng là chính xác, dựa trên những quan sát trong quá khứ của họ. Tôi nghĩ rằng đó là một sự kéo dài để đề nghị đây là một ví dụ về hồi quy trung bình mặc dù, ít nhất là không phải không chỉ định thêm một số thông tin. Chẳng hạn, các cửa hàng có ở vị trí tương đương hay không? Nếu chúng là và không có sự khác biệt rõ ràng nào khác giữa các cửa hàng thì chúng ta có thể cảm thấy hợp lý khi nghĩ rằng chúng là một phần của dân số tương đương và chúng ta có thể nghĩ về hồi quy trung bình. Nếu có sự khác biệt rõ ràng giữa các cửa hàng có thể giải thích một sự khác biệt có hệ thống trong bán hàng, thì việc làm như vậy sẽ trở nên ít hợp lý hơn.


0

Tôi nghĩ rằng một minh họa (giả thuyết) tốt hơn có thể là một cái gì đó như thế này:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Chặn các lý do có hệ thống, chúng tôi mong muốn người biểu diễn tệ nhất (từ nguyên nhân ngẫu nhiên) sẽ không trở lại như vậy. Và vì vậy cũng cho người biểu diễn tốt nhất.

Do đó, với mức tăng trưởng trung bình 10%, tôi mong muốn # 1 sẽ làm tốt hơn 110 và # 6 để làm kém hơn 330.

Tôi cảm thấy phần iffy là giả định. IMHO rất hiếm khi độ trễ của gói thực sự chỉ là một con sán ngẫu nhiên và không phải là một sự không đồng nhất tiềm ẩn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.