Dự báo
Bạn đúng rằng đây là một câu hỏi về dự báo. Đã có một vài bài viết về khả năng dự báo trong tạp chí Foresight hướng tới học viên của IIF . (Tiết lộ đầy đủ: Tôi là Phó Tổng biên tập.)
Vấn đề là khả năng dự báo đã khó đánh giá trong các trường hợp "đơn giản".
Một vài ví dụ
Giả sử bạn có một chuỗi thời gian như thế này nhưng không nói tiếng Đức:
Làm thế nào bạn sẽ mô hình hóa đỉnh lớn vào tháng Tư và làm thế nào bạn sẽ đưa thông tin này vào bất kỳ dự báo nào?
Trừ khi bạn biết rằng chuỗi thời gian này là doanh số bán trứng trong chuỗi siêu thị Thụy Sĩ, đạt đỉnh ngay trước lịch Tây phương Phục sinh , bạn sẽ không có cơ hội. Ngoài ra, với lễ Phục sinh di chuyển theo lịch khoảng sáu tuần, bất kỳ dự báo nào không bao gồm ngày Phục sinh cụ thể (giả sử, giả sử, đây chỉ là một đỉnh cao theo mùa sẽ tái diễn trong một tuần cụ thể vào năm tới) có lẽ sẽ rất tắt
Tương tự, giả sử bạn có dòng màu xanh bên dưới và muốn mô hình hóa bất cứ điều gì đã xảy ra vào 2010 / 02-28 khác với các mẫu "bình thường" trong 2010 / 02-27:
Một lần nữa, không biết điều gì xảy ra khi cả một thành phố đầy người Canada xem một trận chung kết khúc côn cầu trên băng Olympic trên TV, bạn không có cơ hội nào để hiểu chuyện gì đã xảy ra ở đây, và bạn sẽ không thể dự đoán khi nào điều này sẽ tái diễn.
Cuối cùng, hãy nhìn vào điều này:
Đây là một chuỗi thời gian bán hàng hàng ngày tại một cửa hàng tiền mặt và mang theo . (Ở bên phải, bạn có một bảng đơn giản: 282 ngày có doanh số bằng 0, 42 ngày có doanh số 1 ... và một ngày có doanh số 500.) Tôi không biết đó là mặt hàng nào.
Cho đến ngày hôm nay, tôi không biết chuyện gì đã xảy ra vào một ngày với doanh số 500. Dự đoán tốt nhất của tôi là một số khách hàng đã đặt hàng trước một lượng lớn bất kỳ sản phẩm nào và đây là sản phẩm. Bây giờ, không biết điều này, bất kỳ dự báo cho ngày đặc biệt này sẽ còn xa. Ngược lại, giả sử rằng điều này xảy ra ngay trước lễ Phục sinh và chúng tôi có một thuật toán thông minh ngu ngốc tin rằng đây có thể là hiệu ứng Phục sinh (có thể đây là những quả trứng?) Và vui vẻ dự báo 500 đơn vị cho lễ Phục sinh tiếp theo. Ôi, có thể đó đi sai.
Tóm lược
Trong mọi trường hợp, chúng tôi thấy khả năng dự báo chỉ có thể được hiểu rõ khi chúng tôi có đủ hiểu biết sâu sắc về các yếu tố có khả năng ảnh hưởng đến dữ liệu của chúng tôi. Vấn đề là trừ khi chúng ta biết những yếu tố này, chúng ta không biết rằng chúng ta có thể không biết chúng. Theo Donald Rumsfeld :
[T] ở đây được biết đến được biết đến; Có những điều chúng ta biết chúng ta biết. Chúng tôi cũng biết có những ẩn số đã biết; điều đó có nghĩa là chúng ta biết có một số điều chúng ta không biết. Nhưng cũng có những ẩn số chưa biết - những điều chúng ta không biết chúng ta không biết.
Nếu thiên hướng khúc côn cầu của người Phục sinh hay người Canada đối với khúc côn cầu là những ẩn số chưa biết đối với chúng ta, thì chúng ta bị mắc kẹt - và chúng ta thậm chí không có cách nào để đi tiếp, bởi vì chúng ta không biết những câu hỏi nào chúng ta cần hỏi.
Cách duy nhất để xử lý những vấn đề này là thu thập kiến thức về miền.
Kết luận
Tôi rút ra ba kết luận từ đây:
- Bạn luôn cần bao gồm kiến thức tên miền trong mô hình và dự đoán của bạn.
- Ngay cả với kiến thức tên miền, bạn không được đảm bảo có đủ thông tin để dự báo và dự đoán của bạn được người dùng chấp nhận. Xem ngoại lệ ở trên.
- Nếu "kết quả của bạn thật tồi tệ", bạn có thể hy vọng nhiều hơn những gì bạn có thể đạt được. Nếu bạn dự báo một lần tung đồng xu công bằng, thì không có cách nào để có được độ chính xác trên 50%. Đừng tin tưởng điểm chuẩn chính xác dự báo bên ngoài, một trong hai.
Điểm mấu chốt
Dưới đây là cách tôi khuyên bạn nên xây dựng mô hình - và lưu ý khi nào nên dừng:
- Nói chuyện với ai đó có kiến thức về miền nếu bạn chưa có nó.
- Xác định các trình điều khiển chính của dữ liệu bạn muốn dự báo, bao gồm các tương tác có khả năng, dựa trên bước 1.
- Xây dựng các mô hình lặp đi lặp lại, bao gồm các trình điều khiển theo thứ tự độ mạnh giảm dần theo bước 2. Đánh giá các mô hình bằng cách sử dụng xác thực chéo hoặc mẫu giữ.
- Nếu độ chính xác dự đoán của bạn không tăng thêm nữa, hãy quay lại bước 1 (ví dụ: bằng cách xác định các dự đoán sai lầm trắng trợn mà bạn không thể giải thích và thảo luận với các chuyên gia tên miền) hoặc chấp nhận rằng bạn đã đạt đến cuối khả năng của các mô hình. Thời gian đấm bốc phân tích của bạn trước giúp.
Lưu ý rằng tôi không ủng hộ việc thử các lớp mô hình khác nhau nếu cao nguyên mô hình ban đầu của bạn. Thông thường, nếu bạn bắt đầu với một mô hình hợp lý, sử dụng một cái gì đó tinh vi hơn sẽ không mang lại lợi ích mạnh mẽ và có thể chỉ đơn giản là "quá mức trên bộ thử nghiệm". Tôi đã thấy điều này thường xuyên, và những người khác đồng ý .