Coi chừng quá mức . Một mô hình chính xác hơn về dữ liệu được thu thập từ một hệ thống có thể không phải là một yếu tố dự đoán tốt hơn về hành vi trong tương lai của một hệ thống.
Hình ảnh trên cho thấy hai mô hình của một số dữ liệu.
Đường thẳng có phần chính xác trên dữ liệu huấn luyện (các điểm trên biểu đồ) và (người ta mong đợi) sẽ chính xác hơn một chút về dữ liệu thử nghiệm (trong đó các điểm có khả năng là x <5 và x> -5 ).
Ngược lại, đa thức chính xác 100% cho dữ liệu huấn luyện, nhưng (trừ khi bạn có bất kỳ lý do nào để tin rằng đa thức bậc 9 là hợp lý vì một số lý do vật lý), bạn sẽ cho rằng đây sẽ là một công cụ dự đoán cực kỳ kém cho x> 5 và x <-5.
Mô hình tuyến tính là "ít chính xác hơn", dựa trên bất kỳ so sánh lỗi nào với dữ liệu chúng tôi đã thu thập. Nhưng nó là khái quát hơn.
Ngoài ra, các Kỹ sư phải bớt lo lắng về mô hình của họ và nhiều hơn về những gì mọi người sẽ làm với mô hình.
Nếu tôi nói với bạn rằng chúng ta sẽ đi dạo vào một ngày nóng và dự kiến sẽ kéo dài 426 phút. Bạn có khả năng mang ít nước hơn nếu tôi nói với bạn rằng cuộc đi bộ sẽ kéo dài 7 giờ, và thậm chí ít hơn nếu tôi nói rằng cuộc đi bộ sẽ kéo dài 4-8 giờ. Điều này là do bạn đang phản ứng với mức độ tin cậy ngụ ý của tôi trong dự báo của tôi, chứ không phải là điểm giữa của thời gian đã nêu của tôi.
Nếu bạn cung cấp cho mọi người một mô hình chính xác, mọi người sẽ giảm tỷ lệ lỗi. Điều này dẫn đến rủi ro lớn hơn.
Đi bộ vào một ví dụ ngày nóng, nếu tôi biết đi bộ sẽ mất 4-8 giờ trong 95% trường hợp, với một số điều không chắc chắn xung quanh điều hướng và tốc độ đi bộ. Hoàn toàn biết tốc độ đi bộ của chúng tôi sẽ làm giảm độ không chắc chắn của con số 4-8, nhưng nó sẽ không ảnh hưởng đáng kể đến "cơ hội chúng ta mất quá lâu để nước trở thành một vấn đề", bởi vì điều đó được điều khiển gần như hoàn toàn bởi sự điều hướng không chắc chắn, không phải tốc độ đi bộ không chắc chắn.