Để trả lời câu hỏi của bạn, điều quan trọng là phải hiểu khung tham chiếu mà bạn đang tìm kiếm, nếu bạn đang tìm kiếm những gì về mặt triết học mà bạn đang cố gắng đạt được trong mô hình phù hợp, hãy xem Rubens trả lời anh ấy làm tốt việc giải thích bối cảnh đó.
Tuy nhiên, trong thực tế, câu hỏi của bạn gần như được xác định hoàn toàn bởi các mục tiêu kinh doanh.
Để đưa ra một ví dụ cụ thể, giả sử rằng bạn là nhân viên cho vay, bạn đã phát hành khoản vay trị giá 3.000 đô la và khi mọi người trả lại cho bạn, bạn kiếm được 50 đô la . Đương nhiên, bạn đang cố gắng xây dựng một mô hình dự đoán nếu một người mặc định tiền vay. Hãy giữ điều này đơn giản và nói rằng các kết quả là thanh toán đầy đủ hoặc mặc định.
Từ góc độ kinh doanh, bạn có thể tổng hợp hiệu suất mô hình với ma trận dự phòng:
Khi mô hình dự đoán ai đó sẽ mặc định, phải không? Để xác định nhược điểm của hơn và dưới sự phù hợp, tôi thấy thật hữu ích khi nghĩ về nó như là một vấn đề tối ưu hóa, bởi vì trong mỗi mặt cắt ngang của hiệu suất mô hình thực tế của câu thơ dự đoán, có một chi phí hoặc lợi nhuận được tạo ra:
Trong ví dụ này dự đoán một mặc định là mặc định có nghĩa là tránh mọi rủi ro và dự đoán một mặc định không mặc định sẽ không tạo ra $ 50 cho mỗi khoản vay. Trường hợp mọi thứ trở nên tồi tệ là khi bạn sai, nếu bạn mặc định khi bạn dự đoán không mặc định, bạn sẽ mất toàn bộ tiền gốc và nếu bạn dự đoán mặc định khi khách hàng thực sự sẽ không phải chịu 50 đô la cơ hội. Những con số ở đây không quan trọng, chỉ là cách tiếp cận.
Với khuôn khổ này, bây giờ chúng ta có thể bắt đầu hiểu những khó khăn liên quan đến hơn và phù hợp.
Quá phù hợp trong trường hợp này có nghĩa là mô hình của bạn hoạt động tốt hơn nhiều so với dữ liệu thử nghiệm / phát triển của bạn sau đó nó sẽ được sản xuất. Hay nói cách khác, mô hình của bạn trong sản xuất sẽ kém hơn nhiều so với những gì bạn thấy trong quá trình phát triển, sự tự tin sai lầm này có thể sẽ khiến bạn phải nhận những khoản vay rủi ro hơn rất nhiều sau đó bạn sẽ rất dễ bị mất tiền.
Mặt khác, dưới sự phù hợp trong bối cảnh này sẽ để lại cho bạn một mô hình chỉ làm một công việc kém phù hợp với thực tế. Mặc dù kết quả của điều này có thể rất khó đoán, (từ ngược lại bạn muốn mô tả các mô hình dự đoán của bạn), thông thường những gì xảy ra là các tiêu chuẩn được thắt chặt để bù đắp cho điều này, dẫn đến khách hàng ít nói chung dẫn đến mất khách hàng tốt.
Phù hợp chịu đựng một loại khó khăn ngược lại mà phù hợp hơn, đó là phù hợp cho phép bạn tự tin thấp hơn. Ngẫu nhiên, việc thiếu dự đoán vẫn khiến bạn gặp rủi ro bất ngờ, tất cả đều là tin xấu.
Theo kinh nghiệm của tôi, cách tốt nhất để tránh cả hai tình huống này là xác thực mô hình của bạn trên dữ liệu hoàn toàn nằm ngoài phạm vi dữ liệu đào tạo của bạn, vì vậy bạn có thể tin tưởng rằng bạn có một mẫu đại diện về những gì bạn sẽ thấy 'trong tự nhiên '.
Ngoài ra, luôn luôn là một cách tốt để xác nhận lại các mô hình của bạn theo định kỳ, để xác định mô hình của bạn đang xuống cấp nhanh như thế nào và liệu nó có còn hoàn thành mục tiêu của bạn không.
Chỉ cần một số thứ, mô hình của bạn được trang bị khi nó làm việc kém trong việc dự đoán cả dữ liệu phát triển và sản xuất.