Nó là thích hợp để sử dụng một quy tắc chấm điểm không phù hợp khi mục đích thực sự là dự báo, nhưng không suy luận. Tôi không thực sự quan tâm liệu một người dự báo khác có gian lận hay không khi tôi là người sẽ thực hiện dự báo.
Các quy tắc chấm điểm thích hợp đảm bảo rằng trong quá trình ước tính, mô hình tiếp cận quá trình tạo dữ liệu thực (DGP). Điều này nghe có vẻ hứa hẹn vì khi chúng ta tiếp cận DGP thực sự, chúng ta cũng sẽ làm tốt về mặt dự báo dưới bất kỳ chức năng mất mát nào. Điều đáng chú ý là hầu hết thời gian (thực tế hầu như luôn luôn) không gian tìm kiếm mô hình của chúng tôi không chứa DGP thực sự. Chúng tôi cuối cùng xấp xỉ DGP thực sự với một số hình thức chức năng mà chúng tôi đề xuất.
Trong cài đặt thực tế hơn này, nếu nhiệm vụ dự báo của chúng tôi dễ dàng hơn là tìm ra toàn bộ mật độ của DGP thực sự, chúng tôi thực sự có thể làm tốt hơn. Điều này đặc biệt đúng đối với phân loại. Ví dụ DGP thực sự có thể rất phức tạp nhưng nhiệm vụ phân loại có thể rất dễ dàng.
Yaroslav Bulatov đã cung cấp ví dụ sau trong blog của mình:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-riale-loss.html
x ≥ 0x < 0
Thay vì khớp với mật độ chính xác ở trên, chúng tôi đề xuất mô hình thô dưới đây, khá xa so với DGP thực sự. Tuy nhiên, nó phân loại hoàn hảo. Điều này được tìm thấy bằng cách sử dụng mất bản lề, không phù hợp.
Mặt khác, nếu bạn quyết định tìm DGP thực sự với log-loss (phù hợp) thì bạn bắt đầu điều chỉnh một số chức năng, vì bạn không biết hình thức chức năng chính xác mà bạn cần là một tiên nghiệm. Nhưng khi bạn cố gắng nhiều hơn và khó hơn để phù hợp với nó, bạn bắt đầu phân loại sai mọi thứ.
Lưu ý rằng trong cả hai trường hợp, chúng tôi đã sử dụng các hình thức chức năng giống nhau. Trong trường hợp mất không đúng, nó bị suy biến thành một hàm bước mà lần lượt phân loại hoàn hảo. Trong trường hợp thích hợp, nó trở nên điên loạn khi cố gắng thỏa mãn mọi vùng mật độ.
Về cơ bản, chúng ta không cần phải luôn đạt được mô hình thực sự để có dự báo chính xác. Hoặc đôi khi chúng ta không thực sự cần phải làm tốt trên toàn bộ miền của mật độ, nhưng chỉ rất tốt trên một số phần nhất định của nó.