Khi nào thì thích hợp để sử dụng quy tắc chấm điểm không đúng?

Merkle & Steyvers (2013) viết:

Để chính thức xác định quy tắc chấm điểm thích hợp, hãy coi là dự báo xác suất của thử nghiệm Bernoulli với xác suất thành công thực sự . Quy tắc chấm điểm thích hợp là các số liệu có giá trị dự kiến được giảm thiểu nếu . $f$ $d$ $p$ $f = p$

Tôi hiểu rằng điều này là tốt bởi vì chúng tôi muốn khuyến khích các nhà dự báo tạo ra các dự báo phản ánh trung thực niềm tin thực sự của họ và không muốn cung cấp cho họ những khuyến khích đồi trụy để làm khác.

Có bất kỳ ví dụ thực tế nào trong đó sử dụng quy tắc chấm điểm không phù hợp không?

Tham khảo
Merkle, EC, & Steyvers, M. (2013). Chọn một quy tắc chấm điểm đúng đắn. Phân tích quyết định, 10 (4), 292-304

classification forecasting scoring-rules

— user1205901 - Phục hồi Monica
nguồn

Tôi nghĩ rằng cột đầu tiên của trang cuối cùng của "Quy tắc chấm điểm" của Winkler & Jose (2010) mà Merkle & Steyvers (2013) trích dẫn đưa ra câu trả lời. Cụ thể, nếu tiện ích không phải là sự biến đổi về điểm số (có thể được chứng minh bằng sự sợ rủi ro và như vậy), thì tối đa hóa tiện ích dự kiến sẽ mâu thuẫn với tối đa hóa điểm số dự kiến

— Richard Hardy

Câu trả lời:

Nó là thích hợp để sử dụng một quy tắc chấm điểm không phù hợp khi mục đích thực sự là dự báo, nhưng không suy luận. Tôi không thực sự quan tâm liệu một người dự báo khác có gian lận hay không khi tôi là người sẽ thực hiện dự báo.

Các quy tắc chấm điểm thích hợp đảm bảo rằng trong quá trình ước tính, mô hình tiếp cận quá trình tạo dữ liệu thực (DGP). Điều này nghe có vẻ hứa hẹn vì khi chúng ta tiếp cận DGP thực sự, chúng ta cũng sẽ làm tốt về mặt dự báo dưới bất kỳ chức năng mất mát nào. Điều đáng chú ý là hầu hết thời gian (thực tế hầu như luôn luôn) không gian tìm kiếm mô hình của chúng tôi không chứa DGP thực sự. Chúng tôi cuối cùng xấp xỉ DGP thực sự với một số hình thức chức năng mà chúng tôi đề xuất.

Trong cài đặt thực tế hơn này, nếu nhiệm vụ dự báo của chúng tôi dễ dàng hơn là tìm ra toàn bộ mật độ của DGP thực sự, chúng tôi thực sự có thể làm tốt hơn. Điều này đặc biệt đúng đối với phân loại. Ví dụ DGP thực sự có thể rất phức tạp nhưng nhiệm vụ phân loại có thể rất dễ dàng.

Yaroslav Bulatov đã cung cấp ví dụ sau trong blog của mình:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-riale-loss.html

$x \ge 0$ $x < 0$

Thay vì khớp với mật độ chính xác ở trên, chúng tôi đề xuất mô hình thô dưới đây, khá xa so với DGP thực sự. Tuy nhiên, nó phân loại hoàn hảo. Điều này được tìm thấy bằng cách sử dụng mất bản lề, không phù hợp.

Mặt khác, nếu bạn quyết định tìm DGP thực sự với log-loss (phù hợp) thì bạn bắt đầu điều chỉnh một số chức năng, vì bạn không biết hình thức chức năng chính xác mà bạn cần là một tiên nghiệm. Nhưng khi bạn cố gắng nhiều hơn và khó hơn để phù hợp với nó, bạn bắt đầu phân loại sai mọi thứ.

Lưu ý rằng trong cả hai trường hợp, chúng tôi đã sử dụng các hình thức chức năng giống nhau. Trong trường hợp mất không đúng, nó bị suy biến thành một hàm bước mà lần lượt phân loại hoàn hảo. Trong trường hợp thích hợp, nó trở nên điên loạn khi cố gắng thỏa mãn mọi vùng mật độ.

Về cơ bản, chúng ta không cần phải luôn đạt được mô hình thực sự để có dự báo chính xác. Hoặc đôi khi chúng ta không thực sự cần phải làm tốt trên toàn bộ miền của mật độ, nhưng chỉ rất tốt trên một số phần nhất định của nó.

— Cagdas Ozgenc
nguồn

Đó là một ví dụ hấp dẫn, thực sự là một số thực phẩm cho suy nghĩ.

— Matthew Drury

Độ chính xác (nghĩa là phần trăm được phân loại chính xác) là một quy tắc chấm điểm không phù hợp, do đó, trong một số ý nghĩa, mọi người làm điều đó mọi lúc.

Tổng quát hơn, bất kỳ quy tắc tính điểm nào buộc các dự đoán vào danh mục được xác định trước sẽ không chính xác. Phân loại là một trường hợp cực đoan của điều này (dự báo cho phép duy nhất là 0% và 100%), nhưng dự báo thời tiết có lẽ cũng không đúng - các trạm địa phương của tôi dường như báo cáo khả năng mưa trong khoảng 10 hoặc 20%, mặc dù tôi Đặt cược mô hình cơ bản chính xác hơn nhiều.

Các quy tắc chấm điểm thích hợp cũng cho rằng người dự báo là trung lập rủi ro. Đây thường không phải là trường hợp đối với các nhà dự báo thực tế của con người, những người thường gặp rủi ro và một số ứng dụng có thể được hưởng lợi từ quy tắc tính điểm tái tạo sự thiên vị đó. Ví dụ, bạn có thể tăng thêm một chút trọng lượng cho P (mưa) kể từ khi mang theo một chiếc ô nhưng không cần nó tốt hơn nhiều so với việc bị cuốn vào một trận mưa như trút.

— Matt Krause
nguồn

Tôi không nghĩ rằng tôi hiểu đoạn thứ ba của bạn. Tôi đã viết ra một câu trả lời tương tự dọc theo dòng mà chúng ta có thể muốn tập trung nhiều hơn vào việc có được mật độ dự đoán mật độ cao, nhưng tôi không thấy chức năng mất như vậy sẽ thúc đẩy chúng ta sử dụng quy tắc chấm điểm không đúng. Rốt cuộc, chúng tôi vẫn có động lực nhất để dự báo phân phối chính xác trong tương lai. Bạn có thể giải thích?

— S. Kolassa - Tái lập Monica

Nếu người dự báo tối đa hóa tiện ích dự kiến của mình (thay vì giá trị), thì quy tắc chấm điểm thích hợp có thể không thực sự đúng (ví dụ: nếu tiện ích không phải là hàm tuyến tính của điểm). Tuy nhiên nếu bạn biết hoặc có thể ước tính chức năng tiện ích, tôi đoán bạn có thể đưa ra quy tắc chấm điểm thích hợp được thiết kế đặc biệt thay vì áp dụng nghịch đảo của nó.

— Matt Krause

Nhưng tính đúng đắn hay không của quy tắc chấm điểm không liên quan đến tiện ích, chỉ liên quan đến phân phối dự đoán và thực tế trong tương lai, vì vậy tôi vẫn không hiểu câu đầu tiên của nhận xét của bạn, cũng như tại sao chúng tôi muốn sử dụng quy tắc chấm điểm không đúng . Tuy nhiên, bạn nhắc tôi về một bài báo của Ehm at al, xuất hiện trong JRSS-B , tôi đã đọc lướt qua câu trả lời bị hủy bỏ của mình, nhưng tôi không tìm thấy điều gì hữu ích cho câu hỏi hiện tại - đọc gần hơn có thể hữu ích hơn.

— S. Kolassa - Tái lập Monica

@StephanKolassa, có lẽ cột đầu tiên của trang cuối cùng của "Quy tắc chấm điểm" của Winkler & Jose (2010) giải thích điều đó?

— Richard Hardy

Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .

— gung - Tái lập Monica