Các khái niệm thay thế cho quy tắc chấm điểm thích hợp và sử dụng quy tắc tính điểm để đánh giá các mô hình


8

Một quy tắc trong khâu dứt điểm là một phương tiện để đánh giá dự đoán của một đại lý của các xác suất liên quan đến một sự kiện phân loại, cho một (phân loại) kết quả của sự kiện này. Tùy thuộc vào dự đoán và kết quả quan sát được, quy tắc tính điểm sẽ cho tác nhân một điểm số (một con số thực). Một quy tắc tính điểm được cho là để gán điểm sao cho trung bình, tác nhân có ít điểm nhất sẽ đưa ra dự đoán chính xác nhất. (Các quy ước khác nhau về việc liệu các quy tắc tính điểm có được đóng khung về mặt tối thiểu hóa hoặc tối đa hóa hay không. Ở đây tôi đang xem chế độ thu nhỏ.)

Một tính chất quan trọng của quy tắc tính điểm là liệu chúng có phải là quy tắc chấm điểm thích hợp hay không; nghĩa là, cho dù họ cho điểm trung bình ít nhất khi một tác nhân đoán xác suất thực sự (hoặc, trong một khung Bayes chủ quan, họ cho điểm trung bình thấp nhất, được đưa ra cho các linh mục của chính đại lý, khi một đại lý sử dụng mức độ niềm tin của chính mình phỏng đoán của nó). Trong trường hợp có sự kiện nhị phân, lỗi bình phương từ 0 hoặc 1 (điểm Brier) là quy tắc tính điểm thích hợp trong khi lỗi tuyệt đối thì không. Tại sao? Vâng, tiêu chí của sự phù hợp dựa trên giá trị trung bình và giá trị trung bình là thước đo của xu hướng trung tâm giúp giảm thiểu tổng các khác biệt bình phương, nhưng không cần giảm thiểu sai số tuyệt đối.

Dòng suy nghĩ này cho thấy rằng nếu chúng ta thay thế trung bình trong định nghĩa của quy tắc chấm điểm thích hợp bằng một số chức năng thống kê khác, chẳng hạn như trung bình, thì chúng ta sẽ có được một loại quy tắc chấm điểm phù hợp tương tự. Không phải là không có lý khi tưởng tượng một tình huống mà một đặc vụ muốn giảm thiểu điểm trung vị của nó hơn là điểm trung bình của nó. Trên thực tế, có vẻ như không có quy tắc tính điểm trung bình không phù hợp. Xem xét lại trường hợp của một sự kiện nhị phân, nếu xác suất thực nhỏ hơn 1/2, thì điểm trung bình của một tác nhân sẽ bằng với bất kỳ điểm nào được trao cho tác nhân khi sự kiện không xảy ra, bất kể sự kiện đó là gì xác suất chính xác. Các shenanigans tương tự dường như xảy ra nếu chúng ta thay thế trung bình bằng, giả sử, trung bình hình học.

Vì vậy, có một ý nghĩa rằng để lý thuyết về các quy tắc chấm điểm thích hợp hoạt động như dự định, chức năng thống kê phải là trung bình?

Tôi nhận ra đây là một câu hỏi mơ hồ và câu trả lời tốt nhất có thể là một lời giải thích tại sao câu hỏi không thực sự có ý nghĩa, vì vậy đây là bối cảnh mà tôi thấy mình hỏi nó, để giúp bạn không nhầm lẫn. Tôi là một nhà tâm lý học về việc ra quyết định và tôi thường thấy mình muốn định lượng hiệu suất (có thể là hiệu suất dự đoán, dưới sự xác nhận chéo hoặc mô hình phù hợp với hậu kỳ) của một mô hình đưa ra xác suất về những gì mọi người sẽ chọn một kịch bản quyết định nhị phân. Các cuộc thảo luận ở trên cho thấy tôi nên sử dụng một quy tắc chấm điểm thích hợp. Khó chịu, quy tắc chấm điểm thích hợp không cùng quy mô với xác suất. Ví dụ, tôi thấy mình muốn lấy căn bậc hai của lỗi bình phương trung bình thay vì chỉ nhìn vào lỗi bình phương trung bình (nghĩa là điểm Brier trung bình), nhưng trong trường hợp của một thử nghiệm, RMSE tương đương với lỗi tuyệt đối, không đúng, vì vậy tôi sẽ không nghĩ rằng các mô hình kém chính xác hơn sẽ tốt hơn? Rõ ràng tôi không thể thay đổi phương pháp đánh giá các quy tắc tính điểm của mình từ một phương tiện về phương tiện sang một phương diện, ví dụ: trung bình. Tôi phải đơn giản làm quen với thang đo của một trong những quy tắc chấm điểm thích hợp thông thường hoặc sử dụng thống kê phát hiện tín hiệu như khu vực dưới đường cong ROC hoặc d '?

Một điều phức tạp nữa là trong một nghiên cứu, tôi đang xem xét mô hình khởi động tham số phù hợp, theo Wagenmakers, Ratcliff, Gomez và Iverson (2004), có nghĩa là tôi đang xem xét các biểu đồ mật độ của điểm số thay vì điểm số riêng lẻ. Sau đó, thậm chí còn chưa rõ liệu tôi có nên quan tâm đến tính đúng đắn hay về một số tiêu chí tương tự.

Chỉnh sửa: xem chủ đề bình luận này trên Reddit để thảo luận thêm.

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Đánh giá mô hình bắt chước bằng cách sử dụng bootstrap tham số. Tạp chí Tâm lý học toán học, 48 , 28 bù50. doi: 10.1016 / j.jmp.2003.11.004


Tôi có đúng không khi bạn hỏi hai câu hỏi: 1 - "đúng" có thể được định nghĩa lại theo điểm trung bình, thay vì điểm dự kiến ​​của một dự báo cụ thể không? 2 - Có điểm số thích hợp cho xác suất theo thang điểm của xác suất không?
Fabian

(1) Tôi khá chắc chắn câu trả lời cho câu hỏi đó là "không"; những gì tôi đang hỏi là liệu nó có ý nghĩa để xác định lại "đúng" về bất cứ điều gì khác ngoài ý nghĩa (nghĩa là kỳ vọng). (2) Vâng, đó là một câu hỏi tôi muốn có câu trả lời, nhưng vì câu trả lời lại có lẽ là "không", tôi đoán phần tiếp theo của tôi sẽ là "Vậy thì quy tắc ghi điểm tốt có thể diễn giải theo cách liên quan một cách tự nhiên xác suất? "
Kodiologist

1
Giới thiệu về (1), bài báo sau đây có vẻ liên quan đến câu hỏi của bạn: ssc.upenn.edu/~fdiebold/ con / apers118 / DieboldShin_SED.pdf Các tác giả xem xét một trường hợp trong đó quan tâm không nằm trong điểm số dự kiến, nhưng về phân phối điểm số. Thật thú vị, một lần nữa họ lại tối thiểu hóa điểm số dự kiến ​​của một hình thức nhất định (xem Dự luật 2.2 và 3.1).
Fabian

Thật không may, có vẻ như bài báo đó là về các dự báo cùng loại với DV, trái ngược với trường hợp này khi tôi hỏi về dự đoán xác suất của một sự kiện thay vì đoán về sự kiện có thể xảy ra nhất. Các dự đoán là xác suất trong khi DV được thực hiện theo cách riêng biệt.
Kodiologist

Câu trả lời:


6

Trái ngược với những gì bạn nói về shenanigans hình học, thực sự có các quy tắc chấm điểm thích hợp cho ý nghĩa hình học.

XeE(đăng nhậpX)Sđăng nhậpSf(p^)f(p^)p^g(p^)= =đăng nhậpf(p^)

XE(X-1)-1g(p^)= =-f(p^)-1

pp<0,25pp^p0,25

Ngoài đỉnh đầu tôi không thể nghĩ ra bất kỳ xu hướng trung tâm nào với điểm phân tích 0 không thể được viết lại thành một phép biến đổi đơn điệu của số học trung bình, nhưng đó có lẽ là do tôi không biết đủ phép tính biến thiên (chắc chắn là không đủ để chứng minh tôi đúng). Tuy nhiên, nếu tôi đúng, thì "về cơ bản" là đúng

để lý thuyết về các quy tắc chấm điểm thích hợp hoạt động như dự định, chức năng thống kê phải là giá trị trung bình.


Một lưu ý khác: bạn đề nghị sử dụng RMSE làm quy tắc cho điểm, nhưng bạn không nên làm điều đó vì nó trùng với lỗi tuyệt đối khi có một điểm dữ liệu. Điều này có vẻ như nó có thể phản ánh một số nhầm lẫn. Bạn luôn đánh giá một quy tắc tính điểm trên từng dự đoán riêng lẻ. Sau đó, nếu bạn muốn tóm tắt điểm số, bạn có thể lấy xu hướng trung tâm của điểm số sau đó. Vì vậy, dự đoán để tối ưu hóa RMSE luôn giống hệt nhau để tối ưu hóa lỗi tuyệt đối.

Mặt khác, bạn có thể làm một cái gì đó như lấy căn bậc hai của điểm Brier trung bình làm tóm tắt của bạn nếu bạn muốn có một bản tóm tắt điểm nằm trong "đơn vị xác suất". Nhưng tôi nghĩ sẽ hiệu quả hơn nếu chỉ cần làm quen với điểm chuẩn cho thang điểm Brier, vì đó là những gì bạn thường thấy:

  • 0 là một công cụ dự đoán hoàn hảo;
  • p^= =0,5
  • p^= =1,p= =0p^= =0,p= =1

pp(1-p)


g(p^)= =đăng nhậpf(p^)ef(p^)E[đăng nhậpS2]= =E[đăng nhậpeS]= =E[S]p^eE(đăng nhậpS2), như mong muốn.
Kodiologist

"Bạn luôn đánh giá một quy tắc tính điểm trên từng dự đoán riêng lẻ. Sau đó, nếu bạn muốn tóm tắt điểm số, bạn có thể lấy xu hướng trung tâm của điểm số sau đó." - Trong thực tế, dường như có hai giai đoạn trong đó xu hướng trung tâm có liên quan: (1) khi tổng hợp điểm của một tác nhân trong nhiều sự kiện (2) khi xem xét hiệu suất dài hạn của một đại lý. (2) sử dụng đầu ra của (1). Người ta có thể mong đợi, một tiên nghiệm, rằng người ta có thể sử dụng RMSE cho (1) nhưng ý nghĩa của các phân tích liên quan đến (2).
Kodiologist

@Kodiologist: Cảm ơn đã sửa chữa! Phục vụ tôi ngay vì không viết nó ra trước.
Ben Kuhn

Nhận xét thứ hai của bạn: Tôi nghĩ rằng sự nhầm lẫn có thể là giữa việc sử dụng RMSE như một xu hướng trung tâm và sử dụng RMSE làm quy tắc cho điểm. Là một quy tắc tính điểm, RMSE giống hệt với lỗi tuyệt đối, bởi vì điểm số được đánh giá trên cơ sở dự đoán theo dự đoán. Là một xu hướng trung tâm, nó vẫn ổn - một lần nữa chỉ là trung bình trong một không gian tọa độ được chuyển đổi đơn điệu (miễn là chức năng cho điểm là dương). Nhưng sử dụng RMSE làm xu hướng trung tâm của bạn (không phải quy tắc chấm điểm) không làm giảm bớt vấn đề là điểm số của bạn không có cùng đơn vị với xác suất.
Ben Kuhn

@Kodiologist: điều này có trả lời câu hỏi của bạn không? Hãy cho tôi biết nếu bạn vẫn đang tự hỏi bất cứ điều gì!
Ben Kuhn

4

Bạn phải quay trở lại động lực cho một quy tắc tính điểm thích hợp, mà bạn nói một cách lỏng lẻo là "tác nhân có số điểm ít nhất đưa ra dự đoán chính xác nhất". Nói chính xác, nguồn gốc của các quy tắc tính điểm là gợi ra các xác suất phản ánh niềm tin thực sự - như bạn nêu, một người không thể làm gì tốt hơn là đưa ra một xác suất tương ứng với niềm tin của họ khi đưa ra quy tắc chấm điểm như một phần thưởng. Quy tắc chấm điểm đã được sử dụng để xác định ý nghĩa của xác suất mà không đề cập đến giới hạn của một số lượng lớn các lần lặp lại.

Quy tắc tính điểm như vậy được bắt nguồn bằng cách đặt kỳ vọng vào quy tắc, do đó xuất hiện giá trị trung bình trên tập dự đoán. Vậy khi bạn hỏi phải "chức năng thống kê phải là trung bình?" bạn thực sự đang hỏi làm thế nào chúng ta có thể kỳ vọng vào một tập hợp điểm bằng một số phương pháp khác ngoài việc sử dụng trung bình thông thường?

Tôi đọc được mối quan tâm của bạn rằng "quy tắc chấm điểm thích hợp không theo cùng thang điểm với xác suất" mà có lẽ bạn đang muốn thể hiện mức độ tính toán tốt hay xấu? Ngoài điểm số Brier, nhật ký chênh lệch tuyệt đối giữa xác suất được cung cấp và kết quả 0,1 cũng là một quy tắc tính điểm phù hợp, nhưng điều đó có thể không mang lại kết quả dễ hiểu hơn, đặc biệt là vì nó có thể chuyển hướng sang các giá trị cực đoan cho các lỗi lớn.

Bị chôn vùi trong việc tạo ra các quy tắc tính điểm là người ra quyết định có tiện ích tuyến tính, do đó kỳ vọng được thực hiện trực tiếp đối với quy tắc tính điểm, chứ không phải qua tiện ích của kết quả quy tắc tính điểm. (Một người có thể gặp rủi ro bất lợi đối với những sai lệch lớn so với sự thật và điều đó sẽ làm sai lệch xác suất được gợi ra của họ.) chỉ là xác suất?


3
Sử dụng lại quy tắc tính điểm để xác định xác suất: thú vị, tôi không có ý tưởng. Vâng, tìm kiếm để đánh giá điểm số tính toán tốt là một mối quan tâm đối với tôi. Ghi điểm logarit cho điểm cực trị cho các lỗi lớn: lưu ý hợp lệ. Tiện ích phi tuyến tính: bạn có thể đúng, nhưng quyết định các chức năng tiện ích có vẻ như là một công việc rất khó khăn, đặc biệt là trong nghiên cứu cơ bản.
Kodiologist
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.