Làm thế nào chúng ta có thể đánh giá tính chính xác của dự đoán của Nate Silver?


19

Thứ nhất, ông đưa ra xác suất kết quả. Vì vậy, ví dụ, dự đoán của ông cho cuộc bầu cử ở Mỹ hiện là 82% Clinton so với 18% Trump.

Bây giờ, ngay cả khi Trump thắng, làm sao tôi biết rằng đó không chỉ là 18% thời gian mà anh ấy nên giành được?

Vấn đề khác là xác suất của anh thay đổi theo thời gian. Vì vậy, vào ngày 31 tháng 7, gần như là 50-50 giữa Trump và Clinton.

Câu hỏi của tôi là, cho rằng anh ta có xác suất khác nhau mỗi ngày cho cùng một sự kiện trong tương lai có cùng kết quả, làm thế nào tôi có thể đo lường mức độ chính xác của anh ta cho mỗi ngày anh ta đưa ra dự đoán dựa trên thông tin có sẵn cho đến ngày đó?


1
Tôi nghi ngờ chúng ta không thể. Người ta cần một tiêu chuẩn vàng để đưa ra đánh giá như vậy, và điều tốt nhất chúng ta có chỉ là những quan sát từ các cuộc bầu cử trước đây rất khó so sánh (vì mỗi cuộc bầu cử sẽ bao gồm các phương pháp lấy mẫu và hành vi cử tri thay thế). Nhưng tôi không phải là chuyên gia trong các cuộc khảo sát bầu cử, vì vậy tôi sẽ để lại nhận xét này và không phải là câu trả lời :)
Tal Galili

2
@TalGalili: chúng ta có thể nói ít nhất một cái gì đó, bằng cách sử dụng quy tắc tính điểm - giống như, ví dụ, chúng ta có thể nói điều gì đó về các tham số không quan sát được mà chúng ta ước tính trong hồi quy.
S. Kolassa - Tái lập Monica

Đây có lẽ là một "quy tắc tính điểm", nhưng, đối với n sự kiện, hãy nhân xác suất của anh ta cho những sự kiện đó xảy ra và lấy gốc thứ n để có tỷ lệ dự đoán trung bình (chúng tôi cho rằng anh ta không bao giờ đưa ra dự đoán 0%). Bạn có thể coi mỗi xác suất hàng ngày là một dự đoán riêng biệt.
barrycarter

Tại sao xác suất không thể thay đổi theo thời gian? Trong một sự kiện thể thao, không thay đổi tỷ lệ cược bất cứ khi nào bàn thắng được ghi hoặc một lần chạy về nhà được thực hiện?
Rodrigo de Azevedo

8
Mô hình của Silver cung cấp nhiều hơn chỉ là ước tính xác suất - nó mang lại tỷ lệ chiến thắng ước tính, được lấy từ xác suất chiến thắng và tỷ lệ chiến thắng cho mỗi trong số 50 tiểu bang. Vì vậy, nó đưa ra ước tính điểm và tỷ lệ sai số cho 50 phép đo khác nhau (mặc dù với một số - có thể là mức độ tương quan cao giữa chúng), không chỉ dự đoán một kết quả nhị phân duy nhất.
Mi-chê

Câu trả lời:


14

Dự báo xác suất (hoặc, như chúng được biết đến, dự báo mật độ) có thể được đánh giá bằng cách sử dụng , nghĩa là các chức năng ánh xạ dự báo mật độ và kết quả quan sát đến điểm được gọi là điểm số, được giảm thiểu theo dự đoán nếu dự báo mật độ thực sự là mật độ thực sự được dự báo. Các quy tắc chấm điểm thích hợp là các quy tắc tính điểm được giảm thiểu trong kỳ vọng chỉ bằng mật độ tương lai thực sự.

Có khá nhiều quy tắc chấm điểm thích hợp như vậy có sẵn, bắt đầu với Brier (1950, Đánh giá thời tiết hàng tháng ) trong bối cảnh dự báo thời tiết xác suất. Czado et al. (2009, Sinh trắc học ) đưa ra một cái nhìn tổng quan gần đây hơn cho trường hợp riêng biệt. Gneiting & Katzfuss (2014, Tạp chí thống kê hàng năm và ứng dụng của nó ) đưa ra một cái nhìn tổng quan về dự báo xác suất nói chung - Gneiting nói riêng đã rất tích cực trong việc thúc đẩy nguyên nhân của các quy tắc chấm điểm thích hợp.

Tuy nhiên, quy tắc tính điểm hơi khó diễn giải và chúng thực sự chỉ giúp so sánh nhiều dự báo xác suất - một quy tắc có điểm thấp hơn là tốt hơn. Có nghĩa là tùy thuộc vào biến thể lấy mẫu, do đó, sẽ tốt hơn nếu có nhiều dự báo để đánh giá, điểm số mà chúng ta sẽ trung bình.

Làm thế nào để bao gồm "cập nhật" dự báo của Silver hoặc của người khác là một câu hỏi hay. Chúng ta có thể sử dụng quy tắc tính điểm để so sánh "ảnh chụp nhanh" của các dự báo khác nhau tại một thời điểm hoặc thậm chí chúng ta có thể xem dự báo xác suất của Silver theo thời gian và tính điểm theo từng thời điểm. Người ta sẽ hy vọng rằng điểm số càng ngày càng thấp (nghĩa là mật độ dự báo càng ngày càng tốt) thì kết quả thực tế càng gần.


5
Một cách khác để nói: Xác suất dự báo riêng lẻ của một sự kiện duy nhất không thể được đánh giá một mình, nhưng các nhà dự báo có thể được đánh giá (bằng các hàm điểm).
kjetil b halvorsen

1
Đối với "được giảm thiểu trong kỳ vọng", tôi nghĩ vấn đề chính là kỳ vọng về điều gì? Chúng ta có thực hiện tất cả các dự đoán của Nate Silver không? Chỉ những người trong cuộc bầu cử tổng thống? Tôi không biết nếu có một câu trả lời duy nhất ở đây. Để so sánh các nhà dự báo khác nhau, dự đoán về bất kỳ tập hợp sự kiện chung nào có thể hợp lý.
GeoMatt22

@ GeoMatt22 - ông có phương pháp tương đối hợp lý cho các cuộc bầu cử khác, vì vậy có thể hợp lệ để tổng hợp tất cả các dự đoán bầu cử
DVK

11

Trong cuốn sách Tín hiệu và tiếng ồn của Nate Silver, ông viết những điều sau đây, có thể cung cấp một số thông tin chi tiết cho câu hỏi của bạn:

Một trong những thử nghiệm quan trọng nhất của dự báo - tôi cho rằng đó là thử nghiệm quan trọng nhất - được gọi là hiệu chuẩn. Trong số tất cả những lần bạn nói có 40% khả năng mưa, mưa có thường xuyên xảy ra không? Nếu trong thời gian dài, trời thực sự mưa khoảng 40%, điều đó có nghĩa là dự báo của bạn đã được hiệu chỉnh tốt. Thay vào đó, nếu trời mưa thì chỉ có 20 phần trăm thời gian, hoặc 60 phần trăm thời gian, họ sẽ không.

Vì vậy, điều này tăng một vài điểm. Trước hết, như bạn chỉ ra một cách đúng đắn, bạn thực sự không thể đưa ra bất kỳ suy luận nào về chất lượng của một dự báo duy nhất bằng kết quả của sự kiện mà bạn đang dự báo. Điều tốt nhất bạn có thể làm là xem mô hình của bạn hoạt động như thế nào qua nhiều dự đoán.

Một điều quan trọng khác cần suy nghĩ là các dự đoán mà Nate Silver cung cấp không phải là một sự kiện, mà là phân phối xác suất của sự kiện. Vì vậy, trong trường hợp cuộc đua tổng thống, ông đang ước tính phân phối xác suất của bà Clinton, Trump hay Johnson chiến thắng cuộc đua. Vì vậy, trong trường hợp này, ông đang ước tính một phân phối đa quốc gia.

Nhưng anh ta thực sự dự đoán cuộc đua ở cấp độ chi tiết hơn nhiều. Dự đoán của ông ước tính phân phối xác suất của tỷ lệ phiếu bầu mà mỗi ứng cử viên sẽ thu được ở mỗi bang. Vì vậy, nếu chúng tôi xem xét 3 ứng cử viên, điều này có thể được đặc trưng bởi một vectơ ngẫu nhiên có độ dài 51 * 3 và lấy các giá trị trong khoảng [0, 1], tùy thuộc vào ràng buộc rằng tỷ lệ này bằng 1 cho tỷ lệ trong một trạng thái. Số 51 là bởi vì các quốc gia khác là 50 tiểu bang + DC (và thực tế tôi nghĩ rằng đó thực sự là một số ít vì một số bang có thể chia phiếu bầu cử đại học của họ), và số 3 là do số lượng ứng cử viên.

Bây giờ bạn không có nhiều dữ liệu để đánh giá dự đoán của anh ấy - anh ấy chỉ cung cấp dự đoán cho 3 cuộc bầu cử gần đây nhất mà tôi biết (còn nhiều không?). Vì vậy, tôi không nghĩ rằng có bất kỳ cách nào để đánh giá một cách công bằng mô hình của anh ấy, trừ khi bạn thực sự có mô hình trong tay và có thể đánh giá nó bằng cách sử dụng dữ liệu mô phỏng. Nhưng vẫn còn một số điều thú vị mà bạn có thể nhìn vào. Ví dụ, tôi nghĩ sẽ rất thú vị khi xem xét cách anh ấy dự đoán chính xác tỷ lệ bỏ phiếu theo từng tiểu bang tại một thời điểm cụ thể, ví dụ như một tuần sau cuộc bầu cử. Nếu bạn lặp lại điều này trong nhiều thời điểm, ví dụ như một tuần, một tháng, 6 tháng và một năm, thì bạn có thể cung cấp một số giải thích khá thú vị cho dự đoán của mình. Một cảnh báo quan trọng: kết quả có mối tương quan cao giữa các quốc gia trong một cuộc bầu cử nên bạn thực sự không thể nói rằng bạn có 51 quốc gia * 3 trường hợp dự đoán độc lập bầu cử (nghĩa là nếu mô hình đánh giá thấp hiệu suất của ứng cử viên ở một bang, thì nó cũng sẽ có xu hướng đánh giá thấp ở các bang khác) . Nhưng có lẽ tôi sẽ nghĩ về nó như thế này dù sao đi nữa để bạn có đủ dữ liệu để làm bất cứ điều gì có ý nghĩa.


4

Đối với bất kỳ dự đoán nào bạn không thể, bất kỳ điều gì chúng tôi có thể biết nếu tuyên bố "đồng tiền này có 60% cơ hội xuất hiện" gần đúng với một lần ném.

Tuy nhiên, bạn có thể đánh giá phương pháp của ông qua nhiều dự đoán - đối với một cuộc bầu cử nhất định, ông đưa ra rất nhiều dự đoán, không chỉ về cuộc đua tổng thống mà còn nhiều dự đoán liên quan đến việc bỏ phiếu cho tổng thống và của nhiều chủng tộc khác (nhà, thượng viện, đại hội và v.v.), và ông cũng sử dụng các phương pháp tương tự rộng rãi theo thời gian.

Có nhiều cách để thực hiện đánh giá này (một số khá phức tạp), nhưng chúng ta có thể xem xét một số cách tương đối đơn giản để hiểu được ý nghĩa của nó. Ví dụ: bạn có thể chia các dự đoán về xác suất giành chiến thắng thành các nhóm, ví dụ: (50-55%, 55-65%, v.v.) và sau đó xem tỷ lệ dự đoán trong ban nhạc đó xuất hiện; tỷ lệ dự đoán 50-55% hoạt động phải nằm trong khoảng từ 50-55% tùy thuộc vào vị trí trung bình (cộng với một mức chênh lệch cho biến đổi ngẫu nhiên *).

Vì vậy, bằng cách tiếp cận đó (hoặc nhiều cách tiếp cận khác), bạn có thể thấy liệu phân phối kết quả có phù hợp với dự đoán trong một cuộc bầu cử hay qua nhiều cuộc bầu cử (nếu tôi nhớ đúng, tôi nghĩ rằng những dự đoán của ông thường đúng hơn so với lẽ ra , điều đó cho thấy các lỗi tiêu chuẩn của anh ta trung bình được đánh giá quá cao).

* chúng tôi phải cẩn thận về cách đánh giá điều đó, mặc dù vì các dự đoán không độc lập.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.