Trong cuốn sách Tín hiệu và tiếng ồn của Nate Silver, ông viết những điều sau đây, có thể cung cấp một số thông tin chi tiết cho câu hỏi của bạn:
Một trong những thử nghiệm quan trọng nhất của dự báo - tôi cho rằng đó là thử nghiệm quan trọng nhất - được gọi là hiệu chuẩn. Trong số tất cả những lần bạn nói có 40% khả năng mưa, mưa có thường xuyên xảy ra không? Nếu trong thời gian dài, trời thực sự mưa khoảng 40%, điều đó có nghĩa là dự báo của bạn đã được hiệu chỉnh tốt. Thay vào đó, nếu trời mưa thì chỉ có 20 phần trăm thời gian, hoặc 60 phần trăm thời gian, họ sẽ không.
Vì vậy, điều này tăng một vài điểm. Trước hết, như bạn chỉ ra một cách đúng đắn, bạn thực sự không thể đưa ra bất kỳ suy luận nào về chất lượng của một dự báo duy nhất bằng kết quả của sự kiện mà bạn đang dự báo. Điều tốt nhất bạn có thể làm là xem mô hình của bạn hoạt động như thế nào qua nhiều dự đoán.
Một điều quan trọng khác cần suy nghĩ là các dự đoán mà Nate Silver cung cấp không phải là một sự kiện, mà là phân phối xác suất của sự kiện. Vì vậy, trong trường hợp cuộc đua tổng thống, ông đang ước tính phân phối xác suất của bà Clinton, Trump hay Johnson chiến thắng cuộc đua. Vì vậy, trong trường hợp này, ông đang ước tính một phân phối đa quốc gia.
Nhưng anh ta thực sự dự đoán cuộc đua ở cấp độ chi tiết hơn nhiều. Dự đoán của ông ước tính phân phối xác suất của tỷ lệ phiếu bầu mà mỗi ứng cử viên sẽ thu được ở mỗi bang. Vì vậy, nếu chúng tôi xem xét 3 ứng cử viên, điều này có thể được đặc trưng bởi một vectơ ngẫu nhiên có độ dài 51 * 3 và lấy các giá trị trong khoảng [0, 1], tùy thuộc vào ràng buộc rằng tỷ lệ này bằng 1 cho tỷ lệ trong một trạng thái. Số 51 là bởi vì các quốc gia khác là 50 tiểu bang + DC (và thực tế tôi nghĩ rằng đó thực sự là một số ít vì một số bang có thể chia phiếu bầu cử đại học của họ), và số 3 là do số lượng ứng cử viên.
Bây giờ bạn không có nhiều dữ liệu để đánh giá dự đoán của anh ấy - anh ấy chỉ cung cấp dự đoán cho 3 cuộc bầu cử gần đây nhất mà tôi biết (còn nhiều không?). Vì vậy, tôi không nghĩ rằng có bất kỳ cách nào để đánh giá một cách công bằng mô hình của anh ấy, trừ khi bạn thực sự có mô hình trong tay và có thể đánh giá nó bằng cách sử dụng dữ liệu mô phỏng. Nhưng vẫn còn một số điều thú vị mà bạn có thể nhìn vào. Ví dụ, tôi nghĩ sẽ rất thú vị khi xem xét cách anh ấy dự đoán chính xác tỷ lệ bỏ phiếu theo từng tiểu bang tại một thời điểm cụ thể, ví dụ như một tuần sau cuộc bầu cử. Nếu bạn lặp lại điều này trong nhiều thời điểm, ví dụ như một tuần, một tháng, 6 tháng và một năm, thì bạn có thể cung cấp một số giải thích khá thú vị cho dự đoán của mình. Một cảnh báo quan trọng: kết quả có mối tương quan cao giữa các quốc gia trong một cuộc bầu cử nên bạn thực sự không thể nói rằng bạn có 51 quốc gia * 3 trường hợp dự đoán độc lập bầu cử (nghĩa là nếu mô hình đánh giá thấp hiệu suất của ứng cử viên ở một bang, thì nó cũng sẽ có xu hướng đánh giá thấp ở các bang khác) . Nhưng có lẽ tôi sẽ nghĩ về nó như thế này dù sao đi nữa để bạn có đủ dữ liệu để làm bất cứ điều gì có ý nghĩa.