Là người thời tiết của tôi chính xác?

20

Một câu hỏi làm phiền tôi một thời gian, mà tôi không biết làm thế nào để giải quyết:

Mỗi ngày, người dự báo thời tiết của tôi cho một tỷ lệ cơ hội mưa (giả sử nó được tính đến 9000 chữ số và anh ta chưa bao giờ lặp lại một con số). Mỗi ngày sau đó, trời mưa hoặc không mưa.

Tôi có nhiều năm dữ liệu - cơ hội pct vs mưa hay không. Với lịch sử của người thời tiết này , nếu anh ta nói tối nay rằng cơ hội mưa vào ngày mai là X, thì dự đoán tốt nhất của tôi về khả năng mưa thực sự là gì?

hypothesis-testing forecasting

— Paul Murray
nguồn

Điều này có liên quan đến một câu hỏi trong quá khứ: stats.stackexchange.com/q/2275/495

— Simon Byrne

Một điều cần tính đến: trong cuốn sách dự đoán của Nate Silver, Tín hiệu và tiếng ồn: Tại sao rất nhiều dự đoán thất bại - Nhưng một số Đừng, ông nói dài về cách các nhà thời tiết thường xuyên điều chỉnh dự báo mưa của họ vì lý do tiếp thị. NOAA thì không, nhưng Weather Channel khá cởi mở về việc sửa đổi bất kỳ cơ hội nào trong khoảng từ 5 đến 20 đến 20 (để không gây phẫn nộ cho khách hàng nếu trời thực sự mưa), trong khi các chuyên gia thời tiết cho các đài truyền hình địa phương thường xuyên đưa số liệu của họ lên một cách trơ trẽn hơn. Sự thiên vị có ý thức và có thể phi đạo đức này sẽ ảnh hưởng đến bất kỳ đánh giá thống kê nào về chất lượng dự đoán của họ.

— SQLServerSteve

6

Trong thực tế, bạn đang nghĩ về một mô hình trong đó cơ hội thực sự của mưa, p , là một hàm của cơ hội dự đoán q : p = p (q ). Mỗi khi dự đoán được đưa ra, bạn quan sát thấy một biến thể của biến Bernoulli có xác suất p (q) thành công. Đây là một thiết lập hồi quy logistic cổ điển nếu bạn sẵn sàng mô hình hóa cơ hội thực sự dưới dạng kết hợp tuyến tính của các hàm cơ bản F1 , f2 , ..., fk ; đó là, mô hình nói

Đăng nhập ( p ) = b0 + b1 f1 (q) + b2 f2 (q) + ... + bk fk (q) + e

với lỗi iid e . Nếu bạn không biết về hình thức của mối quan hệ (mặc dù nếu người thời tiết là bất kỳ p (q) - q nào cũng phải nhỏ một cách hợp lý), hãy cân nhắc sử dụng một bộ spline cho cơ sở. Đầu ra, như thường lệ, bao gồm các ước tính của các hệ số và ước tính phương sai của e . Đưa ra bất kỳ dự đoán nào trong tương lai q , chỉ cần cắm giá trị vào mô hình với các hệ số ước tính để có câu trả lời cho câu hỏi của bạn (và sử dụng phương sai của e để xây dựng khoảng dự đoán xung quanh câu trả lời đó nếu bạn muốn).

Khung này đủ linh hoạt để bao gồm các yếu tố khác, chẳng hạn như khả năng thay đổi chất lượng dự đoán theo thời gian. Nó cũng cho phép bạn kiểm tra các giả thuyết, chẳng hạn như liệu p = q (đó là những gì người dự báo ngầm tuyên bố).

— whuber
nguồn

Hmm - câu hỏi của tôi không được xác định rõ. Điều duy nhất tôi có thể làm là chọn một số mô hình cho q () cho phép cài đặt các tham số và tối đa hóa mức độ phù hợp bằng cách thay đổi các tham số đó. Đó là - bất kể tôi làm gì, tôi sẽ phải đưa ra một số giả định về cơ bản q () trông như thế nào.

— Paul Murray

11

So sánh dự báo xác suất cho sự kiện nhị phân (hoặc Biến ngẫu nhiên rời rạc) có thể được thực hiện theo điểm Brier

$\tau$ $\tau$

Bạn nên xem qua cách trung tâm châu Âu dự báo thời tiết tầm trung ( ECMWF hiện ).

— cướp girard
nguồn

3

Khi dự báo cho biết "X phần trăm cơ hội mưa ở (khu vực)", điều đó có nghĩa là mô hình thời tiết bằng số đã chỉ ra mưa ở X phần trăm của khu vực, trong khoảng thời gian được đề cập. Ví dụ, thông thường sẽ chính xác để dự đoán "100% khả năng mưa ở Bắc Mỹ". Hãy nhớ rằng các mô hình rất tốt trong việc dự đoán động lực học và kém trong việc dự đoán nhiệt động lực học.

— ăn
nguồn

1

Một chủ đề cũ, nhưng một điểm quan trọng để làm rõ trong OP: khi họ nói rằng họ có dữ liệu "mưa hay không" để so sánh với dự đoán, họ có nghĩa là "tại nhà tôi" hay họ có nghĩa là "trong dự đoán khu vực"?

— Wayne

2

Cách tiếp cận Brier Score rất đơn giản và là cách áp dụng trực tiếp nhất để xác minh tính chính xác của kết quả dự đoán so với sự kiện nhị phân.

Đừng chỉ dựa vào các công thức ... vẽ biểu đồ cho các khoảng thời gian khác nhau, dữ liệu, lỗi, [trung bình] dữ liệu trung bình, lỗi ... thật khó để nói phân tích trực quan nào có thể tiết lộ ... sau khi bạn nghĩ bạn nhìn thấy một cái gì đó, bạn sẽ biết rõ hơn loại thử nghiệm giả thuyết nào sẽ thực hiện cho đến khi SAU bạn nhìn vào dữ liệu.

Điểm Brier vốn đã thừa nhận sự ổn định của biến đổi / thời tiết phân phối cơ bản và công nghệ điều khiển các mô hình dự báo, thiếu tuyến tính, không sai lệch, thiếu thay đổi về độ lệch ... nó giả định rằng mức độ chính xác / không chính xác chung là phù hợp. Khi khí hậu thay đổi theo những cách chưa được hiểu, độ chính xác của dự đoán thời tiết sẽ giảm; ngược lại, các nhà khoa học cung cấp thông tin cho người thời tiết có nhiều tài nguyên hơn, mô hình hoàn chỉnh hơn, sức mạnh tính toán nhiều hơn nên có lẽ độ chính xác của các dự đoán sẽ tăng lên. Nhìn vào các lỗi sẽ cho biết điều gì đó về tính ổn định, tuyến tính và sai lệch của các dự báo ... bạn có thể không có đủ dữ liệu để xem xu hướng; bạn có thể học được rằng sự ổn định, tuyến tính và thiên vị không phải là một vấn đề. Bạn có thể biết rằng dự báo thời tiết ngày càng chính xác hơn ... hoặc không.

— đánh dấu
nguồn

0

Làm thế nào về việc chỉ tạo ra các dự đoán đã cho và lấy các phân số được quan sát làm ước tính của bạn cho mỗi thùng?

Bạn có thể khái quát điều này thành một mô hình liên tục bằng cách cân nhắc tất cả các quan sát xung quanh giá trị quan tâm của bạn (giả sử dự đoán vào ngày mai) bởi một Gaussian và xem mức trung bình có trọng số là bao nhiêu.

Bạn có thể đoán chiều rộng để lấy cho bạn một phần dữ liệu nhất định (hoặc giả sử, không bao giờ dưới 100 điểm cho ước tính tốt). Hoặc sử dụng một phương pháp như xác thực chéo khả năng tối đa để có được chiều rộng Gaussian.

— luispedro
nguồn

0

Bạn có muốn biết dự báo của anh ấy có chính xác hơn dự báo khác không? Nếu vậy, bạn có thể xem xét các số liệu chính xác cơ bản để phân loại xác suất như entropy chéo, độ chính xác / thu hồi, đường cong ROC và điểm số F1.

Xác định xem dự báo có tốt khách quan hay không là một vấn đề khác. Một lựa chọn là xem xét hiệu chuẩn. Trong tất cả những ngày mà anh ấy nói rằng sẽ có 90% khả năng mưa, có phải khoảng 90% những ngày đó có mưa không? Dành tất cả những ngày mà anh ấy có một dự báo và sau đó xô chúng theo ước tính của anh ấy về xác suất mưa. Đối với mỗi thùng, hãy tính tỷ lệ phần trăm của những ngày mưa thực sự xảy ra. Sau đó, với mỗi thùng, xác suất mưa thực tế so với ước tính của anh ta về xác suất mưa. Cốt truyện sẽ trông giống như một đường thẳng nếu dự báo được hiệu chỉnh tốt.

— Alex Lamb
nguồn