Bạn hỏi về ba điều: (a) cách kết hợp một số dự báo để có được dự báo duy nhất, (b) nếu phương pháp Bayes có thể được sử dụng ở đây và (c) làm thế nào để đối phó với xác suất bằng không.
Kết hợp dự báo, là một thực tế phổ biến . Nếu bạn có một vài dự báo so với việc bạn lấy trung bình các dự báo đó thì dự báo kết hợp sẽ tốt hơn về mặt chính xác so với bất kỳ dự báo riêng lẻ nào. Để tính trung bình chúng, bạn có thể sử dụng mức trung bình có trọng số trong đó trọng số dựa trên các lỗi nghịch đảo (nghĩa là độ chính xác) hoặc nội dung thông tin . Nếu bạn có kiến thức về độ tin cậy của từng nguồn, bạn có thể chỉ định các trọng số tỷ lệ thuận với độ tin cậy của từng nguồn, vì vậy các nguồn đáng tin cậy hơn có tác động lớn hơn đến dự báo kết hợp cuối cùng. Trong trường hợp của bạn, bạn không có bất kỳ kiến thức nào về độ tin cậy của chúng, vì vậy mỗi dự báo có cùng trọng số và vì vậy bạn có thể sử dụng trung bình số học đơn giản của ba dự báo
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
Như đã được đề xuất trong các bình luận của @AndyW và @ArthurB. , các phương pháp khác ngoài giá trị trung bình đơn giản có sẵn. Nhiều phương pháp như vậy được mô tả trong tài liệu về dự báo trung bình của chuyên gia, mà trước đây tôi không quen thuộc, vì vậy cảm ơn các bạn. Trong dự báo chuyên gia trung bình đôi khi chúng tôi muốn sửa vì thực tế là các chuyên gia có xu hướng thoái lui về mức trung bình (Baron et al, 2013), hoặc làm cho dự báo của họ cực đoan hơn (Ariely et al, 2000; Erev et al, 1994). Để đạt được điều này, người ta có thể sử dụng các phép biến đổi của các dự báo riêng lẻ , ví dụ hàm logitpi
logit(pi)=log(pi1−pi)(1)
tỷ lệ cược với sức mạnh thứ a
g( ptôi) = ( ptôi1 - ptôi)một(2)
trong đó hoặc biến đổi tổng quát hơn của biểu mẫu0 < a < 1
t ( ptôi) = pmộttôipmộttôi+ ( 1 - ptôi)một(3)
trong đó nếu không áp dụng biến đổi, nếu a > 1 dự báo riêng lẻ được thực hiện cực đoan hơn, nếu 0 < a < 1 dự báo được thực hiện ít cực đoan hơn, những gì được hiển thị trên hình dưới đây (xem Karmarkar, 1978; Baron et al, 2013 ).a = 1a>10<a<1
Sau khi dự báo chuyển đổi như vậy được tính trung bình (sử dụng trung bình số học, trung bình, trung bình có trọng số hoặc phương pháp khác). Nếu phương trình (1) hoặc (2) được sử dụng, kết quả cần được chuyển đổi ngược lại bằng cách sử dụng logit nghịch đảo cho (1) và tỷ lệ nghịch cho (2). Ngoài ra, có thể sử dụng trung bình hình học (xem Genest và Zidek, 1986; xem Dietrich and List, 2014)
p^=∏Ni=1pwii∏Ni=1pwii+∏Ni=1(1−pi)wi(4)
hoặc cách tiếp cận được đề xuất bởi Satopää et al (2014)
p^= [ ∏Ni = 1( ptôi1 - ptôi)wtôi]một1 + [ ∏Ni = 1( ptôi1 - ptôi)wtôi]một(5)
nơi là trọng lượng. Trong hầu hết các trường hợp, các trọng số bằng nhau w i = 1 / N được sử dụng trừ khi có thông tin tiên nghiệm cho thấy sự lựa chọn khác tồn tại. Các phương pháp như vậy được sử dụng trong các dự báo trung bình của chuyên gia để điều chỉnh sự thiếu tự tin hoặc quá mức. Trong các trường hợp khác, bạn nên cân nhắc nếu chuyển đổi dự báo thành nhiều hơn hoặc cực ít hơn là hợp lý vì nó có thể làm cho ước tính tổng hợp kết quả rơi ra khỏi ranh giới được đánh dấu bởi dự báo cá nhân thấp nhất và lớn nhất.wtôiwtôi= 1 / N
Nếu bạn có một tiên nghiệm kiến thức về khả năng mưa, bạn có thể áp dụng định lý Bayes để cập nhật các dự báo đưa ra một tiên nghiệm khả năng mưa trong thời trang tương tự như đã mô tả ở đây . Ngoài ra còn có một phương pháp đơn giản mà có thể được áp dụng, tức là tính toán bình quân gia quyền của bạn dự báo (như mô tả ở trên), nơi trước khả π được coi là điểm dữ liệu bổ sung với một số trọng lượng được xác định trước w π như trong này dụ IMDB (xem thêm nguồn , hoặc ở đây và ở đây để thảo luận; xem Genest and Schervish, 1985), tức làptôiπwπ
p^=(∑Ni=1piwi)+πwπ(∑Ni=1wi)+wπ(6)
Từ câu hỏi của bạn tuy nhiên nó không làm theo mà bạn có bất kỳ một tiên nghiệm kiến thức về vấn đề của bạn, do đó bạn có lẽ sẽ sử dụng thống nhất trước đó, tức là giả định một tiên nghiệm khả năng mưa và điều này không thực sự thay đổi nhiều trong trường hợp ví dụ mà bạn cung cấp.50%
Để đối phó với số không, có một số cách tiếp cận khác nhau có thể. Trước tiên, bạn nên chú ý rằng cơ hội mưa không thực sự đáng tin cậy, vì nó nói rằng không thể nào trời sẽ mưa. Các vấn đề tương tự thường xảy ra trong xử lý ngôn ngữ tự nhiên khi trong dữ liệu của bạn, bạn không quan sát thấy một số giá trị có thể xảy ra (ví dụ: bạn đếm tần số của các chữ cái và trong dữ liệu của bạn, một số chữ cái không phổ biến hoàn toàn không xảy ra). Trong trường hợp này, công cụ ước tính cổ điển cho xác suất, nghĩa là0%
pi=ni∑ini
Trong đó là một số lần xuất hiện của giá trị thứ i (trong số các loại d ), cung cấp cho bạn p i = 0 nếu n i = 0 . Đây được gọi là vấn đề tần số không . Đối với các giá trị như vậy, bạn biết rằng xác suất của chúng là khác không (chúng tồn tại!), Vì vậy ước tính này rõ ràng là không chính xác. Ngoài ra còn có một mối quan tâm thực tế: nhân và chia cho các số 0 dẫn đến các số không hoặc kết quả không xác định, do đó các số không có vấn đề trong việc xử lý.ntôitôidpi=0ni=0
Việc sửa chữa dễ dàng và thường được áp dụng là, thêm một số hằng số để đếm của bạn, do đóβ
pi=ni+β(∑ini)+dβ
Sự lựa chọn phổ biến đối với là 1 , tức là áp dụng thống nhất trước dựa trên quy tắc Laplace của kế , 1 / 2 cho dự Krichevsky-Trofimov, hoặc 1 / d cho ước lượng Schurmann-Grassberger (1996). Tuy nhiên, lưu ý rằng những gì bạn làm ở đây là bạn áp dụng thông tin ngoài dữ liệu (trước) trong mô hình của mình, do đó, nó mang tính chủ quan, hương vị Bayes. Với việc sử dụng phương pháp này, bạn phải nhớ các giả định bạn đã thực hiện và xem xét chúng. Thực tế là chúng ta có một tiên nghiệm mạnh mẽβ11/21/dkiến thức rằng không nên có bất kỳ xác suất bằng không nào trong dữ liệu của chúng tôi trực tiếp biện minh cho cách tiếp cận Bayes ở đây. Trong trường hợp của bạn, bạn không có tần số nhưng xác suất, vì vậy bạn sẽ thêm một số giá trị rất nhỏ để sửa lỗi cho số không. Tuy nhiên, lưu ý rằng trong một số trường hợp, cách tiếp cận này có thể có hậu quả xấu (ví dụ như khi xử lý nhật ký ) vì vậy nên thận trọng khi sử dụng.
Schurmann, T. và P. Grassberger. (1996). Ước tính Entropy của chuỗi ký hiệu. Hỗn loạn, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS và Zauberman, G. (2000). Các tác động của ước tính xác suất chủ quan trung bình giữa và trong các thẩm phán. Tạp chí Tâm lý học Thực nghiệm: Áp dụng, 6 (2), 130.
Nam tước, J., Meller, BA, Tetlock, PE, Stone, E. và Ungar, LH (2014). Hai lý do để làm cho dự báo xác suất tổng hợp cực đoan hơn. Phân tích quyết định, 11 (2), 133-145.
Erev, I., Wallsten, TS và Budescu, DV (1994). Đồng thời quá mức và thiếu tự tin: Vai trò của lỗi trong các quá trình phán đoán. Đánh giá tâm lý, 101 (3), 519.
Karmarkar, Hoa Kỳ (1978). Tiện ích có trọng số chủ quan: Một phần mở rộng mô tả của mô hình tiện ích dự kiến. Hành vi tổ chức và hiệu suất của con người, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV, và Wallsten, TS (2014). Dự báo tổng hợp thông qua hiệu chuẩn lại. Học máy, 95 (3), 261-289.
Thể loại, C. và Zidek, JV (1986). Kết hợp phân phối xác suất: một bài phê bình và thư mục chú thích. Khoa học thống kê, 1 , 114 Từ135.
Satopää, VA, Baron, J., Foster, DP, Meller, BA, Tetlock, PE, và Ungar, LH (2014). Kết hợp nhiều dự đoán xác suất bằng mô hình logit đơn giản. Tạp chí dự báo quốc tế, 30 (2), 344-356.
Thể loại, C. và Schervish, MJ (1985). Mô hình đánh giá chuyên gia cho Bayesian cập nhật. Biên niên sử Thống kê , 1198-1212.
Dietrich, F. và Danh sách, C. (2014). Ý kiến xác suất tổng hợp. (Chưa được công bố)