Làm thế nào để chúng ta dự đoán các sự kiện hiếm?


11

Tôi đang làm việc để phát triển một mô hình dự báo rủi ro bảo hiểm. Các mô hình này là "sự kiện hiếm" như dự đoán hàng không, phát hiện lỗi phần cứng, v.v. Khi tôi chuẩn bị bộ dữ liệu của mình, tôi đã thử áp dụng phân loại, nhưng tôi không thể có được các phân loại hữu ích vì tỷ lệ cao các trường hợp tiêu cực .

Tôi không có nhiều kinh nghiệm về thống kê và mô hình hóa dữ liệu ngoài khóa học thống kê ở trường trung học nên tôi hơi bối rối.

Như suy nghĩ đầu tiên, tôi đã nghĩ đến việc sử dụng mô hình quy trình Poisson không đồng nhất. Tôi đã phân loại nó dựa trên dữ liệu sự kiện (ngày, lat, lon) để có được ước tính tốt về khả năng rủi ro tại một thời điểm cụ thể vào một ngày cụ thể ở một địa điểm cụ thể.

Tôi muốn biết, các phương pháp / thuật toán để dự đoán các sự kiện hiếm gặp là gì?
Bạn đề nghị gì như một cách tiếp cận để giải quyết vấn đề này?

Câu trả lời:


9

Cách tiếp cận tiêu chuẩn là " lý thuyết giá trị cực đoan ", có một cuốn sách tuyệt vời về chủ đề của Stuart Coles (mặc dù giá hiện tại có vẻ khá, sai ... cực kỳ).

Lý do bạn không thể có được kết quả tốt khi sử dụng các phương pháp phân loại hoặc hồi quy là vì các phương pháp này thường phụ thuộc vào việc dự đoán giá trị trung bình có điều kiện của dữ liệu và các sự kiện cực đoan thường được gây ra bởi sự kết hợp của các yếu tố "ngẫu nhiên" theo cùng một hướng, vì vậy chúng nằm trong đuôi của sự phân phối các kết quả hợp lý, thường là một chặng đường dài từ trung bình có điều kiện. Những gì bạn có thể làm là dự đoán toàn bộ phân phối có điều kiện, chứ không chỉ là ý nghĩa của nó và có được một số thông tin về xác suất của một sự kiện cực đoan bằng cách tích hợp đuôi phân phối trên một số ngưỡng. Tôi thấy điều này hoạt động tốt trong một ứng dụng về thu hẹp thống kê lượng mưa lớn .


1
Có bất kỳ thực hiện lý thuyết này trên python?
dùng3378649

Xin lỗi, tôi không lập trình bằng Python (chưa) vì vậy tôi không thể giúp ở đó.
Dikran Marsupial

Xin lỗi, tôi không hiểu lý do của bạn. Giả sử bạn có rv và các yếu tố dự đoán ; bạn quan tâm đến việc dự đoán khi nào sẽ hiếm khi xảy ra. Tại sao bạn không thể phù hợp với một số mô hình phân loại tiêu chuẩn để ước tính xác suất có điều kiện - giả sử, hồi quy logistic? Nếu tôi hiểu đúng, bạn đang nói rằng mô hình hóa có nghĩa là điều kiện không cung cấp cho chúng tôi thông tin hữu ích về sự kiện cực đoan , điều này là đúng. Nhưng chúng ta vẫn có thể ước tính bằng cách sử dụng phân loại tiêu chuẩn mà không cần lý thuyết giá trị cực trị - không? yx1,,xny>Y0P(y>Y0|x1,,xn)E(y|x1,,xn)y>Y0P(y>Y0|x1,,xn)
Kochede

Có, bạn có thể làm điều đó, tuy nhiên chức năng chi phí mà bạn đang giảm thiểu không tập trung vào việc có các đuôi phân phối, vì vậy nếu đó là điều bạn quan tâm, tốt hơn là nên thử và mô hình hóa các sự kiện trong đuôi một cách rõ ràng hơn .
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.