Làm thế nào các mô hình học máy (GBM, NN, v.v.) có thể được sử dụng để phân tích sinh tồn?


13

Tôi biết rằng mô hình thống kê truyền thống như Cox tỉ lệ nguy hại hồi quy & một số mô hình Kaplan-Meier có thể được sử dụng để dự đoán ngày cho đến khi xuất hiện tiếp theo của một thất bại nói sự kiện, vv tức là phân tích Survival

Câu hỏi

  1. Làm thế nào có thể sử dụng phiên bản hồi quy của các mô hình học máy như GBM, mạng thần kinh, vv để dự đoán ngày cho đến khi xảy ra sự kiện?
  2. Tôi tin rằng chỉ cần sử dụng ngày cho đến khi xuất hiện làm biến mục tiêu và chỉ đơn giản là chạy mô hình hồi quy sẽ không hoạt động? Tại sao nó không hoạt động và làm thế nào nó có thể được sửa chữa?
  3. Chúng ta có thể chuyển đổi vấn đề phân tích sinh tồn sang phân loại và sau đó có được xác suất sống sót không? Nếu sau đó làm thế nào để tạo biến mục tiêu nhị phân?
  4. Những ưu và nhược điểm của phương pháp học máy so với hồi quy Cox Proportional Hazards & mô hình Kaplan-Meier, v.v?

Hãy tưởng tượng dữ liệu đầu vào mẫu có định dạng dưới đây

nhập mô tả hình ảnh ở đây

Ghi chú:

  • Cảm biến sẽ ping dữ liệu trong khoảng thời gian 10 phút nhưng đôi khi dữ liệu có thể bị thiếu do sự cố mạng, v.v. được biểu thị bằng hàng với NA.
  • var1, var2, var3 là các yếu tố dự đoán, biến giải thích.
  • fail_flag cho biết máy có bị lỗi hay không.
  • Chúng tôi có dữ liệu 6 tháng qua ở mỗi khoảng thời gian 10 phút cho mỗi id máy

BIÊN TẬP:

Dự đoán đầu ra dự kiến ​​nên ở định dạng dưới đây nhập mô tả hình ảnh ở đây

Lưu ý: Tôi muốn dự đoán xác suất thất bại cho mỗi máy trong 30 ngày tiếp theo ở cấp độ hàng ngày.


1
Tôi nghĩ nó sẽ hữu ích nếu bạn có thể giải thích tại sao đây là dữ liệu theo thời gian; Chính xác thì câu trả lời bạn muốn làm là gì?
Vách đá AB

Tôi đã chỉnh sửa và thêm bảng dự đoán đầu ra dự kiến ​​để làm cho nó rõ ràng. Hãy cho tôi biết nếu bạn có thêm bất kỳ câu hỏi nào.
GeorgeOfTheRF

1
Có một số cách để chuyển đổi dữ liệu sinh tồn thành kết quả nhị phân trong một số trường hợp, ví dụ: các mô hình nguy hiểm thời gian rời rạc: Statisticshorizons.com/wp-content/uploads/ ALLison.SM82.pdf . Ví dụ, một số phương pháp học máy như rừng ngẫu nhiên có thể mô hình hóa thời gian để dữ liệu sự kiện bằng cách sử dụng thống kê xếp hạng nhật ký làm tiêu chí phân tách.
DSaxton

@dsaxton Cảm ơn. Bạn có thể giải thích làm thế nào để hội tụ dữ liệu sinh tồn ở trên vào kết quả nhị phân?
GeorgeOfTheRF

Sau khi xem xét kỹ hơn, có vẻ như bạn đã có kết quả nhị phân với failure_flag.
DSaxton

Câu trả lời:


6

Đối với trường hợp của các mạng thần kinh, đây là một cách tiếp cận đầy hứa hẹn: WTTE-RNN - Dự đoán churn ít bị hack .

Bản chất của phương pháp này là sử dụng Mạng thần kinh tái phát để dự đoán các tham số của phân phối Weibull tại mỗi bước thời gian và tối ưu hóa mạng bằng cách sử dụng chức năng mất kiểm duyệt.

Tác giả cũng đã phát hành triển khai của mình trên Github .


2

Có một cái nhìn vào các tài liệu tham khảo:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

Cũng lưu ý rằng các mô hình dựa trên mối nguy truyền thống như Cox Proportional Hazards (CPH) không được thiết kế để dự đoán thời gian diễn ra sự kiện, mà là suy ra tác động (tương quan) của các biến đối với i) quan sát các sự kiện và do đó ii) đường cong sống sót . Tại sao? Nhìn vào MLE của CPH.

Do đó, nếu bạn muốn dự đoán trực tiếp hơn một cái gì đó như "ngày cho đến khi xảy ra", CPH có thể không được khuyến khích; các mô hình khác có thể phục vụ tốt hơn nhiệm vụ của bạn như đã lưu ý trong hai tài liệu tham khảo ở trên.


1

Như @dsaxton đã nói, bạn có thể xây dựng một mô hình thời gian riêng biệt. Bạn thiết lập nó để dự đoán p (thất bại vào ngày này được đưa ra cho đến ngày hôm trước). Đầu vào của bạn là ngày hiện tại (trong bất kỳ đại diện nào bạn muốn), ví dụ như một mã hóa nóng, số nguyên, .. Spline ... Cũng như bất kỳ biến độc lập nào khác mà bạn có thể muốn

Vì vậy, bạn tạo các hàng dữ liệu, cho mỗi mẫu tồn tại cho đến thời điểm t-1, nó đã chết tại thời điểm t (0/1).

Vì vậy, bây giờ xác suất sống sót đến thời điểm T là sản phẩm của p (không chết tại thời điểm t được đưa ra không chết ở t-1) cho t = 1 đến T. Tôi đưa ra dự đoán T từ mô hình của bạn và sau đó nhân lên với nhau.

Tôi muốn nói lý do không phải là một ý tưởng để dự đoán trực tiếp thời gian đến thất bại là do cấu trúc ẩn của vấn đề. Ví dụ, bạn nhập gì cho các máy không bị lỗi. Cấu trúc cơ bản thực sự là các sự kiện độc lập: thất bại tại thời điểm t không đưa ra đến t-1. Vì vậy, ví dụ nếu bạn cho rằng nó không đổi, thì đường cong sinh tồn của bạn sẽ trở thành số mũ (xem mô hình nguy hiểm)

Lưu ý trong trường hợp bạn có thể lập mô hình trong khoảng thời gian 10 phút hoặc tổng hợp vấn đề phân loại lên đến cấp độ ngày ..

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.