Khoảng tin cậy cho dự báo xgb


8

Các chuyên gia! Có lẽ, bạn biết cách tính khoảng tin cậy cho xgboost? Công thức cổ điển với phân phối t không thể giúp đỡ, vì dữ liệu của tôi thường không được phân phối. Hay không quan trọng?

Nếu bạn sẽ đề xuất một số tài liệu, nó sẽ rất hữu ích, nhưng cách tiếp cận trong R và Python (trong bối cảnh thư viện xgb) cũng tốt.

Có lẽ, nó trông như thế này , nhưng nó tính toán như thế nào? Và tìm thấy điều này - nó có đúng hay không?

PS: Tôi không thể thêm một số hình ảnh, liên quan đến dữ liệu của tôi (giới hạn liên kết), xin lỗi.


Đây có phải là một vấn đề phân loại? Khi bạn nói dữ liệu không bình thường, bạn có nghĩa là đa biến bình thường?
Michael R. Chernick

@MichaelCécick Không, vấn đề hồi quy. Tôi nghĩ rằng, dữ liệu có thể được đặt tên là đa biến thông thường, bởi vì tôi có thông tin về các thành phố khác nhau và những người mắc bệnh trong đó. Do đó, khoảng tin cậy của tôi liên quan đến phân phối cho mỗi thành phố.
Lu Wao

Vấn đề không được nêu rõ ràng. Không có cách nào để nói đây là một vấn đề hồi quy. Tôi có ấn tượng đó là phân loại dựa trên việc nhìn vào các liên kết của bạn. Nếu đó là hồi quy thì chỉ có một biến dự đoán và một biến phụ thuộc? Nếu đó là trường hợp sử dụng phân phối t cho các tham số hồi quy mà bạn đang nói đến. Nó cũng có thể là giá trị được trang bị cụ thể của y (biến phụ thuộc) cho x (biến dự đoán) hoặc giá trị dự đoán cho giá trị mới của y.
Michael R. Chernick

@MichaelCécick Trong mô hình một var phụ thuộc và hơn 30 vars độc lập. Có, xgb hoạt động trên cây (ban đầu giải quyết vấn đề phân loại), nhưng tôi đã sử dụng nó để hồi quy.
Lu Wao

1
@ ab90hi Nhưng cảm ơn câu trả lời của bạn, bây giờ tôi biết, điều đó tự động R tính sai khoảng thời gian :)
Lu Wao

Câu trả lời:


4

Vì vậy, đây là câu trả lời! ( gương )

Để xây dựng giới hạn độ tin cậy cho dữ liệu phân phối bất thường, trước tiên bạn cần xây dựng hồi quy lượng tử, thay vì hồi quy tuyến tính, như mặc định. Đối với điều này là cần thiết, sử dụng các dẫn xuất dẫn xuất từ ​​bài viết hoặc đơn giản là sao chép mã trên python, để tùy chỉnh biến 'mục tiêu'. Cũng cần phải thay đổi hàm gradient và hàm Gaussian. Sau khi mọi thứ được lập trình, xây dựng hồi quy lượng tử cho lượng tử thứ 50 (đây sẽ là hồi quy ban đầu), và sau đó hai hồi quy lượng tử cho hai ranh giới của khoảng (ví dụ: 95 và 5). Kết quả là, bạn không chỉ nhận được một mô hình chính xác hơn cho hồi quy ban đầu, mà còn cả các khoảng mong muốn.


4
Chúng tôi đang cố gắng xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Vì vậy, chúng tôi cảnh giác với các câu trả lời chỉ liên kết, do linkrot. Bạn có thể đăng một trích dẫn đầy đủ và một bản tóm tắt các thông tin tại liên kết, trong trường hợp nó bị chết?
TEG - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.