Làm thế nào để tăng cường tính toán ước tính xác suất?


11

Tôi đã cố gắng tìm hiểu việc tăng cường độ dốc khi đọc các blog, trang web khác nhau và cố gắng tìm câu trả lời của mình bằng cách xem qua ví dụ mã nguồn XGBoost. Tuy nhiên, tôi dường như không thể tìm thấy một lời giải thích dễ hiểu về cách các thuật toán tăng cường độ dốc tạo ra các ước tính xác suất. Vì vậy, làm thế nào để họ tính toán xác suất?


3
Điều này về cơ bản hỏi và trả lời cùng một câu hỏi, trong trường hợp một lời giải thích khác sẽ hữu ích cho bạn: stats.stackexchange.com/questions/204154/ trộm
Matthew Drury

Câu trả lời:


13

XGBoost để phân loại là một mô hình kết hợp các nguyên tắc của cây quyết định và hồi quy logistic.

Hàm hồi quy logistic tính toán các xác suất tuyến tính trên thang đo logit:

z=XwP(y=1|X)=11+exp(z)

XXTT

nX

wXnw

Hoặc, nói cách khác, tỷ lệ cược log cho một mẫu là tổng trọng số của các lá cuối cùng của nó. Xác suất của mẫu thuộc lớp 1 là phép biến đổi nghịch đảo logit của tổng.


Điều này rất hữu ích, cảm ơn. Beta-vector chứa bao nhiêu phần tử? Nó sẽ là bằng với số tổng số nút lá trên tất cả các cây? (Và sẽ có số lượng cột bằng nhau trong ma trận X, đúng không?)
Vishal

Cảm ơn bạn đã trả lời cập nhật. Điều này có nghĩa là có một ma trận duy nhất X cũng như một bộ betas duy nhất cho mỗi mẫu / quan sát ( i)? Nói cách khác, với mỗi mẫu / quan sát mà bạn muốn tính xác suất thuộc về lớp 1, bạn cần xác định các giá trị duy nhất của Xma trận và vectơ beta?
Vishal

1
X

@SycoraxsaysReinstateMonica Bạn trả lời là rất rất hữu ích trong việc hiểu GBM. Ngoài ra, bạn có thể giải thích cách cây đầu tiên trong GBM (trình phân loại) được xây dựng không và cách tiêu chí phân chia nút cho cây đầu tiên được quyết định. Tôi không chắc chắn, những gì chúng ta dự đoán cho cây đầu tiên (ngay cả khi giả sử một hằng số được khởi tạo, độ dốc của tổn thất được tính từ hằng số) và nếu mse là tiêu chí phân tách, thì nó bao gồm những gì (bình phương khác biệt của những giá trị nào ??)
tjt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.