Kết hợp phân phối xác suất lớp trước trong hồi quy logistic

9

Tôi ngạc nhiên rằng tôi không thể tìm thấy bất kỳ bài viết / bài giảng nào về cách người ta có thể kết hợp Phân phối Xác suất của Lớp trước trong các phân loại như Hồi quy logistic hoặc Rừng ngẫu nhiên.

Vì vậy, câu hỏi của tôi là:

Làm thế nào có thể kết hợp phân phối xác suất lớp trước trong hồi quy logistic hoặc rừng ngẫu nhiên?

Có phải việc kết hợp phân phối xác suất trước lớp có ngụ ý rằng tôi nên sử dụng máy móc Bayes không?

Tôi đang đối mặt với một nhiệm vụ phân loại nơi tôi biết rằng lớp a có nhiều khả năng hơn lớp b.

Một giải pháp adhoc sẽ chỉ bao gồm nhiều mẫu hơn cho lớp a trong tập huấn luyện, nhưng có kết quả lý thuyết nào về điều này không?

Một điều tôi nghĩ là thay đổi ngưỡng quyết định từ 0,5 thành giá trị có tính đến sự mất cân bằng trước đó. Nhưng tôi thậm chí không chắc liệu điều đó có hợp lý về mặt lý thuyết hay không, bởi vì tại thời điểm tôi sẵn sàng đưa ra quyết định, tôi đã xem xét tất cả các giá trị tính năng nên tôi không nên quan tâm đến xác suất trước mà là xác suất có điều kiện của lớp.

— người dùng695652
nguồn

5

Đặt là biến phản ứng nhị phân và là vectơ của các yếu tố dự đoán có mật độ (sẽ là liên tục, rời rạc hoặc kết hợp cả hai). Lưu ý rằng $Y$ $X$ $f$

\frac{P (Y = 1 ∣ X = x)}{P (Y = 0 ∣ X = x)} = \frac{P (Y = 1) f_{X ∣ Y = 1} (x)}{P (Y = 0) f_{X ∣ Y = 0} (x)}

$\frac{P(Y = 1 \mid X = x)}{P(Y = 0 \mid X = x)} = \frac{P(Y = 1) f_{X \mid Y=1}(x)}{P(Y = 0) f_{X \mid Y=0}(x)}$

và vì thế

\log (\frac{P (Y = 1 ∣ X = x)}{P (Y = 0 ∣ X = x)}) = \log (\frac{P (Y = 1)}{P (Y = 0)}) + \log (\frac{f_{X ∣ Y = 1} (x)}{f_{X ∣ Y = 0} (x)}) .

$\log \left ( \frac{P(Y = 1 \mid X = x)}{P(Y = 0 \mid X = x)} \right ) = \log \left ( \frac{P(Y = 1)}{P(Y = 0)} \right ) + \log \left ( \frac{f_{X \mid Y=1}(x)}{f_{X \mid Y=0}(x)} \right ) .$

Điều này có nghĩa là theo mô hình hồi quy logistic, logarit của tỷ lệ cược trước của sự kiện xuất hiện dưới dạng hằng số phụ gia trong tỷ lệ cược log có điều kiện. Những gì bạn có thể xem xét sau đó là một điều chỉnh chặn trong đó bạn trừ đi logit của tỷ lệ cược theo kinh nghiệm và thêm logit của tỷ lệ cược trước. Nhưng, giả sử rằng xác suất trước là chính xác, điều này không có tác dụng gì đối với mô hình. Loại điều chỉnh này được thực hiện chủ yếu sau một số quy trình lấy mẫu làm thay đổi tỷ lệ các sự kiện trong dữ liệu một cách giả tạo. $\{ Y = 1 \}$

— DS
nguồn

3

Đối với rừng ngẫu nhiên, trước mặc định là phân phối lớp thực nghiệm của tập huấn luyện. Bạn muốn điều chỉnh điều này trước, khi bạn mong đợi phân phối lớp tập huấn không phù hợp với các quan sát thử nghiệm mới. Cái trước có thể được điều chỉnh bằng cách phân tầng / downsampling hoặc class_weights.

Stratifictaion / downsampling không có nghĩa là một số quan sát đang bị loại bỏ, chúng sẽ chỉ được bootstraged vào ít nút gốc hơn.

Bên cạnh việc điều chỉnh trước, cũng có thể có được các dự đoán xác suất từ mô hình rừng ngẫu nhiên và chọn ngưỡng chắc chắn.

Trong thực tế, tôi tìm thấy một sự pha trộn của các linh mục điều chỉnh bằng cách phân tầng và chọn ngưỡng tốt nhất là giải pháp thực hiện tốt nhất. Sử dụng các lô ROC để quyết định các ngưỡng. Điều chỉnh class_weights có thể sẽ cung cấp một hiệu suất tương tự, nhưng nó không minh bạch, những gì hiệu quả trước đó trở thành. Đối với phân tầng, tỷ lệ phân tầng đơn giản là mới trước.

Xem thêm câu trả lời này để biết thêm chi tiết

— Soren Havelund
nguồn