Dịch vụ đa cấp độ lệch lạc trong gói glmnet là gì?

Tôi đang điều chỉnh hồi quy logistic đa cực bằng gói glmnet trong R:

library(glmnet)
data(MultinomialExample)
cvfit=cv.glmnet(x, y, family="multinomial", type.multinomial = "grouped")
plot(cvfit)

"Sai lệch đa cực" là gì và nó liên quan đến " Nhật ký đa quốc gia " như thế nào?

r multinomial glmnet

— Zach
nguồn

Sự lệch lạc là một sự chuyển đổi cụ thể của một tỷ lệ khả năng. Cụ thể, chúng tôi xem xét khả năng dựa trên mô hình sau khi một số điều chỉnh đã được thực hiện và so sánh điều này với khả năng của cái được gọi là mô hình bão hòa. Đây là một mô hình có nhiều tham số như các điểm dữ liệu và đạt được sự phù hợp hoàn hảo, vì vậy bằng cách xem xét tỷ lệ khả năng chúng ta đo lường theo một cách nào đó, mô hình được trang bị của chúng ta cách mô hình "hoàn hảo" bao xa.

Trong trường hợp hồi quy đa cực, chúng ta có dữ liệu có dạng trong đó là một -vector cho biết quan sát lớp nào (chính xác là một mục nhập chứa một và phần còn lại bằng không). Bây giờ nếu chúng ta phù hợp với một số mô hình ước tính một vectơ xác suất thì khả năng dựa trên mô hình có thể được viết $(x_1, y_1), (x_2, y_2), \ldots , (x_n, y_n)$ $y_i$ $k$ $i$ $\hat{p}(x) = (\hat{p}_1(x), \hat{p}_2(x), \ldots, \hat{p}_k(x))$

\prod_{i = 1}^{n} \prod_{i = j}^{k} {\hat{p}}_{j} (x_{i})^{y_{i j}} .

$\prod_{i=1}^{n} \prod_{i=j}^{k} \hat{p}_j(x_i)^{y_{ij}} .$

Mặt khác, mô hình bão hòa gán xác suất một cho mỗi sự kiện đã xảy ra, có nghĩa là vectơ xác suất chỉ bằng cho mỗi và chúng ta có thể viết tỷ lệ của các khả năng này là $\hat{p}_i$ $y_i$ $i$

\prod_{i = 1}^{n} \prod_{j = 1}^{k} {(\frac{{\hat{p}}_{j} (x_{i})}{y_{i j}})}^{y_{i j}} .

$\prod_{i=1}^{n} \prod_{j=1}^{k} \left ( \frac{\hat{p}_j(x_i)}{y_{ij}} \right )^{y_{ij}} .$

Để tìm độ lệch, chúng tôi trừ hai lần nhật ký của đại lượng này (phép biến đổi này có tầm quan trọng trong thống kê toán học vì có liên quan đến phân phối ) để có được $\chi^2$

- 2 \sum_{i = 1}^{n} \sum_{j = 1}^{k} y_{i j} \log (\frac{{\hat{p}}_{j} (x_{i})}{y_{i j}}) .

$-2 \sum_{i=1}^{n} \sum_{j=1}^{k} y_{ij} \log \left ( \frac{\hat{p}_j(x_i)}{y_{ij}} \right ) .$

Phần duy nhất của điều này đặc biệt glmnetlà cách ước tính hàm . Đó là thực hiện tối đa hóa hạn chế khả năng và tính toán độ lệch như giới hạn trên của rất đa dạng, với mô hình đạt được độ lệch nhỏ nhất trên dữ liệu thử nghiệm được coi là mô hình "tốt nhất". $\hat{p}(x)$ $\| \beta \|_1$

Liên quan đến câu hỏi về mất log, chúng ta có thể đơn giản hóa độ lệch đa cực ở trên bằng cách chỉ giữ các số hạng khác không và viết nó là , trong đó là chỉ số của lớp được quan sát cho quan sát , đây chỉ là tổn thất log theo kinh nghiệm nhân với một hằng số. Vì vậy, giảm thiểu độ lệch thực sự tương đương với giảm thiểu mất log. $-2 \sum_{i=1}^{n} \log [\hat{p}_{j_i} (x_i)]$ $j_i$ $i$

— DS
nguồn

Cảm ơn bạn đã trả lời xuất sắc, chi tiết. Một câu hỏi cuối cùng, làm thế nào để chức năng sai lệch này (mà tôi nghĩ rằng glmnet tính toán là độ lệch "dự đoán" trên dữ liệu ngoài mẫu) có liên quan đến logloss "đa lớp" không?

— Zach

@Zach Chắc chắn, tôi đã thêm một chút về mất log.

— DSaxton

Cảm ơn cho một câu trả lời tuyệt vời như vậy! Khi bạn nói "đó chỉ là tổn thất log theo kinh nghiệm nhân với một hằng số", hằng số là gì? Nó luôn luôn giống nhau, hoặc nó thay đổi vấn đề theo vấn đề? Về mặt tinh thần, tôi đang cố gắng tìm ra một cách dễ dàng để chuyển đổi thang đo "độ lệch đa cực" thành "logloss đa giác", mà tôi hiểu rõ hơn về trực quan.

— Zach

@Zach Mất nhật ký theo kinh nghiệm là (đó là ước tính của entropy chéo giữa các mô hình thực và ước tính: en.wikipedia.org/wiki/Cross_entropy ), đó chỉ là thời gian sai lệch . Nó sẽ giống nhau cho bất kỳ vấn đề phân loại nào mà bạn có xác suất ước tính.

- n^{- 1} \sum_{i = 1}^{n} \log [{\hat{p}}_{j_{i}} (x_{i})]

$- n^{-1} \sum_{i=1}^{n} \log [ \hat{p}_{j_i}(x_i) ]$

1 / 2 n

$1 / 2n$

— DSaxton

Cảm ơn bạn rất nhiều. Tôi có một sự hiểu biết tốt hơn nhiều về chủ đề này bây giờ.

— Zach