Tôi có thể sử dụng thuật toán glm để thực hiện hồi quy logistic đa thức không?

14

Tôi đang sử dụng spotfire (S ++) để phân tích thống kê trong dự án của mình và tôi phải chạy hồi quy logistic đa phương thức cho một tập dữ liệu lớn. Tôi biết thuật toán tốt nhất sẽ là mlogit, nhưng tiếc là điều đó không có sẵn trong s ++. Tuy nhiên, tôi có một tùy chọn sử dụng thuật toán glm cho hồi quy này. Tôi muốn làm rõ hai điều ở đây:

1. Hiểu biết của tôi có đúng không khi glm cũng có thể được sử dụng để chạy Hồi quy đa biến logistic?

Nếu câu trả lời cho câu hỏi trước là có, thì nên sử dụng tham số nào trong glm algo?

Cảm ơn,

generalized-linear-model logistic

— Raghvendra
nguồn

9

Có, với Poisson GLM (mô hình tuyến tính log), bạn có thể phù hợp với các mô hình đa phương thức. Do đó các mô hình Poisson logistic đa tuyến hoặc logistic là tương đương.

Bạn cần xem số ngẫu nhiên $y_{ij}$ là biến ngẫu nhiên Poisson với phương tiện $μ_{ij}$ và chỉ định mô hình log-linear sau đây

$\log(μ_{ij}) = o + p_i + c_j + x_iβ_j$

Để có được một mô hình logit đa phương, các tham số là:

Một tham số cho mỗi quan sát đa cực, ví dụ cá nhân hoặc nhóm. Điều này đảm bảo tái tạo chính xác các mẫu số đa cực và thực sự thiết lập sự tương đương của mô hình Poisson và đa cực. Chúng được cố định trong khả năng đa quốc gia, nhưng ngẫu nhiên trong khả năng Poisson. $p_i$

Một tham số cho mỗi loại phản ứng. Bằng cách này, số lượng có thể khác nhau cho từng loại phản ứng và lề có thể không đồng nhất. $c_j$

Điều bạn thực sự quan tâm là các thuật ngữ tương tác đại diện cho các hiệu ứng của trên tỷ lệ cược log của phản hồi . $x_iβ_j$ $x_i$ $j$

Tỷ lệ cược log có thể được tính đơn giản bằng . Đó là tỷ lệ cược log mà quan sát tôi sẽ rơi vào loại phản ứng j so với loại phản ứng . $\log(μ_{ij}/μ_{ik}) = (c_j-c_k) +x_i(β_j-β_k)$ $k$

Sau đó, các tham số trong mô hình logit đa cực (được ký hiệu bằng chữ Latinh) có thể được lấy làm khác biệt giữa các tham số trong mô hình log-linear tương ứng, tức là và . $a_j = α_j-α_k$ $b_j = β_j-β_k$

— Mẹ ơi
nguồn

Cảm ơn Momo. Điều này thực sự hữu ích. Phần mềm của tôi cung cấp cho tôi tùy chọn chọn Gia đình là "sở hữu" và Liên kết là "nhật ký" trong khi chạy GLM alogorithm. Vì vậy, tôi nghĩ rằng đó chính xác là những gì được yêu cầu ở đây.

— Raghvendra

7

Có, bạn có thể, và trên thực tế đây chính xác là những gì gói R GLMNET làm cho hồi quy logistic đa phương. Viết hàm khả năng đăng nhập như:

L o g L = \sum_{i} \sum_{c} n_{i c} \log (p_{i c})

$LogL=\sum_i\sum_cn_{ic}\log(p_{ic})$

Trong đó biểu thị các quan sát và biểu thị các loại đa thức là số lượng quan sát cho quan sát trong loại . Các quan sát được xác định bởi các kết hợp hiệp phương thức duy nhất của chúng - hoặc thay vào đó, chúng tôi có thể cho phép trùng lặp và đặt từng để chúng tôi có dữ liệu "nhị phân" phân loại (.... không biết số nhiều của nhị phân là gì .. ..). Đối với hồi quy logistic, xác suất được xác định là: $i$ $c$ $n_{ic}$ $i$ $c$ $n_{ic}=1$

p_{i c} = \frac{\exp (x_{i}^{T} β_{c})}{\sum_{c^{'}} \exp (x_{i}^{T} β_{c^{'}})}

$p_{ic}=\frac{\exp\left(x_{i}^T\beta_{c}\right)}{\sum_{c'}\exp\left(x_{i}^T\beta_{c'}\right)}$

Đây là một tham số thứ hạng ít hơn đầy đủ và có thể hữu ích nếu bạn đang sử dụng khả năng bị phạt (như GLMNET). Chúng tôi có thể sử dụng nguyên tắc IRLS / newton rhapson trên ma trận beta đầy đủ , tuy nhiên bạn kết thúc với ma trận trọng lượng phi chéo. Ngoài ra, chúng tôi có thể tối ưu hóa "kiểu Gibbs" bằng cách sửa tất cả các loại betas ngoại trừ một loại, sau đó tối ưu hóa chỉ trên danh mục đó. Sau đó tiến hành danh mục tiếp theo, v.v. Bạn có thể thấy rằng bởi vì xác suất có dạng $(\beta_1,\dots,\beta_{C})$

p_{i c} = \frac{\exp (x_{i}^{T} β_{c})}{\exp (x_{i}^{T} β_{c}) + A} where \frac{\partial A}{\partial β_{c}} = 0

$p_{ic}=\frac{\exp\left(x_{i}^T\beta_{c}\right)}{\exp\left(x_{i}^T\beta_{c}\right)+A}\text{ where }\frac{\partial A}{\partial \beta_c}=0$

p_{i c^{'}} = \frac{B}{\exp (x_{i}^{T} β_{c}) + A} where \frac{\partial B}{\partial β_{c}} = 0

$p_{ic'}=\frac{B}{\exp\left(x_{i}^T\beta_{c}\right)+A}\text{ where }\frac{\partial B}{\partial \beta_c}=0$

Đó là việc mở rộng toàn phương về sẽ có hình thức tương tự như đối với hồi quy logistic, nhưng với sự IRLS trọng tính cách khác nhau - mặc dù chúng tôi vẫn có trong thông thường Bản cập nhật beta $\beta_c$ $W_{ii,c}=n_{ic}p_{ic}(1-p_{ic})$ $(X^TWX)^{-1}X^TWY$

— xác suất
nguồn

Tôi đang cố gắng thực hiện hồi quy logistic đa phương bằng cách sử dụng biến thể IRLS QR Newton. Mã này hoạt động cho các mô hình GLM khác, nhưng không thể làm cho mlogit hoạt động. Liệu

có phải là Jacobian của hàm softmax cho phép tôi chỉ tính Cholesky một lần cho mỗi lần lặp chứ không phải

lần để giải cho mỗi tập trọng số cho mỗi kết quả không?

W

$W$

k

$k$

— Jose Bayoán Santiago Calderón

Cho rằng nó sẽ không phải là đường chéo, nó sẽ không mở rộng tốt với số lượng lớn các quan sát, phải không? Nếu đi "Gibbs-style", sẽ trừ đi các thông số danh mục cơ sở từ

ma trận được thực hiện trước hoặc sau khi dự đoán?

β

$\beta$

— Jose Bayoán Santiago Calderón

Khi bạn nói về "cholesky once" vs "cholesky k times", bạn phải lưu ý rằng các ma trận có kích thước khác nhau - nếu có các cột

trong

thì "một lần" dành cho ma trận có kích thước

và "k lần" là cho ma trận có kích thước

p

$p$

X

$X$

p k

$pk$

p

$p$

— xác suất