Tôi sẽ đề nghị bạn xem các cuốn sách về phân tích dữ liệu phân loại (xem Phân tích dữ liệu phân loại của Alan Agresti, 2002) để giải thích rõ hơn và hiểu về hồi quy logistic theo thứ tự . Tất cả các câu hỏi mà bạn hỏi về cơ bản được trả lời bởi một vài chương trong những cuốn sách như vậy. Nếu bạn chỉ quan tâm R
đến các ví dụ liên quan, Mở rộng mô hình tuyến tính trong R của Julian Faraway (CRC Press, 2008) là một tài liệu tham khảo tuyệt vời.
Trước khi tôi trả lời câu hỏi của bạn, hồi quy logistic được đặt hàng là một trường hợp của các mô hình logit đa phương thức trong đó các danh mục được sắp xếp. Giả sử chúng ta có ra lệnh loại và đối với cá nhân , với phản ứng tự ,
cho . Với phản hồi theo thứ tự, thường dễ dàng hơn để làm việc với xác suất tích lũy, . Các xác suất tích lũy đang gia tăng và bất biến để kết hợp các danh mục liền kề. Hơn nữa, , vì vậy chúng tôi chỉ cần mô hình xác suất của .i Y i p i j = P ( Y i = j )JiYipij=P(Yi=j)γ i j = P ( Y i ≤ j ) γ i J = 1j=1,...,Jγij=P(Yi≤j)γiJ=1J–1
Bây giờ chúng tôi muốn liên kết s để đồng biến . Trong trường hợp của bạn, có 3 cấp ra lệnh: , , . Nó có ý nghĩa hơn để coi chúng như được ra lệnh hơn là không có thứ tự. Các biến còn lại là hiệp phương sai của bạn. Mô hình cụ thể mà bạn đang xem xét là mô hình tỷ lệ cược tỷ lệ và tương đương về mặt toán học với:γijxSat
low
medium
high
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
Nó được gọi như vậy bởi vì tỷ lệ cược tương đối cho so sánh và là:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Lưu ý, biểu thức trên không phụ thuộc vào . Tất nhiên, giả định về tỷ lệ cược tỷ lệ không cần phải được kiểm tra cho một tập dữ liệu nhất định.j
Bây giờ, tôi sẽ trả lời một số (1, 2, 4) câu hỏi.
Làm thế nào người ta có thể hiểu nếu mô hình đã phù hợp? tóm tắt (house.plr) cho thấy Độ lệch dư 3479.149 và AIC (Tiêu chí thông tin Akaike?) của 3495.149. Như vậy có tốt không Trong trường hợp chúng chỉ hữu ích như các biện pháp tương đối (nghĩa là so sánh với mô hình khác phù hợp), một biện pháp tuyệt đối tốt là gì? Là độ lệch còn lại xấp xỉ bình phương phân phối? Người ta có thể sử dụng "% dự đoán chính xác" trên dữ liệu gốc hoặc một số xác thực chéo không? Cách dễ nhất để làm điều đó là gì?
Một mô hình phù hợp bởi polr
là một đặc biệt glm
, vì vậy tất cả các giả định giữ cho một glm
tổ chức truyền thống ở đây. Nếu bạn chăm sóc các tham số đúng cách, bạn có thể tìm ra phân phối. Cụ thể, để kiểm tra xem mô hình có tốt hay không, bạn có thể muốn thực hiện kiểm tra mức độ phù hợp , kiểm tra null sau (chú ý điều này là tinh tế, chủ yếu là bạn muốn từ chối null, nhưng ở đây bạn không muốn từ chối nó để có được một phù hợp tốt):
Ho: current model is good enough
Bạn sẽ sử dụng bài kiểm tra chi bình phương cho việc này. Giá trị p thu được là:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Hầu hết thời gian bạn hy vọng sẽ đạt được giá trị p lớn hơn 0,05 để bạn không từ chối null để kết luận rằng mô hình đó phù hợp (tính chính xác về mặt triết học được bỏ qua ở đây).
AIC phải cao để phù hợp đồng thời bạn không muốn có một số lượng lớn các tham số. stepAIC
là một cách tốt để kiểm tra điều này.
Có, bạn chắc chắn có thể sử dụng xác nhận chéo để xem dự đoán có được giữ không. Xem predict
chức năng (tùy chọn type = "probs"
:) trong ?polr
. Tất cả những gì bạn cần quan tâm là các đồng biến.
Pr chứa thông tin gì? Trang trợ giúp về hồ sơ là chung chung và không đưa ra hướng dẫn nào cho polr
Như được chỉ ra bởi @chl và những người khác, pr
chứa tất cả thông tin cần thiết để có được các TCTD và thông tin liên quan đến khả năng khác của polr fit
. Tất cả glm
đều phù hợp bằng cách sử dụng phương pháp ước lượng bình phương nhỏ nhất có trọng số lặp cho khả năng ghi nhật ký. Trong tối ưu hóa này, bạn có được rất nhiều thông tin (vui lòng xem các tài liệu tham khảo) sẽ cần để tính Ma trận hiệp phương sai, CI, giá trị t, v.v. Nó bao gồm tất cả.
Làm thế nào để giải thích các giá trị t cho mỗi hệ số? Không giống như một số mô hình> phù hợp, không có giá trị P ở đây.
Không giống như mô hình tuyến tính thông thường (đặc biệt glm
), các glm
s khác không có phân phối t đẹp cho các hệ số hồi quy. Do đó, tất cả những gì bạn có thể nhận được là các ước tính tham số và ma trận hiệp phương sai không triệu chứng của chúng bằng lý thuyết khả năng tối đa. Vì thế:
Variance(β^)=(XTWX)−1ϕ^
Ước tính chia cho lỗi tiêu chuẩn của nó là giá trị mà BDR và WV gọi là giá trị t (tôi giả sử MASS
quy ước ở đây). Nó tương đương với giá trị t từ hồi quy tuyến tính thông thường nhưng không tuân theo phân phối t. Sử dụng CLT, nó được phân phối bình thường. Nhưng họ không thích sử dụng khoảng này (tôi đoán vậy), do đó không có giá trị p. (Tôi hy vọng tôi không sai, và nếu tôi, tôi hy vọng BDR không có trên diễn đàn này. Tôi hy vọng hơn nữa, ai đó sẽ sửa tôi nếu tôi sai.)
methods("profile")
sẽ cung cấp cho bạn các phương thức (S3 trong trường hợp này) liên quan đến mộtprofile
đối tượng R , sau đó bạn sẽ thấy có một phương pháp dành riêng chopolr
kết quả mà bạn có thể duyệt trực tuyến bằng cách gõgetAnywhere("profile.polr")
tại dấu nhắc R.