Học hồi quy thứ tự trong R?


10

Tôi đang làm việc trên một dự án và cần các nguồn lực để giúp tôi tăng tốc.

Bộ dữ liệu là khoảng 35000 quan sát trên 30 biến. Khoảng một nửa các biến được phân loại với một số có nhiều giá trị khác nhau, nghĩa là nếu bạn chia các biến phân loại thành các biến giả, bạn sẽ có nhiều hơn 30 biến. Nhưng có lẽ vẫn theo thứ tự của một vài trăm max. (n> p).

Phản ứng mà chúng tôi muốn dự đoán là thứ tự với 5 cấp độ (1,2,3,4,5). Các dự đoán là một kết hợp của liên tục và phân loại, khoảng một nửa của mỗi. Đây là những suy nghĩ / kế hoạch của tôi cho đến nay: 1. Hãy coi phản ứng là hồi quy tuyến tính vanilla liên tục và chạy. 2. Chạy hồi quy logistic và probit danh nghĩa và thứ tự 3. Sử dụng MARS và / hoặc một hương vị khác của hồi quy phi tuyến tính

Tôi quen thuộc với hồi quy tuyến tính. MARS cũng đủ được mô tả bởi Hastie và Tibshirani. Nhưng tôi cảm thấy hụt hẫng khi nói đến logit / probit thông thường, đặc biệt là có rất nhiều biến số và một tập dữ liệu lớn.

Gói r glmnetcr dường như là đặt cược tốt nhất của tôi cho đến nay, nhưng tài liệu hầu như không đủ để đưa tôi đến nơi tôi cần.

Tôi có thể đi đâu để tìm hiểu thêm?


Tôi đề nghị bạn thêm thẻ R là tốt.
Christopher Louden

1
Cho rằng đây là một câu hỏi về mô hình thống kê, bạn có thể muốn truy cập trang web CrossValidated , nhưng hãy nhớ rằng đó là một thực tiễn khủng khiếp để đăng chéo các câu hỏi: bạn có thể muốn xây dựng nó để làm nổi bật các vấn đề phương pháp luận bạn đang đối mặt, hoặc di chuyển toàn bộ câu hỏi.
StasK

Không thực sự giải thích lý do tại sao, ISL lưu ý (trên trang 137) rằng phân tích phân biệt (như LDA, QDA) thường được sử dụng hơn so với nhiều phần mở rộng hồi quy logistic. Do đó, các gói như LDA bị phạt có thể đáng để kiểm tra.
MattBagg

Câu trả lời:



6

Một gói R khá mạnh để hồi quy với đáp ứng phân loại thứ tự là VGAM, trên CRAN. Các họa tiết chứa một số ví dụ về hồi quy thứ tự, nhưng phải thừa nhận rằng tôi chưa bao giờ thử nó trên một tập dữ liệu lớn như vậy, vì vậy tôi không thể ước tính được nó sẽ mất bao lâu. Bạn có thể tìm thấy một số tài liệu bổ sung về VGAM trên trang của tác giả . Ngoài ra, bạn có thể xem người bạn đồng hành của Laura Thompson với cuốn sách "Phân tích dữ liệu phân loại" của Agresti. Chương 7 của cuốn sách của Thompson mô tả các mô hình logit tích lũy, thường được sử dụng với các phản ứng thứ tự.

Hi vọng điêu nay co ich!


3

Nếu bạn hoàn toàn không quen thuộc với hồi quy thứ tự, trước tiên tôi sẽ thử đọc chương Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistic-6E/0205849571.page ) về chủ đề này - trong khi không được viết cho R, cuốn sách rất tốt trong việc truyền đạt logic chung và "làm" và "không".

Như một câu hỏi: catgeories phản ứng của bạn chính xác là gì? Nếu chúng là một loại thang đo nào đó, như "tốt - xấu" thì có thể sử dụng hồi quy tuyến tính (nghiên cứu thị trường luôn luôn như vậy ...), nhưng nếu các mặt hàng khác biệt hơn, hồi quy thứ tự có thể tốt hơn . Tôi lờ mờ nhớ rằng một số cuốn sách về mô hình cân bằng cấu trúc đã đề cập rằng hồi quy tuyến tính là vượt trội so với quy mô tốt hơn - tôi không thể nhớ lại cuốn sách vào lúc này, xin lỗi!

Vấn đề nghiêm trọng nhất có thể là số lượng biến giả - một vài trăm biến giả sẽ làm cho phân tích chậm, khó diễn giải và có thể không ổn định - có đủ trường hợp cho mỗi kết hợp giả / giả không?


3

Một tài liệu tham khảo tiêu chuẩn được viết từ quan điểm khoa học xã hội là cuốn sách Biến phụ thuộc có giới hạn của J Scott Long . Nó đi sâu hơn nhiều so với việc Tabachnik đề xuất trong một câu trả lời khác : Tabachnik là một cuốn sách dạy nấu ăn tốt nhất, không có nhiều lời giải thích về "tại sao", và có vẻ như bạn sẽ được lợi từ việc tìm hiểu chi tiết hơn có thể tìm thấy ở Long sách. Hồi quy thông thường nên được đề cập trong hầu hết các khóa học kinh tế lượng giới thiệu ( Dữ liệu mặt cắt và bảng điều khiển của Wooldridge là một cuốn sách cấp độ sau đại học tuyệt vời), cũng như các khóa học khoa học xã hội định lượng (xã hội học, tâm lý học), mặc dù tôi sẽ tưởng tượng rằng cuốn sau sẽ lặp lại cuốn sách của Long.

Cho rằng số lượng biến của bạn thấp hơn wa-a-ay so với cỡ mẫu, gói R bạn nên tìm có lẽ ordinallà đúng hơn glmnetcr. Một câu trả lời khác đề cập rằng bạn có thể tìm thấy chức năng này trong một MASSgói chính thống hơn .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.