Làm thế nào để xử lý biến phân loại thứ tự như biến độc lập


18

Tôi đang sử dụng một mô hình logit. Biến phụ thuộc của tôi là nhị phân. Tuy nhiên tôi có một biến độc lập là phân loại và chứa các câu trả lời : 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Vì vậy, nó là thứ tự ("phân loại định lượng"). Tôi không chắc chắn làm thế nào để xử lý này trong mô hình. Tôi đang sử dụng gretl.

[Lưu ý từ @ttnphns: Mặc dù câu hỏi cho biết mô hình là logit (vì phụ thuộc là phân loại), vấn đề quan trọng - biến độc lập thứ tự - về cơ bản là giống nhau, là phân loại phụ thuộc hoặc định lượng. Do đó, câu hỏi cũng liên quan đến hồi quy tuyến tính - vì nó là hồi quy logistic hoặc mô hình logit khác.]


Biến phụ thuộc của tôi lấy giá trị 0 và 1, tôi có 6 biến độc lập, 3 trong số đó là biến này được phân loại giống như "bạn đánh giá các dịch vụ y tế địa phương trong khu vực của bạn như thế nào? Bạn đánh giá phương tiện giao thông địa phương trong khu vực của bạn như thế nào Các dịch vụ cảnh sát trong khu vực của bạn? các câu trả lời là rất tốt, tốt, trung bình, nghèo và rất nghèo.
rahmat

@Tim Nếu biến phụ thuộc là nhị phân, thì không cần bất kỳ hồi quy thứ tự nào. Hàm ý là để xử lý một công cụ dự đoán thứ tự bằng cách sử dụng các biến chỉ báo (giả).
Nick Cox

cảm ơn tim, nếu tôi không nhầm những gì bạn nói là tôi nên tạo hình nộm cho tất cả các danh mục ?? ví dụ tôi có năm phản hồi (rất tốt, tốt, trung bình, kém và rất kém) cho một biến độc lập, vì vậy tôi nên tạo ra 5 hình nộm.
rahmat

Câu trả lời:


14

Vấn đề với biến độc lập thứ tự là vì theo định nghĩa, khoảng thời gian thực giữa các cấp của nó không được biết đến , không có mối quan hệ kiểu thích hợp nào - ngoài ô "đơn điệu" - có thể được giả sử là apriori. Chúng ta phải làm một cái gì đó về nó, ví dụ - để "sàng lọc hoặc kết hợp các biến thể" hoặc "thích cái gì tối đa hóa cái gì đó".

Nếu bạn khăng khăng coi việc đánh giá khả năng IV của bạn là thứ tự (chứ không phải là khoảng thời gian hoặc danh nghĩa), tôi đã có một cặp thay thế cho bạn.

  1. Sử dụng độ tương phản đa thức Tức là mỗi yếu tố dự đoán như vậy được sử dụng trong mô hình không chỉ đi theo tuyến tính mà còn cả phương trình bậc hai và hình khối. Vì vậy, không chỉ có thể thu được hiệu ứng tuyến tính, mà tổng quát hơn, đơn điệu (hiệu ứng tuyến tính tương ứng với yếu tố dự đoán được giữ dưới dạng tỷ lệ / khoảng và hai hiệu ứng khác có vị như là có các khoảng không theo tiêu chuẩn). Ngoài ra, các hình nộm của từng người dự đoán cũng có thể được nhập vào, điều này sẽ kiểm tra hiệu ứng danh nghĩa / giai thừa. Cuối cùng, bạn biết người dự đoán của bạn đóng vai trò là nhân tố, bao nhiêu là hiệp phương tuyến tính và bao nhiêu là hiệp phương sai phi tuyến. Tùy chọn này dễ thực hiện trong hầu hết mọi hồi quy (mô hình tuyến tính, logistic, mô hình tuyến tính tổng quát khác). Nó sẽ tiêu thụ df s, vì vậy kích thước mẫu phải đủ lớn.
  2. Sử dụng hồi quy tỷ lệ tối ưu . Cách tiếp cận này biến đổi một cách đơn điệu một công cụ dự đoán thứ tự thành một khoảng thời gian để tối đa hóa hiệu ứng tuyến tính trên dự báo. CATREG (hồi quy phân loại) là một triển khai ý tưởng này trong SPSS. Một vấn đề của trường hợp cụ thể của bạn là bạn muốn thực hiện logistic, không phải hồi quy tuyến tính nhưng CATREG không dựa trên mô hình logit. Tôi nghĩ trở ngại này là tương đối nhỏ vì dự đoán của bạn chỉ có 2 loại (nhị phân): Ý tôi là bạn vẫn có thể thực hiện CATREG để mở rộng quy mô tối ưu, sau đó thực hiện hồi quy logistic cuối cùng với các công cụ dự báo tỷ lệ biến đổi.
  3. Cũng lưu ý rằng trong trường hợp đơn giản của một thang đo hoặc DV thứ tự và một thử nghiệm IV Jonckheere-Terpstra IV có thể là một phân tích hợp lý thay vì hồi quy.

Có thể có những gợi ý khác. Ba điều trên là những gì tôi nghĩ ngay lập tức khi đọc câu hỏi của bạn.

Tôi cũng khuyên bạn nên ghé thăm các chủ đề này: Liên kết giữa danh nghĩa và quy mô hoặc thứ tự ; Liên kết giữa thứ tự và quy mô . Chúng có thể hữu ích mặc dù chúng không phải là về hồi quy đặc biệt.

Nhưng những chủ đề này là về hồi quy, đặc biệt là logistic: bạn phải nhìn vào bên trong: một , hai , ba , bốn , năm .


(+1) (1) Bạn cũng chỉ có thể sử dụng một vài tương phản đa thức đầu tiên nếu bạn nghĩ rằng chúng đủ. (2) Xác định các yếu tố dự đoán từ phản hồi trong cùng một bộ dữ liệu sẽ đi kèm với cảnh báo về sức khỏe. (3) Bạn cũng có thể xử phạt sự khác biệt giữa các hệ số của các cấp độ liền kề - xem số liệu thống kê.stackexchange.com / q / 77796/177 .
Scortchi - Phục hồi Monica

1
@Scortchi, Cảm ơn bạn đã bình luận. Về (2) - đặc biệt, tất nhiên, đáng tin cậy hơn khi thực hiện chia tỷ lệ tối ưu trên một tập hợp con riêng biệt của dữ liệu mà theo đó hồi quy cuối cùng sẽ được thực hiện. (3) - cảm ơn, tôi cũng sẽ làm quen với nó.
ttnphns

1
Một tùy chọn khác là sử dụng một mô hình quảng cáo và biểu diễn biến độc lập thứ tự thông qua một spline.
kjetil b halvorsen

2
@kjetilbhalvorsen, Vâng, điều đó là có thể, cảm ơn bạn. Tuy nhiên, tùy chọn này đã được ngụ ý trong Pt 2 vì một trong các phương pháp chia tỷ lệ tối ưu cho các biến thứ tự sử dụng spline.
ttnphns

7

Chỉ cần thêm vào các câu trả lời xuất sắc khác: Một cách xử lý hiện đại có thể thông qua một mô hình phụ gia, đại diện cho biến độc lập thứ tự thông qua một spline. Nếu bạn khá chắc chắn rằng hiệu ứng của biến là đơn điệu, bạn có thể giới hạn ở một spline đơn điệu. (Để biết ví dụ về các spline đơn điệu đang sử dụng, hãy xem Tìm kiếm chức năng để phù hợp với đường cong giống như sigmoid ).

Trong R, nếu bạn biến bộ dự đoán thứ tự thành "hệ số có thứ tự" (ví dụ mã ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ) thì trong mô hình tuyến tính, nó sẽ được biểu diễn thông qua đa thức trực giao.


4
Nó sẽ là tốt đẹp chỉ cần một chút mở rộng nó, để bao gồm một vài chi tiết làm thế nào nó sẽ làm việc với các dự đoán thứ tự.
ttnphns

0

k1k


3
n

1
cảm ơn tim và nick. Vì vậy, tôi phải chạy cả bốn hình nộm trong hồi quy. đúng? Nếu vậy tôi có 3 biến phân loại, mỗi biến có 5 biến. do đó, mô hình của tôi sẽ có 12 biến. đúng?
rahmat

1
Cảm ơn @NickCox - Tôi mới tham gia vào thế giới CV và đánh giá cao sự sửa đổi đáng kính trọng
Austin T

1
Thật không may, bạn đã không giải thích tại sao các biến giả sẽ cần thiết cả. Tôi không cảm thấy rằng câu trả lời này, như hiện tại, nó trông như một câu trả lời cho câu hỏi.
ttnphns

2
Để hỗ trợ, tôi không nghĩ đó là một trường hợp cho rằng các chỉ số là cần thiết ; chỉ là họ cho phép thu được nhiều hiệu ứng khác nhau, bao gồm cả các mối quan hệ không đơn điệu.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.