Hồi quy cho các biến độc lập phân loại và một biến phụ thuộc liên tục


20

Tôi chỉ nhận ra rằng tôi đã luôn luôn làm việc vấn đề hồi quy trong đó các biến độc lập luôn luôn là số. Tôi có thể sử dụng hồi quy tuyến tính trong trường hợp tất cả các biến độc lập là phân loại không?

Câu trả lời:


23

Chỉ cần một số ngữ nghĩa và rõ ràng:

  • biến phụ thuộc == == " " trong các công thức hồi quy, chẳng hạn như yy=β0+β1x1+β2x2+...+βkxk
  • biến độc lập == dự đoán == một trong " " trong các công thức hồi quy, chẳng hạn nhưxky=β0+β1x1+β2x2+...+βkxk

Vì vậy, trong hầu hết các tình huống , loại hồi quy phụ thuộc vào loại phụ thuộc, kết quả hoặc biến " "y . Ví dụ, hồi quy tuyến tính được sử dụng khi biến phụ thuộc là liên tục, hồi quy logistic khi phụ thuộc được phân loại với 2 loại và hồi quy multinomi (n) al khi phụ thuộc được phân loại với hơn 2 loại. Các dự đoán có thể là bất cứ điều gì (phân loại danh nghĩa hoặc thứ tự, hoặc liên tục, hoặc hỗn hợp) .

(Nhận xét dưới đây có thể là dư thừa cho bạn, nhưng tôi vẫn thêm nó vào)

Tuy nhiên, lưu ý rằng hầu hết các phần mềm yêu cầu bạn mã hóa lại các dự đoán phân loại thành một hệ thống số nhị phân . Điều này chỉ có nghĩa là mã hóa giới tính thành 0 đối với nữ và 1 đối với nam hoặc ngược lại. Đối với các biến phân loại có nhiều hơn 2 cấp độ, bạn sẽ cần mã hóa lại các biến này thành các biến giả trong đó là số cấp và các giá trị giả này chứa 0 hoặc 1 khi chúng ở trong danh mục tương ứng. Bằng cách này, mỗi cá nhân (mẫu) phải được đại diện bằng cách có 1 cho biến giả mà anh ấy / cô ấy là một phần và 0 cho những người khác, hoặc 0 cho tất cả các hình nộm khi anh ấy / cô ấy là một phần của nhóm tham chiếu.L1L


cảm ơn. như tôi viết trong tiêu đề câu hỏi, biến phụ thuộc là liên tục. Vì vậy, tôi lấy câu trả lời của bạn là "bạn có thể sử dụng hồi quy tuyến tính, miễn là bạn thực hiện mã hóa giả". Xin hãy sửa tôi nếu tôi sai.
đình

vâng đó là những gì tôi đã nói.
IWS

2
Tôi thấy bạn đã chỉnh sửa câu hỏi để thêm câu hỏi thứ hai và đăng một câu hỏi tương tự ở đây: stats.stackexchange.com/questions/267137/ . Ngoài ra, tôi sẽ hỏi bạn ý của bạn bằng cách làm mịn dự đoán của bạn hoặc ý của bạn bằng cách dự đoán các giá trị rời rạc. AFAIK một hồi quy tuyến tính sẽ cung cấp cho bạn giá trị trung bình của phụ thuộc liên tục dựa trên các biến dự đoán của bạn (thông qua công thức hồi quy). Xin hãy giải thích
IWS

1
Tôi đã xóa câu hỏi thứ hai khi bạn trả lời đầy đủ câu hỏi ban đầu. Để trả lời câu hỏi của bạn, nếu tôi cung cấp "sự kiện" ( ) mới cho mô hình, tôi sẽ nhận được giá trị khác nhau , tất cả sẽ lấy một trong bốn giá trị hồi quy. Tôi đoán tôi đang nói rằng nếu các biến phân loại thực sự là thứ tự, tôi muốn giới thiệu một số (logit?) Làm mịn giữa các giá trị. nxiny
famargar

1
Trong trường hợp biến số thứ tự, người ta luôn có thể chọn giả sử nó là "đủ liên tục" để sử dụng nó như thể là một công cụ dự đoán liên tục (bằng cách đơn giản là không sử dụng các hình nộm, nhưng nhập biến dưới dạng phiên bản số). Tuy nhiên, nếu bạn làm điều này và bạn chỉ có một vài cấp độ, bạn đang điều chỉnh một đường thẳng (do đó giả sử tuyến tính) chỉ qua một vài điểm (vì vậy lưu ý rằng số lượng cấp độ rất quan trọng ở đây). Thang đo Likert là một ví dụ điển hình về một biến được sử dụng theo cách này, điều này đáng tiếc tạo ra các vấn đề trong các dịp khác nhau.
IWS
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.