Làm thế nào để đối phó với các biến phân loại không nhị phân trong hồi quy logistic (SPSS)

Tôi phải thực hiện hồi quy logistic nhị phân với rất nhiều biến độc lập. Hầu hết trong số chúng là nhị phân, nhưng một vài trong số các biến phân loại có nhiều hơn hai cấp độ.

Cách tốt nhất để đối phó với các biến như vậy là gì?

Ví dụ, đối với một biến có ba giá trị có thể, tôi cho rằng hai biến giả phải được tạo. Sau đó, trong một quy trình hồi quy từng bước, tốt hơn là kiểm tra cả hai biến giả cùng một lúc, hoặc kiểm tra chúng một cách riêng biệt?

Tôi sẽ sử dụng SPSS, nhưng tôi không nhớ rõ lắm, vậy: SPSS giải quyết tình huống này như thế nào?

Hơn nữa, đối với một biến phân loại thứ tự, việc sử dụng các biến giả có thể tái tạo thang đo thứ tự là một điều tốt? (Ví dụ, sử dụng ba biến giả cho một biến thứ 4-nhà nước, đưa 0-0-0cho cấp , cho cấp , cho mức độ và cho mức , thay vì , , và cho 4 cấp.) $1$ 1-0-0 $2$ 1-1-0 $3$ 1-1-1 $4$ 0-0-01-0-00-1-00-0-1

— thủy tinh
nguồn

Đây chỉ là một câu trả lời một phần: ngay cả khi bạn tạo ra các hình nộm một cách rõ ràng (thay vì sử dụng các khả năng tiềm ẩn của phần mềm), hãy giữ chúng cùng nhau trong tất cả các phân tích. Cụ thể, tất cả chúng nên nhập cùng nhau và tất cả cùng rời khỏi trong một hồi quy từng bước, với giá trị p được tính toán phù hợp cho tổng số biến liên quan. (Dù sao đây cũng là đề xuất của Hosmer & Lemeshow, và nó rất có ý nghĩa.)

— whuber

Tôi đã viết một bài đăng một thời gian trước về các tài nguyên hồi quy logistic đa thức trong SPSS .

— Jeromy Anglim

Bạn đang nói về các biến độc lập của bạn. Chỉ có các biến phụ thuộc cần là nhị phân cho hồi quy logistic.

— Giăng

Một điều cần lưu ý ở đây là bạn không nên sử dụng các quy trình lựa chọn từng bước; chúng không hợp lệ Nếu điều đó không có ý nghĩa / bạn muốn hiểu lý do tại sao, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: thuật toán cho lựa chọn mô hình tự động .

— gung - Phục hồi Monica

Câu trả lời:

Trang web UCLA có một loạt các hướng dẫn tuyệt vời cho mọi quy trình được chia nhỏ theo loại phần mềm mà bạn quen thuộc. Kiểm tra đầu ra SPSS được chú thích: Hồi quy logistic - biến SES mà họ đề cập là phân loại (và không phải là nhị phân). SPSS sẽ tự động tạo các biến chỉ báo cho bạn. Ngoài ra còn có một trang dành riêng cho Dự đoán phân loại trong hồi quy với SPSS có thông tin cụ thể về cách thay đổi mã hóa mặc định và một trang dành riêng cho hồi quy logistic .

— M. Tibbits
nguồn

Hồi quy logistic là một phương pháp khá linh hoạt. Nó có thể dễ dàng sử dụng như các biến độc lập biến phân loại. Hầu hết các phần mềm sử dụng hồi quy Logistic sẽ cho phép bạn sử dụng các biến phân loại.

Ví dụ: giả sử một trong các biến phân loại của bạn là nhiệt độ được xác định thành ba loại: lạnh / nhẹ / nóng. Như bạn đề xuất, bạn có thể hiểu rằng có ba biến giả riêng biệt với mỗi biến có giá trị 1 hoặc 0. Nhưng, phần mềm sẽ cho phép bạn sử dụng một biến phân loại duy nhất thay vì giá trị văn bản lạnh / nhẹ / nóng. Và, hồi quy logit sẽ lấy được hệ số (hoặc hằng số) cho mỗi trong ba điều kiện nhiệt độ. Nếu một phần mềm không đáng kể, phần mềm hoặc người dùng có thể dễ dàng lấy nó ra (sau khi quan sát giá trị t stat và p).

Lợi ích chính của việc phân nhóm các loại biến phân loại thành một biến phân loại duy nhất là hiệu quả mô hình. Một cột trong mô hình của bạn có thể xử lý nhiều danh mục cần thiết cho một biến phân loại duy nhất. Nếu thay vào đó, bạn sử dụng một biến giả cho từng loại của biến phân loại, mô hình của bạn có thể nhanh chóng phát triển để có nhiều cột không cần thiết được đưa ra thay thế được đề cập.

— Sympa
nguồn

@gaetan Tôi không hiểu nhận xét về một cột so với nhiều cột. Bạn có gợi ý rằng các biến phân loại nên được mã hóa thành 1, 2, 3, vv trong một cột thay vì sử dụng các biến giả? Tôi không chắc điều đó có ý nghĩa với tôi khi bạn đang áp đặt một ràng buộc ngầm định rằng sự khác biệt về hiệu ứng trên dv giữa leve1s 1 và 2 giống như sự khác biệt về hiệu ứng trên dv giữa cấp 2 và 3. Có lẽ, tôi đang thiếu một cái gì đó

@Gaetan Tôi không chắc là tôi theo bạn. Chính xác thì XLStat biến đổi các giá trị 'văn bản' lạnh, nhẹ hoặc nóng thành giá trị số cho mục đích ước tính như thế nào? Nếu có một phương pháp cho phép bạn ước tính tác động của các biến phân loại mà không sử dụng biến giả thì chắc chắn nó không phụ thuộc vào phần mềm bạn sử dụng vì cần có một số logic dựa trên khái niệm / mô hình cơ bản.

k

$k$

k - 1

$k-1$

@Gatean Ok, trong trường hợp này, điều tương tự có thể được thực hiện trong SPSS (bạn có sự lựa chọn giữa số / thứ tự / danh nghĩa cho mỗi biến) - sau đó, ma trận thiết kế được xây dựng tương ứng.

— chl

@Gaetan @chl Để tóm tắt sự hiểu biết của tôi: Các tính năng của SPSS và XLStat, theo đó bạn có thể chỉ định thang đo (danh nghĩa, thứ tự, v.v.) làm giảm kích thước tệp dữ liệu. Tuy nhiên, trong cả hai trường hợp, phần mềm sử dụng sơ đồ mã hóa chính xác (ví dụ: mở rộng một biến danh nghĩa với các loại J thành các biến giả J-1) như một phần của quy trình ước tính trong nền. Đó sẽ là một đánh giá công bằng của tình hình?

Theo hiểu biết của tôi, thật tốt khi sử dụng biến giả cho dữ liệu phân loại / danh nghĩa trong khi đối với dữ liệu thứ tự, chúng ta có thể sử dụng mã hóa 1,2,3 cho các cấp độ khác nhau. Đối với biến giả, chúng ta sẽ mã hóa 1 nếu nó đúng với một bảo tồn cụ thể và 0 khác. Ngoài ra các biến giả sẽ là 1 ít hơn không. Về các cấp độ, ví dụ như trong nhị phân, chúng ta có 1. Một quan sát '0' trong biến giả sẽ tự động tạo 1 cho hình nộm không được mã hóa.

— Jayr
nguồn