Làm thế nào tôi nên xử lý các biến phân loại với nhiều cấp độ khi thực hiện loại bỏ lạc hậu?


12

Tôi đang thực hiện một mô hình loại bỏ lạc hậu dựa trên AIC đơn giản trong đó một số biến là các biến phân loại với nhiều cấp độ. Các biến này được mô hình hóa như một tập hợp các biến giả. Khi thực hiện loại bỏ ngược, tôi có nên loại bỏ tất cả các cấp của một biến không? Hoặc tôi nên điều trị từng biến giả? Và tại sao?

Là một câu hỏi liên quan, bước trong R xử lý riêng từng biến giả khi thực hiện loại bỏ lùi. Nếu tôi muốn xóa toàn bộ một biến phân loại cùng một lúc, tôi có thể làm điều đó bằng cách sử dụng bước không? Hoặc có những lựa chọn thay thế cho bước có thể xử lý này?


Tôi nghĩ thật khó để trả lời câu hỏi này trong bối cảnh chung. Nếu có thể, bạn có thể vui lòng cung cấp một số thông tin chi tiết về dữ liệu của bạn là gì? bạn muốn suy luận điều gì các giả định có thể, vv Cung cấp các chi tiết này có thể giúp chúng tôi trả lời câu hỏi của bạn tốt hơn.
suncoolsu

@suncoolsu Tôi không thực sự tự do để thảo luận về bất kỳ điều đó. Nếu bạn có thể trả lời câu hỏi bằng cây quyết định ('nếu bạn giả sử X, thì hãy làm Y'), điều đó có thể thực sự hữu ích.
nerd gửi

1
Để rõ ràng, bạn có quan tâm đến việc giải thích mô hình là nguyên nhân hay bạn chỉ đơn giản là quan tâm đến dự đoán?
Andy W

Đúng. Tôi đồng ý với Matt Parker. Ngoài ra, nếu cột dữ liệu mèo có 5 mục, ví dụ: 1,2,3,4,5, mô hình GLM cung cấp 4 cột cho nó, giả sử, catCol1, catCol2, catCol3, catCol4 và nếu chúng tôi quyết định loại bỏ catCol với giá trị p cao nhất, giả sử catCol4, ba phần còn lại không có ý nghĩa gì nhiều, vì dữ liệu luôn có thể sở hữu giá trị của catCol4. Trong tình huống như vậy, GLM sẽ bị lẫn lộn và sẽ xuất hiện lỗi ..
Ebby

Câu trả lời:


7

y^

Một lựa chọn tốt hơn sẽ là sắp xếp các mã hóa hợp lý của quốc gia khai sinh trước đó - sụp đổ vào khu vực, lục địa, v.v. và tìm ra cái nào phù hợp nhất với mô hình của bạn.

Tất nhiên, có nhiều cách để sử dụng sai lựa chọn biến theo từng bước, vì vậy hãy chắc chắn rằng bạn đang thực hiện đúng. Có rất nhiều về điều đó trên trang web này, mặc dù; tìm kiếm "từng bước" mang lại một số kết quả tốt. Điều này đặc biệt thích hợp , với rất nhiều lời khuyên tốt trong các câu trả lời.


1
Cảm ơn vì sự trả lời. Tôi đoán mối quan tâm của tôi là, trong ví dụ của bạn, nếu một quốc gia sinh ra là một yếu tố dự báo tuyệt vời về bệnh và tất cả các quốc gia xuất xứ khác là những người dự đoán kém, thì mô hình loại bỏ lạc hậu sẽ bảo tôi loại bỏ quốc gia sinh, thậm chí mặc dù đất nước sinh ra hầu như không vô dụng như một đồng biến. Nói cách khác, có thể có một biến duy nhất cho 'bạn có phải là người Litva không?' mặc dù nước sinh ra nói chung không dự đoán tốt. Có những cách hợp lý để xử lý loại vấn đề đó?
nerdbound

2
(+1) Nếu một quốc gia là một người dự đoán tuyệt vời, thì cả nhóm các quốc gia sẽ có ý nghĩa và nó sẽ được giữ lại. @Matt Parker là chính xác: giữ các nhóm biến giả với nhau và căn cứ vào các tiêu chí nhập và để lại ở mức ý nghĩa chung cho toàn bộ nhóm, chứ không dựa trên các mức ý nghĩa cho từng hình nộm riêng lẻ.
whuber

2
@whuber OK thêm một bình luận có khả năng ngớ ngẩn từ tôi và sau đó tôi sẽ bình yên khi tôi hiểu tại sao tôi sai :-P Dường như với tôi rằng nếu tôi nhìn vào AIC và tôi loại trừ, giả sử, 200 người ngu với tư cách là một nhóm, AIC sẽ cải thiện vì mô hình mới sẽ có ít hơn 200 biến số và nó sẽ trở nên tồi tệ hơn đến mức những người giả đó là những người dự đoán tốt. Nếu chỉ một trong các biến là một yếu tố dự báo tốt, có vẻ như với tôi rằng trên net AIC sẽ làm cho các mô hình với 200 biến ít đẹp hơn, nhưng sau đó tôi sẽ bỏ lỡ rằng một biến ...
nerdbound

4
@nerdbound Điều đó không hề ngớ ngẩn chút nào. Tuy nhiên, nếu chỉ có một hình nộm trong 200 hoạt động tốt, bạn thực sự có một biến phân loại khác: đó là biến nhị phân mới (hoặc phân loại lại). @Matt Parker giải quyết vấn đề này trong đoạn thứ hai của mình. Điều này có vẻ như là một vấn đề để phân tích thăm dò (đó là những gì hồi quy từng bước là dù sao). Hoàn toàn ổn khi tra tấn dữ liệu của bạn theo cách này, nhưng sau khi hết khói, bạn cần kiểm tra mô hình của mình trên dữ liệu độc lập.
whuber

1
Điều này có thể có liên quan khi có rất nhiều cấp độ: stats.stackexchange.com/questions/146907/ Khăn
kjetil b halvorsen

0

Đối với ví dụ về các quốc gia, tôi nghĩ rằng nếu biến giả cho một quốc gia cụ thể được chọn, thì điều đó có nghĩa là quốc gia này là một công cụ dự đoán so với tất cả các quốc gia khác cộng lại (không cần tạo biến nhị phân mới). Vấn đề tôi thường gặp là các biến giả phản ánh, ví dụ, mức độ nghiêm trọng của một bệnh (như -, +, ++, +++). Đôi khi biến giả cho ++ được chọn nhưng biến giả cho +++ thì không. Trong trường hợp này, phân loại lại có thể hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.