định tâm và nhân rộng các biến giả


13

Tôi có một bộ dữ liệu chứa cả biến phân loại và biến liên tục. Tôi được khuyên nên chuyển đổi các biến phân loại thành biến nhị phân cho từng cấp độ (ví dụ: A_level1: {0,1}, A_level2: {0,1}) - Tôi nghĩ rằng một số người đã gọi đây là "biến giả".

Như đã nói, nó sẽ gây hiểu lầm khi sau đó tập trung và chia tỷ lệ toàn bộ tập dữ liệu với các biến mới? Có vẻ như tôi sẽ mất ý nghĩa "bật / tắt" của các biến.

Nếu nó sai lệch, điều đó có nghĩa là tôi nên tập trung và chia tỷ lệ các biến liên tục một cách riêng biệt và sau đó thêm lại vào tập dữ liệu của mình?

TIA.


1
Việc có thể chấp nhận hoặc hợp lý đối với các biến giả trung tâm và / hoặc tỷ lệ hay không tùy thuộc vào ứng dụng, dựa trên phân tích mà bạn đang lập kế hoạch và cân nhắc cụ thể cho nhiệm vụ. Vì vậy, không có câu trả lời đúng duy nhất. Trong hầu hết các công thức chung, thô, thường được thực hiện với các biến giả dự đoán; nó thường là một ý tưởng tồi đối với nó với các biến giả phản ứng hoặc trong các phương pháp đa biến như phân cụm hoặc phân tích nhân tố.
ttnphns

Câu trả lời:


13

Khi xây dựng các biến giả để sử dụng trong phân tích hồi quy, mỗi loại trong một biến phân loại trừ một loại sẽ nhận được một biến nhị phân. Vì vậy, bạn nên có ví dụ A_level2, A_level3, v.v ... Một trong những danh mục không nên có biến nhị phân và danh mục này sẽ đóng vai trò là danh mục tham chiếu. Nếu bạn không bỏ qua một trong các loại, phân tích hồi quy của bạn sẽ không chạy đúng.

Nếu bạn sử dụng SPSS hoặc R, tôi không nghĩ rằng việc chia tỷ lệ và định tâm của toàn bộ tập dữ liệu nói chung sẽ là một vấn đề vì các gói phần mềm đó thường diễn giải các biến chỉ có hai cấp là các yếu tố, nhưng nó có thể phụ thuộc vào các phương pháp thống kê cụ thể được sử dụng . Trong mọi trường hợp, sẽ không có ý nghĩa đối với các biến nhị phân và trung tâm (hoặc phân loại) vì vậy bạn chỉ nên tập trung và chia tỷ lệ các biến liên tục nếu bạn phải làm điều này.


2
Cảm giác mạnh mẽ của tôi là phần duy nhất của câu trả lời thực sự trả lời câu hỏi OP là câu cuối cùng - một phần không giải thích được. Bạn nói đừng quy mô chúng nhưng đừng giải thích tại sao. Trong khi đó, chủ đề không phải là rất dễ dàng.
ttnphns

Đây chỉ là một cách mã hóa các biến phân loại. Tôi không có thời gian để viết một câu trả lời đầy đủ, nhưng tìm kiếm trên "sự tương phản" có thể giúp ích. Một câu trả lời có liên quan là stats.stackexchange.com/questions/60817/ từ
20637

3

Nếu bạn đang sử dụng R và chia tỷ lệ các biến giả hoặc biến có 0 hoặc 1 thành thang đo chỉ từ 0 đến 1, thì sẽ không có bất kỳ thay đổi nào về giá trị của các biến này, các cột còn lại sẽ được chia tỷ lệ.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

Mẹo thú vị. Cảm ơn bạn đã chia sẻ. Đã được một lúc kể từ khi tôi hỏi, nhưng thật tốt khi thấy tôi vẫn có thể học hỏi từ những bài viết cũ này.
dùng2300643

2

Điểm trung tâm trung bình trong hồi quy là làm cho việc đánh chặn trở nên dễ hiểu hơn. Nghĩa là, id bạn có nghĩa là trung tâm tất cả các biến trong mô hình hồi quy của bạn, sau đó chặn (được gọi là Constant trong đầu ra SPSS) bằng với tổng trung bình chung cho biến kết quả của bạn. Mà có thể thuận tiện khi giải thích mô hình cuối cùng.

Có nghĩa là các biến giả định tâm, tôi vừa có một cuộc trò chuyện với một giáo sư của tôi về các biến giả trung tâm trung bình trong mô hình hồi quy (trong trường hợp của tôi là một mô hình đa cấp thiết kế khối ngẫu nhiên với 3 cấp độ) và điều đó có nghĩa là tôi tập trung vào các biến giả không thực sự thay đổi việc giải thích các hệ số hồi quy (ngoại trừ việc giải pháp được chuẩn hóa hoàn toàn). Thông thường, không cần thiết trong hồi quy để diễn giải giá trị trung bình của đơn vị cấp thực tế - chỉ các hệ số. Và điều này về cơ bản không thay đổi - đối với hầu hết các phần. Cô ấy nói nó thay đổi một chút vì nó được tiêu chuẩn hóa, mà đối với người giả, không trực quan để hiểu.

Hãy cẩn thận: Đó là sự hiểu biết của tôi khi tôi rời văn phòng giáo sư của mình. Tôi có thể, tất nhiên, đã hiểu sai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.