R hồi quy tuyến tính biến phân loại Biến ẩn giá trị

Đây chỉ là một ví dụ mà tôi đã bắt gặp nhiều lần, vì vậy tôi không có bất kỳ dữ liệu mẫu nào. Chạy mô hình hồi quy tuyến tính trong R:

a.lm = lm(Y ~ x1 + x2)

x1là một biến liên tục. x2là phân loại và có ba giá trị, ví dụ "Thấp", "Trung bình" và "Cao". Tuy nhiên, đầu ra được cung cấp bởi R sẽ giống như:

summary(a.lm)
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.521     0.20       1.446   0.19        
x1            -0.61     0.11       1.451   0.17
x2Low         -0.78     0.22       -2.34   0.005
x2Medium      -0.56     0.45       -2.34   0.005

Tôi hiểu rằng R giới thiệu một số loại mã hóa giả trên các yếu tố như vậy ( x2là một yếu tố). Tôi chỉ tự hỏi, làm thế nào để tôi giải thích x2giá trị "Cao"? Ví dụ: "Cao" x2có ảnh hưởng gì đến biến trả lời trong ví dụ được nêu ở đây?

Tôi đã thấy các ví dụ về điều này ở nơi khác (ví dụ ở đây ) nhưng không tìm thấy lời giải thích nào tôi có thể hiểu.

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

— ttnphns
nguồn

Bạn có thể nhận được câu trả lời tốt ở đây, nhưng tôi sẽ gắn cờ này để di chuyển sang số liệu thống kê. Vì câu trả lời cho câu hỏi này về cơ bản giúp hiểu được cách thức hồi quy tuyến tính hoạt động.

— joran

Vâng, đủ công bằng. Sẽ tốt hơn nếu tôi xóa nó và tự di chuyển nó? Hay là không cần thiết?

Bạn không cần phải làm gì cả. Tôi đã gắn cờ nó, nhưng có thể mất một hoặc hai giờ trước khi một mod đến với nó, đó là một ngày chủ nhật và tất cả.

— joran

Tôi sẽ không cung cấp câu trả lời ở đây, vì câu hỏi sẽ được chuyển đi. Nhưng bạn có thể thử một vài điều để hiểu những gì đang diễn ra: 1. chạy lm (Y ~ x1 + x2 - 1). "-1" sẽ loại bỏ phần chặn. 2. sử dụng relevel để thay đổi danh mục tham chiếu của x2.

— Manoel Galdino

Hỏi: "... làm cách nào để diễn giải giá trị x2" Cao "? Ví dụ: x2s" Cao "có ảnh hưởng gì đến biến trả lời trong ví dụ được nêu ở đây ??

Trả lời: Bạn chắc chắn nhận thấy rằng không có đề cập đến x2 = "Cao" trong đầu ra. Tại thời điểm x2High được chọn làm "trường hợp cơ sở". Đó là bởi vì bạn đã cung cấp một biến nhân tố với mã hóa mặc định cho các cấp mặc dù thứ tự sẽ là L / M / H tự nhiên hơn đối với tâm trí con người. Nhưng "H" là từ vựng trước cả "L" và "M" trong bảng chữ cái, được R chọn làm trường hợp cơ sở.

Vì 'x2' không được đặt hàng, mỗi độ tương phản được báo cáo có liên quan đến x2 = "Cao" và do đó x2 == "Thấp" được ước tính là -0,78 so với x2 = "Cao". Tại thời điểm, Chặn là giá trị ước tính của "Y" khi x2 = "Cao" và x1 = 0. Bạn có thể muốn chạy lại hồi quy của mình sau khi thay đổi thứ tự mức (nhưng không thực hiện yếu tố theo thứ tự).

x2a = factor(x2, levels=c("Low", "Medium", "High"))

Sau đó, ước tính 'Trung bình' và 'Cao' của bạn sẽ phù hợp hơn với những gì bạn mong đợi.

Chỉnh sửa: Có các cách sắp xếp mã hóa thay thế (hoặc sắp xếp chính xác hơn của ma trận mô hình.) Lựa chọn mặc định cho độ tương phản trong R là "độ tương phản xử lý" chỉ định một mức yếu tố (hoặc một kết hợp cụ thể của các mức yếu tố) làm mức tham chiếu và báo cáo ước tính sự khác biệt trung bình cho các cấp độ hoặc kết hợp khác. Tuy nhiên, bạn có thể có mức tham chiếu là giá trị trung bình tổng thể bằng cách buộc Chặn là 0 (không được khuyến nghị) hoặc sử dụng một trong các lựa chọn tương phản khác:

?contrasts
?C   # which also means you should _not_ use either "c" or "C" as variable names.

Bạn có thể chọn các độ tương phản khác nhau cho các yếu tố khác nhau, mặc dù làm như vậy dường như sẽ đặt ra một gánh nặng diễn giải bổ sung. S-Plus sử dụng độ tương phản Helmert theo mặc định và SAS sử dụng độ tương phản điều trị nhưng chọn mức yếu tố cuối cùng thay vì mức đầu tiên làm mức tham chiếu.

— DW
nguồn

Điều đó có ý nghĩa. Tôi cho rằng rõ ràng x2không thể có "giá trị" vì nó phải là một trong số "Cao", "Trung bình" hoặc "Thấp". Cảm ơn câu trả lời của bạn.