R hồi quy tuyến tính biến phân loại Biến ẩn giá trị


10

Đây chỉ là một ví dụ mà tôi đã bắt gặp nhiều lần, vì vậy tôi không có bất kỳ dữ liệu mẫu nào. Chạy mô hình hồi quy tuyến tính trong R:

a.lm = lm(Y ~ x1 + x2)

x1là một biến liên tục. x2là phân loại và có ba giá trị, ví dụ "Thấp", "Trung bình" và "Cao". Tuy nhiên, đầu ra được cung cấp bởi R sẽ giống như:

summary(a.lm)
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.521     0.20       1.446   0.19        
x1            -0.61     0.11       1.451   0.17
x2Low         -0.78     0.22       -2.34   0.005
x2Medium      -0.56     0.45       -2.34   0.005

Tôi hiểu rằng R giới thiệu một số loại mã hóa giả trên các yếu tố như vậy ( x2là một yếu tố). Tôi chỉ tự hỏi, làm thế nào để tôi giải thích x2giá trị "Cao"? Ví dụ: "Cao" x2có ảnh hưởng gì đến biến trả lời trong ví dụ được nêu ở đây?

Tôi đã thấy các ví dụ về điều này ở nơi khác (ví dụ ở đây ) nhưng không tìm thấy lời giải thích nào tôi có thể hiểu.

r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
Bạn có thể nhận được câu trả lời tốt ở đây, nhưng tôi sẽ gắn cờ này để di chuyển sang số liệu thống kê. Vì câu trả lời cho câu hỏi này về cơ bản giúp hiểu được cách thức hồi quy tuyến tính hoạt động.
joran

Vâng, đủ công bằng. Sẽ tốt hơn nếu tôi xóa nó và tự di chuyển nó? Hay là không cần thiết?

1
Bạn không cần phải làm gì cả. Tôi đã gắn cờ nó, nhưng có thể mất một hoặc hai giờ trước khi một mod đến với nó, đó là một ngày chủ nhật và tất cả.
joran

3
Tôi sẽ không cung cấp câu trả lời ở đây, vì câu hỏi sẽ được chuyển đi. Nhưng bạn có thể thử một vài điều để hiểu những gì đang diễn ra: 1. chạy lm (Y ~ x1 + x2 - 1). "-1" sẽ loại bỏ phần chặn. 2. sử dụng relevel để thay đổi danh mục tham chiếu của x2.
Manoel Galdino

Câu trả lời:


14

Hỏi: "... làm cách nào để diễn giải giá trị x2" Cao "? Ví dụ: x2s" Cao "có ảnh hưởng gì đến biến trả lời trong ví dụ được nêu ở đây ??

Trả lời: Bạn chắc chắn nhận thấy rằng không có đề cập đến x2 = "Cao" trong đầu ra. Tại thời điểm x2High được chọn làm "trường hợp cơ sở". Đó là bởi vì bạn đã cung cấp một biến nhân tố với mã hóa mặc định cho các cấp mặc dù thứ tự sẽ là L / M / H tự nhiên hơn đối với tâm trí con người. Nhưng "H" là từ vựng trước cả "L" và "M" trong bảng chữ cái, được R chọn làm trường hợp cơ sở.

Vì 'x2' không được đặt hàng, mỗi độ tương phản được báo cáo có liên quan đến x2 = "Cao" và do đó x2 == "Thấp" được ước tính là -0,78 so với x2 = "Cao". Tại thời điểm, Chặn là giá trị ước tính của "Y" khi x2 = "Cao" và x1 = 0. Bạn có thể muốn chạy lại hồi quy của mình sau khi thay đổi thứ tự mức (nhưng không thực hiện yếu tố theo thứ tự).

x2a = factor(x2, levels=c("Low", "Medium", "High"))

Sau đó, ước tính 'Trung bình' và 'Cao' của bạn sẽ phù hợp hơn với những gì bạn mong đợi.

Chỉnh sửa: Có các cách sắp xếp mã hóa thay thế (hoặc sắp xếp chính xác hơn của ma trận mô hình.) Lựa chọn mặc định cho độ tương phản trong R là "độ tương phản xử lý" chỉ định một mức yếu tố (hoặc một kết hợp cụ thể của các mức yếu tố) làm mức tham chiếu và báo cáo ước tính sự khác biệt trung bình cho các cấp độ hoặc kết hợp khác. Tuy nhiên, bạn có thể có mức tham chiếu là giá trị trung bình tổng thể bằng cách buộc Chặn là 0 (không được khuyến nghị) hoặc sử dụng một trong các lựa chọn tương phản khác:

?contrasts
?C   # which also means you should _not_ use either "c" or "C" as variable names.

Bạn có thể chọn các độ tương phản khác nhau cho các yếu tố khác nhau, mặc dù làm như vậy dường như sẽ đặt ra một gánh nặng diễn giải bổ sung. S-Plus sử dụng độ tương phản Helmert theo mặc định và SAS sử dụng độ tương phản điều trị nhưng chọn mức yếu tố cuối cùng thay vì mức đầu tiên làm mức tham chiếu.


Điều đó có ý nghĩa. Tôi cho rằng rõ ràng x2không thể có "giá trị" vì nó phải là một trong số "Cao", "Trung bình" hoặc "Thấp". Cảm ơn câu trả lời của bạn.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.