Cách tốt nhất để trình bày trực quan các mối quan hệ từ một mô hình tuyến tính đa

Tôi có một mô hình tuyến tính với khoảng 6 yếu tố dự báo và tôi sẽ trình bày các ước tính, giá trị F, giá trị p, v.v. Tuy nhiên, tôi đã tự hỏi điều gì sẽ là âm mưu trực quan tốt nhất để biểu thị hiệu ứng riêng lẻ của một yếu tố dự báo trên biến phản ứng? Phân tán? Lô đất có điều kiện? Hiệu ứng cốt truyện? Vân vân? Làm thế nào tôi sẽ giải thích cốt truyện đó?

Tôi sẽ làm điều này trong R vì vậy hãy thoải mái cung cấp các ví dụ nếu bạn có thể.

EDIT: Tôi chủ yếu quan tâm đến việc trình bày mối quan hệ giữa bất kỳ yếu tố dự đoán cụ thể nào và biến phản ứng.

— Sáng
nguồn

Bạn có điều khoản tương tác? Âm mưu sẽ khó hơn nhiều nếu bạn có chúng.

— Hotaka

Không, chỉ 6 biến liên tục

— AMathew

Bạn đã có sáu hệ số hồi quy, một cho mỗi yếu tố dự đoán, có khả năng sẽ được trình bày dưới dạng bảng, lý do của việc lặp lại cùng một điểm với biểu đồ là gì?

— Penguin_Knight

Đối với khán giả phi kỹ thuật, tôi muốn chỉ cho họ một âm mưu hơn là nói về ước tính hoặc cách tính các hệ số.

— Sáng

@tony, tôi hiểu rồi. Có lẽ hai trang web này có thể cung cấp cho bạn một số cảm hứng: sử dụng gói R visreg và biểu đồ thanh lỗi để trực quan hóa các mô hình hồi quy.

— Penguin_Knight

Theo tôi, mô hình mà bạn mô tả không thực sự cho vay để vẽ đồ thị, vì các ô hoạt động tốt nhất khi chúng hiển thị thông tin phức tạp khó hiểu khác (ví dụ: tương tác phức tạp). Tuy nhiên, nếu bạn muốn hiển thị một chuỗi các mối quan hệ trong mô hình của mình, bạn có hai tùy chọn chính:

Hiển thị một loạt các mối quan hệ bivariate giữa mỗi dự đoán về mối quan tâm của bạn và kết quả của bạn, với một biểu đồ phân tán các biểu dữ liệu thô. Vẽ phong bì lỗi xung quanh dòng của bạn.
Hiển thị biểu đồ từ tùy chọn 1, nhưng thay vì hiển thị các biểu dữ liệu thô, hãy hiển thị các biểu dữ liệu với các dự đoán khác của bạn bị gạt ra ngoài (nghĩa là, sau khi trừ đi các đóng góp của các dự đoán khác)

Lợi ích của tùy chọn 1 là cho phép người xem đánh giá sự phân tán trong dữ liệu thô. Lợi ích của tùy chọn 2 là nó hiển thị lỗi cấp độ quan sát thực sự dẫn đến lỗi tiêu chuẩn của hệ số tiêu cự mà bạn đang hiển thị.

Tôi đã bao gồm mã R và biểu đồ của từng tùy chọn bên dưới, sử dụng dữ liệu từ Prestigebộ dữ liệu trong cargói trong R.

## Raw data ##

mod <- lm(income ~ education + women, data = Prestige)
summary(mod)

# Create a scatterplot of education against income
plot(Prestige$education, Prestige$income, xlab = "Years of education", 
     ylab = "Occupational income", bty = "n", pch = 16, col = "grey")
# Create a dataframe representing the values on the predictors for which we 
# want predictions
pX <- expand.grid(education = seq(min(Prestige$education), max(Prestige$education), by = .1), 
                  women = mean(Prestige$women))
# Get predicted values
pY <- predict(mod, pX, se.fit = T)

lines(pX$education, pY$fit, lwd = 2) # Prediction line
lines(pX$education, pY$fit - pY$se.fit) # -1 SE
lines(pX$education, pY$fit + pY$se.fit) # +1 SE

Đồ thị sử dụng datapoints thô

## Adjusted (marginalized) data ##

mod <- lm(income ~ education + women, data = Prestige)
summary(mod)

# Calculate the values of income, marginalizing out the effect of percentage women
margin_income <- coef(mod)["(Intercept)"] + coef(mod)["education"] * Prestige$education + 
    coef(mod)["women"] * mean(Prestige$women) + residuals(mod)

# Create a scatterplot of education against income
plot(Prestige$education, margin_income, xlab = "Years of education", 
     ylab = "Adjusted income", bty = "n", pch = 16, col = "grey")
# Create a dataframe representing the values on the predictors for which we 
# want predictions
pX <- expand.grid(education = seq(min(Prestige$education), max(Prestige$education), by = .1), 
              women = mean(Prestige$women))
# Get predicted values
pY <- predict(mod, pX, se.fit = T)

lines(pX$education, pY$fit, lwd = 2) # Prediction line
lines(pX$education, pY$fit - pY$se.fit) # -1 SE
lines(pX$education, pY$fit + pY$se.fit) # +1 SE

Dữ liệu điều chỉnh

— Patrick S. Forscher
nguồn