Khi nào cần biến đổi các biến dự đoán khi thực hiện hồi quy bội?


10

Tôi hiện đang tham gia lớp hồi quy tuyến tính ứng dụng đầu tiên của mình ở cấp độ sau đại học và đang vật lộn với các biến đổi biến dự đoán trong hồi quy tuyến tính đa biến. Văn bản tôi đang sử dụng, Kutner et al "Các mô hình thống kê tuyến tính ứng dụng" dường như không bao gồm câu hỏi tôi đang có. (ngoài việc gợi ý rằng có một phương pháp Box-Cox để chuyển đổi nhiều yếu tố dự đoán).

Khi phải đối mặt với một biến trả lời và một vài biến dự đoán, người ta cố gắng đáp ứng điều kiện nào với từng biến dự đoán? Tôi hiểu rốt cuộc chúng tôi đang tìm kiếm không đổi của sai lỗi và các lỗi phân phối bình thường (ít nhất là trong các kỹ thuật tôi đã được dạy cho đến nay.) Tôi đã có rất nhiều bài tập trở lại, nơi mà các giải pháp là, như một ví dụ y ~ x1 + (1/x2) + log(x3), nơi một hoặc nhiều dự đoán đã được chuyển đổi.

Tôi hiểu cơ sở lý luận theo hồi quy tuyến tính đơn giản, vì dễ dàng xem xét y ~ x1 và các chẩn đoán liên quan (lô qq của phần dư, phần dư so với y, phần dư so với x, v.v.) và kiểm tra xem y ~ log ( x1) phù hợp với giả định của chúng tôi tốt hơn.

Có một nơi tốt để bắt đầu hiểu khi nào cần chuyển đổi một người dự đoán trước sự hiện diện của nhiều người dự đoán?

Cảm ơn bạn trước. Matt

Câu trả lời:


3

Tôi đặt câu hỏi của bạn là: làm thế nào để bạn phát hiện khi các điều kiện tạo ra các phép biến đổi phù hợp tồn tại, thay vì các điều kiện logic là gì . Thật tuyệt khi phân tích dữ liệu boopool với thăm dò, đặc biệt là khám phá dữ liệu đồ họa. (Có thể tiến hành nhiều thử nghiệm khác nhau, nhưng tôi sẽ tập trung vào EDA đồ họa ở đây.)

Các ô mật độ hạt nhân tốt hơn biểu đồ cho tổng quan ban đầu về phân phối đơn biến của mỗi biến. Với nhiều biến, một ma trận phân tán có thể có ích. Lowess cũng luôn luôn được khuyến khích khi bắt đầu. Điều này sẽ cung cấp cho bạn một cái nhìn nhanh chóng và bẩn thỉu về việc các mối quan hệ có xấp xỉ tuyến tính hay không. Gói xe của John Fox kết hợp hữu ích những điều sau:

library(car)
scatterplot.matrix(data)

Hãy chắc chắn để có các biến của bạn dưới dạng cột. Nếu bạn có nhiều biến, các ô riêng lẻ có thể nhỏ. Tối đa hóa cửa sổ cốt truyện và các biểu đồ phân tán phải đủ lớn để chọn ra các ô bạn muốn kiểm tra riêng lẻ, sau đó tạo các ô riêng lẻ. Ví dụ,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

Sau khi điều chỉnh mô hình hồi quy bội, bạn vẫn nên vẽ và kiểm tra dữ liệu của mình, giống như với hồi quy tuyến tính đơn giản. Các lô QQ cho phần dư là cần thiết và bạn có thể thực hiện một ma trận phân tán số dư của mình so với các dự đoán của bạn, theo một quy trình tương tự như trước đây.

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

Nếu bất cứ điều gì có vẻ đáng ngờ, hãy vẽ nó riêng lẻ và thêm vào abline(h=0), như một hướng dẫn trực quan. Nếu bạn có tương tác, bạn có thể tạo biến X [, 1] * X [, 2] và kiểm tra phần dư dựa vào đó. Tương tự như vậy, bạn có thể tạo một biểu đồ phân tán phần dư so với X [, 3] ^ 2, v.v. Các loại ô khác so với phần dư so với x mà bạn thích có thể được thực hiện tương tự. Hãy nhớ rằng tất cả đều bỏ qua các kích thước x khác không được vẽ. Nếu dữ liệu của bạn được nhóm (tức là từ một thử nghiệm), bạn có thể tạo các ô một phần thay vì / ngoài các ô cận biên.

Mong rằng sẽ giúp.


2
Tôi sẽ khuyến khích một cách tiếp cận trực tiếp hơn: sử dụng các hàm hồi quy để mô hình hóa các tác động của các yếu tố dự đoán để (1) không giả định tuyến tính và (2) ước tính tất cả các phép biến đổi đồng thời. Điều này gần giống với hồi quy bậc hai - thêm một số hạng vuông cho tất cả các yếu tố dự đoán. Ví dụ, với các khối vuông bị hạn chế, người ta thêm một hoặc nhiều hàm cơ sở phi tuyến vào mô hình cho mỗi bộ dự đoán không được biết là hoạt động tuyến tính.
Frank Harrell

@Frank Tôi thường thích các khối vuông bị hạn chế. Tiêu cực duy nhất là một trong những giải thích, đó là một chút khó khăn và thường tắt khách hàng của tôi. Thêm một thuật ngữ đa thức (sau khi định tâm) dường như dễ hiểu hơn
Peter Flom - Tái lập Monica

Cảm ơn tất cả các bạn cho đầu vào, tôi đánh giá rất cao nó. Tôi nghĩ rằng bạn hiện đang cho tôi quá nhiều tín dụng. Câu hỏi của tôi thực sự tập trung vào những gì cần tìm kiếm trong các yếu tố dự đoán riêng lẻ để biết khi nào / nếu một chuyển đổi được áp dụng. Ví dụ: nếu tôi có một mô hình phụ gia nghiêm ngặt, với 3 yếu tố dự đoán, tôi sẽ làm thế nào để xác định một chuyển đổi phù hợp? Trong trường hợp nhiều yếu tố dự đoán, chúng ta thường phấn đấu cho cùng các nguyên tắc mà chúng ta tìm kiếm trong hồi quy tuyến tính đơn giản? (tức là phần dư thuận lợi so với âm mưu dự đoán và qqplot của phần dư).
Matt

1
Splines hồi quy không phức tạp hơn nhiều so với tứ giác. Ai biết làm thế nào để giải thích hệ số tuổi khi tuổi ^ 2 trong mô hình? Và tôi không thấy nơi trung tâm giúp đỡ. Tôi giải thích spline phù hợp với đồ thị, mà các cộng tác viên của tôi thích. Matt một sự chuyển đổi là hầu như luôn luôn cần thiết. Đó chỉ là một câu hỏi về sự phù hợp của kích thước mẫu để ước tính đủ các tham số để phù hợp với các hiệu ứng phi tuyến. Các phép hồi quy ước tính trực tiếp các phép biến đổi và dẫn đến các khoảng tin cậy thích hợp bị phạt vì "ngoại hình dữ liệu". Dư lượng liên quan đến một cách tiếp cận gián tiếp.
Frank Harrell

Xin lỗi, vẫn nhận được hang của bài viết ở đây. Xin hãy tha thứ. Để giải thích về nhận xét cuối cùng của tôi: Một ví dụ gần đây tôi đã xem qua một văn bản có mô hình kết quả y ~ x1 + log (x2) và lưu ý duy nhất về phép biến đổi là "rõ ràng x2 rất phù hợp với phép biến đổi logarit . " Tôi đang cố gắng cải thiện ý thức của mình khi các phép biến đổi được áp dụng. Có đủ để chỉ nhìn vào các ô y ~ x_i và tiến hành như chúng ta sẽ làm trong trường hợp dự đoán đơn không? Những gì khác tôi nên xem xét?
Matt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.