Khi nào và làm thế nào để sử dụng các biến giải thích được tiêu chuẩn hóa trong hồi quy tuyến tính


37

Tôi có 2 câu hỏi đơn giản về hồi quy tuyến tính:

  1. Khi nào nên chuẩn hóa các biến giải thích?
  2. Sau khi ước tính được thực hiện với các giá trị được tiêu chuẩn hóa, làm thế nào người ta có thể dự đoán với các giá trị mới (làm thế nào người ta nên tiêu chuẩn hóa các giá trị mới)?

Một số tài liệu tham khảo sẽ hữu ích.


3
Nếu phần mềm của bạn được viết tốt, nó sẽ tự động chuẩn hóa nội bộ để tránh các vấn đề chính xác về số. Bạn không cần phải làm gì đặc biệt.
whuber


Câu trả lời:


26

Mặc dù thuật ngữ là một chủ đề gây tranh cãi, tôi thích gọi các biến "giải thích", biến "dự đoán".

Khi nào cần chuẩn hóa các yếu tố dự đoán:

  • Rất nhiều phần mềm để thực hiện nhiều hồi quy tuyến tính sẽ cung cấp các hệ số được tiêu chuẩn hóa tương đương với các hệ số không đạt tiêu chuẩn trong đó bạn chuẩn hóa thủ công các yếu tố dự đoán và biến phản ứng (tất nhiên, có vẻ như bạn đang nói về chỉ dự báo tiêu chuẩn hóa).
  • Ý kiến ​​của tôi là tiêu chuẩn hóa là một công cụ hữu ích để làm cho phương trình hồi quy có ý nghĩa hơn. Điều này đặc biệt đúng trong trường hợp số liệu của biến thiếu ý nghĩa đối với người diễn giải phương trình hồi quy (ví dụ: thang đo tâm lý trên một số liệu tùy ý). Nó cũng có thể được sử dụng để tạo điều kiện so sánh tầm quan trọng tương đối của các biến dự đoán (mặc dù các cách tiếp cận phức tạp hơn khác tồn tại để đánh giá tầm quan trọng tương đối; xem bài đăng của tôi để thảo luận ). Trong trường hợp số liệu có ý nghĩa với người diễn giải phương trình hồi quy, các hệ số không đạt tiêu chuẩn thường có nhiều thông tin hơn.
  • Tôi cũng nghĩ rằng việc dựa vào các biến được tiêu chuẩn hóa có thể thu hút sự chú ý từ thực tế là chúng ta chưa nghĩ đến việc làm thế nào để làm cho số liệu của một biến có ý nghĩa hơn đối với người đọc.

  • Andrew Gelman có một chút công bằng để nói về chủ đề này. Xem trang của anh ấy về tiêu chuẩn hóa, ví dụ như Gelman (2008, Stats Med, PDF MIỄN PHÍ) nói riêng.

Dự đoán dựa trên dự đoán:

  • Tôi sẽ không sử dụng các hệ số hồi quy tiêu chuẩn hóa để dự đoán.
  • Bạn luôn có thể chuyển đổi các hệ số được tiêu chuẩn hóa thành các hệ số không đạt tiêu chuẩn nếu bạn biết giá trị trung bình và độ lệch chuẩn của biến dự đoán trong mẫu ban đầu.

3
+1, nhưng tại sao bạn không sử dụng hệ số hồi quy không đạt tiêu chuẩn để dự đoán?
onestop

1
(+1) Về việc đánh giá tầm quan trọng của biến, tôi nghĩ rằng gói relaimpo R thực hiện công việc tốt (nhưng xem Bắt đầu với Phương pháp tiếp cận hiện đại để hồi quy ). David V. Budescu cũng có một bài viết hay về phân tích thống trị (có sẵn theo yêu cầu).
chl

@onestep oops. lỗi đánh máy Bây giờ nó đã thay đổi.
Jeromy Anglim

1
@Jeromy, bạn có thể giải thích lý do tại sao bạn không sử dụng các hệ số hồi quy được tiêu chuẩn hóa để dự đoán không?
Michael Giám mục

3
@MichaelBishop Tôi đang nghĩ về bối cảnh nơi bạn lấy mô hình hồi quy của mình và áp dụng nó để dự đoán dữ liệu mẫu. Nói chung, bạn muốn dự đoán không chuẩn. Ngoài ra, phương tiện và độ lệch chuẩn có thể thay đổi trên các mẫu; do đó sử dụng các dự đoán không đạt tiêu chuẩn sẽ cho kết quả có ý nghĩa hơn.
Jeromy Anglim

-4

Hãy để tôi trả lời với một câu trả lời ngắn, nó có thể trùng với câu trả lời xuất sắc được viết trước đó.

  1. Luôn luôn đứng vững, điều đó cho phép bạn diễn giải hồi quy, đặc biệt là các hệ số của hồi quy tốt hơn.

  2. Đối với dữ liệu mới không phù hợp, tôi khuyên bạn nên lưu trữ các giá trị bạn đã sử dụng cho từng biến để được cân bằng, chẳng hạn như tối đa và tối thiểu, sau đó thực hiện chuyển đổi giống như bạn đã làm trong bộ dữ liệu lỗ trước đó nhưng chỉ với điều này trường hợp duy nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.