Tiêu chuẩn hóa các biến và cộng tuyến


10

Collinearity có thể đặt ra một số vấn đề nhất định trong các loại vấn đề hồi quy khác nhau. Đặc biệt, nó có thể làm cho các ước tính tham số có phương sai cao và không ổn định.

Các phương pháp khác nhau đã được đề xuất để đối phó với điều này bao gồm hồi quy sườn, hồi quy bình phương nhỏ nhất một phần, hồi quy thành phần chính, bỏ biến và nhận thêm dữ liệu.

Một phương pháp gây tranh cãi là tiêu chuẩn hóa hoặc nhân rộng các biến độc lập, với các chuyên gia khác nhau nói rằng đó là một ý tưởng tốt (ví dụ Garcia) hoặc xấu (ví dụ Belsley). Vấn đề của Belsley dường như là (về mặt phi kỹ thuật) rằng việc thay đổi IV chỉ đẩy vấn đề dưới tấm thảm. Nhưng các chuyên gia khác dường như không đồng ý. Và các tác giả có xu hướng trở nên khá nóng trong việc bảo vệ vị trí của chính họ.

Quay lại khi tôi làm luận án (về chẩn đoán cộng tác) tôi thấy các lập luận của Belsley rất thuyết phục, nhưng điều đó đã lâu rồi (tôi đã lấy bằng vào năm 1999).

Tôi đang tìm kiếm hướng dẫn của chuyên gia hoặc cho bất kỳ bài viết đánh giá hiện tại nào không thiên vị.


3
Tôi không có tài liệu tham khảo hiện đại nào cho bạn - cơ quan có thẩm quyền của tôi vẫn là Belsley Kuh & Welsch 1981 - nhưng tôi có thể nói rằng kinh nghiệm gần đây trong việc sửa chữa phần mềm hồi quy nhất định đã thuyết phục tôi rằng thực sự có giá trị trong tiêu chuẩn sơ bộ. Trong ứng dụng, một biến là thời gian, trong Rkhung này , được biểu thị bằng giây kể từ đầu năm 1970. Như vậy, nó có xu hướng lớn hơn chín bậc so với tất cả các hiệp phương sai. Đơn giản chỉ cần chuẩn hóa thời gian đã giải quyết các vấn đề điểm nổi nghiêm trọng xảy ra trong trình tối ưu hóa khả năng.
whuber

6
Về mặt khái niệm (không phải bằng số), tôi vẫn nghĩ Arthur Goldberger đã phát hiện ra: "Các văn bản kinh tế lượng dành nhiều trang cho vấn đề đa cộng tuyến trong hồi quy bội, nhưng họ nói rất ít về vấn đề tương tự gần giống với kích thước mẫu nhỏ trong ước tính một giá trị trung bình. sự mất cân bằng đó là do thiếu một tên đa âm kỳ lạ cho 'cỡ mẫu nhỏ'. Nếu vậy, chúng ta có thể loại bỏ trở ngại đó bằng cách giới thiệu thuật ngữ vi mô "
CloseToC

1
@Peter Flom: Phù hợp với nhận xét của Whuber, tôi (rất) mơ hồ nhớ lại rằng việc chuẩn hóa bằng cách thậm chí chỉ làm cho những người dự đoán không có ý nghĩa gì đã giúp ích rất nhiều.
mlofton

Câu trả lời:


4

Nó không rõ ràng đối với tôi về việc tiêu chuẩn hóa có nghĩa là gì, và trong khi tìm kiếm lịch sử, tôi đã chọn ra hai tài liệu tham khảo thú vị.

Bài viết gần đây này có một tổng quan lịch sử trong phần giới thiệu:

García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Tiêu chuẩn hóa các biến và chẩn đoán cộng tuyến trong hồi quy sườn. Tạp chí thống kê quốc tế, 84 (2), 245-266

Tôi tìm thấy một bài viết thú vị khác là loại tuyên bố cho thấy rằng tiêu chuẩn hóa, hoặc định tâm, không có tác dụng gì cả.

Echambadi, R., & Hess, JD (2007). Định tâm trung bình không làm giảm bớt các vấn đề về cộng tuyến trong các mô hình hồi quy bội được kiểm duyệt. Khoa học tiếp thị, 26 (3), 438-445.


Đối với tôi lời chỉ trích này dường như hơi thiếu quan điểm về ý tưởng định tâm.

Điều duy nhất mà Echambadi và Hess thể hiện là các mô hình tương đương nhau và bạn có thể biểu thị các hệ số của mô hình trung tâm theo các hệ số của mô hình không tập trung và ngược lại (dẫn đến phương sai / sai số tương tự của các hệ số ).

Kết quả của Echambadi và Hess là một chút tầm thường và tôi tin rằng điều này (những mối quan hệ và tương đương giữa các hệ số) không được cho là không đúng sự thật bởi bất kỳ ai. Không ai tuyên bố rằng những quan hệ giữa các hệ số là không đúng sự thật. Và nó không phải là điểm của các biến trung tâm.

tY

tt'

Y= =một+bt+ct2

đấu với

Y= =một'+b'(t-T)+c'(t-T)2

Tất nhiên, hai mô hình này là tương đương và thay vì định tâm, bạn có thể nhận được cùng một kết quả chính xác (và do đó cùng một lỗi của các hệ số ước tính) bằng cách tính các hệ số như

một= =một'-b'T+c'T2b= =b'-2c'Tc= =c'

R2

Tuy nhiên, đó không phải là tất cả các điểm trung tâm. Điểm quan trọng của việc định tâm là đôi khi người ta muốn truyền đạt các hệ số và khoảng phương sai / độ chính xác hoặc khoảng tin cậy ước tính của họ, và đối với những trường hợp đó, việc mô hình được thể hiện như thế nào không quan trọng.

Ví dụ: một nhà vật lý muốn biểu thị một số quan hệ thực nghiệm cho một số tham số X là hàm bậc hai của nhiệt độ.

  T   X
  298 1230
  308 1308
  318 1371
  328 1470
  338 1534
  348 1601
  358 1695
  368 1780
  378 1863
  388 1940
  398 2047

sẽ không tốt hơn để báo cáo khoảng 95% cho các hệ số như

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

thay vì

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

Trong trường hợp sau, các hệ số sẽ được biểu thị bằng tỷ lệ lỗi có vẻ lớn (nhưng không nói gì về lỗi trong mô hình) và ngoài ra, mối tương quan giữa phân phối lỗi sẽ không rõ ràng (trong trường hợp đầu tiên là lỗi trong các hệ số sẽ không tương quan).

Nếu một người tuyên bố, như Echambadi và Hess, rằng hai biểu thức chỉ tương đương nhau và việc định tâm không quan trọng, thì chúng ta cũng nên (do đó sử dụng các đối số tương tự) cũng cho rằng các biểu thức cho các hệ số mô hình (khi không có giao thoa tự nhiên và sự lựa chọn là tùy ý) về khoảng tin cậy hoặc sai số chuẩn không bao giờ có ý nghĩa.

Trong câu hỏi / câu trả lời này, một hình ảnh được hiển thị cũng thể hiện ý tưởng này làm thế nào khoảng tin cậy 95% không nói nhiều về độ chắc chắn của các hệ số (ít nhất là không trực quan) khi các sai số trong ước tính của các hệ số tương quan.

hình ảnh


Cảm ơn! Tôi đã thấy Garcia nhưng không phải bài báo khác mà bạn đề cập.
Peter Flom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.