Nó không rõ ràng đối với tôi về việc tiêu chuẩn hóa có nghĩa là gì, và trong khi tìm kiếm lịch sử, tôi đã chọn ra hai tài liệu tham khảo thú vị.
Bài viết gần đây này có một tổng quan lịch sử trong phần giới thiệu:
García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Tiêu chuẩn hóa các biến và chẩn đoán cộng tuyến trong hồi quy sườn. Tạp chí thống kê quốc tế, 84 (2), 245-266
Tôi tìm thấy một bài viết thú vị khác là loại tuyên bố cho thấy rằng tiêu chuẩn hóa, hoặc định tâm, không có tác dụng gì cả.
Echambadi, R., & Hess, JD (2007). Định tâm trung bình không làm giảm bớt các vấn đề về cộng tuyến trong các mô hình hồi quy bội được kiểm duyệt. Khoa học tiếp thị, 26 (3), 438-445.
Đối với tôi lời chỉ trích này dường như hơi thiếu quan điểm về ý tưởng định tâm.
Điều duy nhất mà Echambadi và Hess thể hiện là các mô hình tương đương nhau và bạn có thể biểu thị các hệ số của mô hình trung tâm theo các hệ số của mô hình không tập trung và ngược lại (dẫn đến phương sai / sai số tương tự của các hệ số ).
Kết quả của Echambadi và Hess là một chút tầm thường và tôi tin rằng điều này (những mối quan hệ và tương đương giữa các hệ số) không được cho là không đúng sự thật bởi bất kỳ ai. Không ai tuyên bố rằng những quan hệ giữa các hệ số là không đúng sự thật. Và nó không phải là điểm của các biến trung tâm.
tY
tt'
Y= a + b t + c t2
đấu với
Y= a'+ b'( t - T) + c'( t - T)2
Tất nhiên, hai mô hình này là tương đương và thay vì định tâm, bạn có thể nhận được cùng một kết quả chính xác (và do đó cùng một lỗi của các hệ số ước tính) bằng cách tính các hệ số như
mộtbc= == == =một'- b'T+ c'T2b'- 2 c'Tc'
R2
Tuy nhiên, đó không phải là tất cả các điểm trung tâm. Điểm quan trọng của việc định tâm là đôi khi người ta muốn truyền đạt các hệ số và khoảng phương sai / độ chính xác hoặc khoảng tin cậy ước tính của họ, và đối với những trường hợp đó, việc mô hình được thể hiện như thế nào không quan trọng.
Ví dụ: một nhà vật lý muốn biểu thị một số quan hệ thực nghiệm cho một số tham số X là hàm bậc hai của nhiệt độ.
T X
298 1230
308 1308
318 1371
328 1470
338 1534
348 1601
358 1695
368 1780
378 1863
388 1940
398 2047
sẽ không tốt hơn để báo cáo khoảng 95% cho các hệ số như
2.5 % 97.5 %
(Intercept) 1602 1621
T-348 7.87 8.26
(T-348)^2 0.0029 0.0166
thay vì
2.5 % 97.5 %
(Intercept) -839 816
T -3.52 6.05
T^2 0.0029 0.0166
Trong trường hợp sau, các hệ số sẽ được biểu thị bằng tỷ lệ lỗi có vẻ lớn (nhưng không nói gì về lỗi trong mô hình) và ngoài ra, mối tương quan giữa phân phối lỗi sẽ không rõ ràng (trong trường hợp đầu tiên là lỗi trong các hệ số sẽ không tương quan).
Nếu một người tuyên bố, như Echambadi và Hess, rằng hai biểu thức chỉ tương đương nhau và việc định tâm không quan trọng, thì chúng ta cũng nên (do đó sử dụng các đối số tương tự) cũng cho rằng các biểu thức cho các hệ số mô hình (khi không có giao thoa tự nhiên và sự lựa chọn là tùy ý) về khoảng tin cậy hoặc sai số chuẩn không bao giờ có ý nghĩa.
Trong câu hỏi / câu trả lời này, một hình ảnh được hiển thị cũng thể hiện ý tưởng này làm thế nào khoảng tin cậy 95% không nói nhiều về độ chắc chắn của các hệ số (ít nhất là không trực quan) khi các sai số trong ước tính của các hệ số tương quan.
R
khung này , được biểu thị bằng giây kể từ đầu năm 1970. Như vậy, nó có xu hướng lớn hơn chín bậc so với tất cả các hiệp phương sai. Đơn giản chỉ cần chuẩn hóa thời gian đã giải quyết các vấn đề điểm nổi nghiêm trọng xảy ra trong trình tối ưu hóa khả năng.