Tôi nghi ngờ một cách nghiêm túc về việc tập trung hoặc chuẩn hóa dữ liệu gốc có thực sự giảm thiểu được vấn đề đa cộng đồng hay không khi các thuật ngữ bình phương hoặc các thuật ngữ tương tác khác được đưa vào hồi quy, như một số bạn, đặc biệt, đã đề nghị ở trên.
Để minh họa quan điểm của tôi, hãy xem xét một ví dụ đơn giản.
Giả sử đặc tả thực sự có dạng sau sao cho
yi=b0+b1xi+b2x2i+ui
Do đó phương trình OLS tương ứng được cho bởi
yi=yi^+ui^=b0^+b1^xi+b2^x2i+ui^
yi^yiui ^ b 2 b0b2zi=x 2 ib0^b2^b0b2zi=x2i
Thông thường, chúng ta biết và có khả năng tương quan cao và điều này sẽ gây ra vấn đề đa cộng đồng. Để giảm thiểu điều này, một đề xuất phổ biến sẽ tập trung vào dữ liệu gốc bằng cách trừ trung bình của khỏi trước khi thêm các thuật ngữ bình phương.x 2 y i y ixx2yiyi
Khá dễ dàng để chỉ ra rằng giá trị trung bình của được đưa ra như sau:
trong đó , , là các phương tiện của , và .yiˉ y ˉ x
y¯=b0^+b1^x¯+b2^z¯
y¯x¯ yixiziz¯yixizi
Do đó, trừ khỏi sẽ cho yiy¯yi
yi−y¯=b1^(xi−x¯)+b2^(zi−z¯)+ui^
trong đó , và là các biến trung tâm. và - các tham số cần ước tính, vẫn giống như các tham số trong hồi quy OLS ban đầu.yi−y¯xi−x¯zi−z¯b1^b2^
Tuy nhiên, rõ ràng là trong ví dụ của tôi, các biến RHS- và có chính xác cùng một hiệp phương sai / tương quan như và , tức là .x 2 xxx2x corr ( x , z ) = corr ( x - ˉ x , z - ˉ z )x2corr(x,z)=corr(x−x¯,z−z¯)
Tóm lại, nếu sự hiểu biết của tôi về định tâm là chính xác, thì tôi không nghĩ dữ liệu định tâm sẽ giúp giảm thiểu vấn đề MC gây ra bằng cách bao gồm các thuật ngữ bình phương hoặc các thuật ngữ bậc cao khác vào hồi quy.
Tôi rất vui khi nghe ý kiến của bạn!