Tôi nhận thấy trong khi mày mò với mô hình hồi quy đa biến, có một hiệu ứng đa hình nhỏ nhưng đáng chú ý, được đo bằng các yếu tố lạm phát phương sai, trong các loại của biến phân loại (dĩ nhiên sau khi loại trừ loại tham chiếu).
Ví dụ: giả sử chúng ta có một tập dữ liệu với biến y liên tục và một biến phân loại danh nghĩa x có k giá trị loại trừ lẫn nhau. Chúng tôi mã hóa các giá trị có thể là 0/1 biến giả . Sau đó, chúng tôi chạy mô hình hồi quy . Điểm VIF cho các biến giả hóa ra khác không. Trong thực tế, khi số lượng danh mục tăng lên, VIF tăng lên. Căn giữa các biến giả không xuất hiện để thay đổi VIF.
Giải thích trực quan dường như là điều kiện loại trừ lẫn nhau của các loại trong biến phân loại gây ra tính đa hình nhẹ này. Đây có phải là một phát hiện tầm thường hay là một vấn đề cần xem xét khi xây dựng mô hình hồi quy với các biến phân loại?