Vấn đề bạn đang gặp phải (tức là "điểm kỳ dị") có thể được coi là một ví dụ của đa cộng đồng . Đa sắc thái thường được định nghĩa là:
Một hoặc nhiều biến dự đoán là sự kết hợp tuyến tính của các biến dự đoán khác.
Trên thực tế, đây là một định nghĩa khá nghiêm ngặt; nó là đa cộng tuyến hoàn hảo và bạn có thể dễ dàng gặp vấn đề với đa cộng tuyến mà không có bất kỳ biến nào của bạn là kết hợp tuyến tính hoàn hảo của các biến khác. Hơn nữa, đa hình hoàn hảo hiếm khi xảy ra. Tuy nhiên, bạn đã tình cờ phát hiện ra một trường hợp có thể xảy ra. Hãy để chúng tôi xem làm thế nào chúng ta có thể hoàn toàn dự đoán medium quality
từ sự hiểu biết của chúng ta về hai loại khác (chúng tôi sẽ làm điều này với một mô hình hồi quy ở đâu medium quality
là , và & là & , tương ứng):
Lưu ý rằng không có thuật ngữ lỗi,X 1 X 2 Y = β 0 + β 1 X 1 + β 2 X 2 ε β 0 = 1 β 1 = - 1 β 2 = - 1 X 1 = 1 β 0 1Ybad quality
high quality
X1X2
Y= β0+ β1X1+ β2X2
ε, được chỉ định, bởi vì chúng ta có thể dự đoán điều này một cách hoàn hảo. Để làm như vậy, chúng tôi đặt , và . Bây giờ, khi bạn có , thì , sẽ hủy ( ) và để thuật ngữ đó cũng bị hủy ( ). Do đó, chúng ta còn lại một giá trị dự đoán là cho ( ), điều này hoàn toàn chính xác. Tôi sẽ để nó cho bạn để tìm ra các khả năng khác (nó luôn hoạt động, trong trường hợp của bạn).
β0=1β1=−1β2=−1bad quality
X1=1β0X 2 = 0 - 1 × 0 0 Y1+−1×1X2=0−1×00Ymedium quality
Vậy bạn nên làm gì? Khi biểu diễn một biến phân loại, chúng ta thường sử dụng mã hóa ô tham chiếu (thường được gọi là 'mã hóa giả'). Để làm điều này, chúng tôi chọn một cấp của biến phân loại của chúng tôi làm cấp độ tham chiếu; mức đó không nhận được mã giả của riêng nó, nhưng được biểu thị đơn giản bằng cách có tất cả trong mã giả cho tất cả các cấp khác. Các cấp độ khác của biến phân loại của bạn được thể hiện bằng mã giả giống như bạn đã làm. (Để biết thêm thông tin về điều này, bạn có thể xem câu trả lời của tôi ở đây: Hồi quy dựa trên các ngày trong tuần .) Nếu bạn đang sử dụng , bạn có thể sử dụng một và0R
factor
R
sẽ làm tất cả điều này cho bạn - nó sẽ được thực hiện một cách chính xác, và nó thuận tiện hơn nhiều - dù sao, cũng đáng để hiểu rằng đây là những gì đang xảy ra 'đằng sau hậu trường'.