Vì vậy, khi tôi giả sử rằng các thuật ngữ lỗi thường được phân phối trong hồi quy tuyến tính, điều đó có nghĩa gì với biến trả lời, ?
Vì vậy, khi tôi giả sử rằng các thuật ngữ lỗi thường được phân phối trong hồi quy tuyến tính, điều đó có nghĩa gì với biến trả lời, ?
Câu trả lời:
Có lẽ tôi tắt nhưng tôi nghĩ chúng ta nên tự hỏi về , đó là cách tôi đọc OP. Trong trường hợp đơn giản nhất của hồi quy tuyến tính nếu mô hình của bạn là thì thành phần ngẫu nhiên duy nhất trong mô hình của bạn là thuật ngữ lỗi. Do đó, nó xác định phân phối lấy mẫu của . Nếu thì . Tuy nhiên, những gì @Aniko nói chắc chắn đúng với (nhỉnh hơn ). Vì vậy, khi nó đứng câu hỏi là hơi mơ hồ.
Câu trả lời ngắn gọn là bạn không thể kết luận bất cứ điều gì về phân phối của , bởi vì nó phụ thuộc vào sự phân phối của và sức mạnh và hình dạng của mối quan hệ. Chính thức hơn, sẽ có một phân phối "hỗn hợp quy tắc", trong thực tế có thể là khá nhiều thứ.
Dưới đây là hai ví dụ cực đoan để minh họa điều này:
Trong thực tế, vì mọi phân phối có thể được xấp xỉ tùy ý tốt với hỗn hợp các quy tắc, bạn thực sự có thể nhận được bất kỳ phân phối nào cho .
Chúng tôi phát minh ra thuật ngữ lỗi bằng cách áp đặt một mô hình hư cấu trên dữ liệu thực; phân phối của thuật ngữ lỗi không ảnh hưởng đến phân phối của phản ứng.
Chúng ta thường cho rằng lỗi được phân phối bình thường và do đó cố gắng xây dựng mô hình sao cho phần dư ước tính của chúng ta được phân phối bình thường. Điều này có thể khó khăn cho một số phân phối của . Trong những trường hợp này, tôi cho rằng bạn có thể nói rằng việc phân phối phản hồi ảnh hưởng đến thuật ngữ lỗi.
Nếu bạn viết phản hồi dưới dạng Trong đó m là "mô hình" (dự đoán cho y ) và e là "lỗi", thì điều này có thể được sắp xếp lại để chỉ ra y - m = e . Vì vậy, việc chỉ định phân phối cho các lỗi cũng giống như chỉ ra các cách mà mô hình của bạn chưa hoàn thành. Nói một cách khác là nó chỉ ra mức độ bạn không biết tại sao phản hồi quan sát được là giá trị thực sự và không phải là những gì mô hình dự đoán. Nếu bạn biết mô hình của mình là hoàn hảo, thì bạn sẽ chỉ định phân phối xác suất với tất cả khối lượng của nó bằng 0 cho các lỗi. Chỉ định một N (
Theo một nghĩa nào đó, phân phối lỗi được liên kết chặt chẽ hơn với mô hình hơn là phản hồi. Điều này có thể được nhìn thấy từ tính không xác định của phương trình trên, vì nếu cả hai và e không xác định thì thêm một vectơ tùy ý vào m và trừ nó khỏi e dẫn đến cùng một giá trị của y , y = m + e = ( m + b ) + ( e - b ) = m ' + e '. Việc gán phân phối lỗi và phương trình mô hình về cơ bản cho biết các vectơ tùy ý nào hợp lý hơn các vectơ khác.