Tại sao hồi quy về phương sai?

Tôi đang đọc ghi chú này .

Trên trang 2, nó ghi:

"Bao nhiêu phương sai trong dữ liệu được giải thích bằng mô hình hồi quy đã cho?"

"Giải thích hồi quy là về giá trị trung bình của các hệ số; suy luận là về phương sai của chúng."

Tôi đã đọc về các tuyên bố như vậy nhiều lần, tại sao chúng ta lại quan tâm đến "mức độ chênh lệch trong dữ liệu được giải thích theo mô hình hồi quy đã cho?" ... cụ thể hơn, tại sao "phương sai"?

regression variance interpretation

— ánh trăng
nguồn

"[V] ariance" trái ngược với những gì, độ lệch chuẩn? Bạn nghĩ chúng ta nên quan tâm đến điều gì trong hồi quy? Mục tiêu tiêu biểu của bạn trong việc xây dựng mô hình hồi quy là gì?

— gung - Phục hồi Monica

Phương sai có các đơn vị khác với số lượng được mô hình hóa, vì vậy tôi luôn cảm thấy khó diễn giải "tỷ lệ phương sai được giải thích bởi mô hình".

— bay

Câu trả lời:

tại sao chúng ta quan tâm đến "bao nhiêu phương sai trong dữ liệu được giải thích bằng mô hình hồi quy đã cho?"

Để trả lời điều này, thật hữu ích khi nghĩ về chính xác ý nghĩa của một tỷ lệ phần trăm nhất định của phương sai được giải thích bằng mô hình hồi quy.

Cho là biến kết quả. Phương sai mẫu thông thường của biến phụ thuộc trong mô hình hồi quy là $Y_{1}, ..., Y_{n}$ Bây giờ hãylà dự đoán củadựa trên một hình vuông ít nhất tuyến tính mô hình hồi quy với các giá trị dự đoán. Như đã được chứng minhở đây, phương sai này ở trên có thể được phân vùng thành:

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2$

{\hat{Y}}_{i} \equiv \hat{f} (X_{i})

$\widehat{Y}_i \equiv \widehat{f}({\boldsymbol X}_i)$

Y_{i}

$Y_i$

X_{i}

${\boldsymbol X}_i$

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \underset{r e s i d u a l v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2}}} + \underset{e x p l a i n e d v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}}}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 = \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \widehat{Y}_i)^2}_{{\rm residual \ variance}} + \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (\widehat{Y}_i - \overline{Y})^2}_{{\rm explained \ variance}}$

Trong hồi quy bình phương tối thiểu, trung bình của các giá trị dự đoán là , do đó tổng phương sai bằng với chênh lệch bình phương trung bình giữa các giá trị được quan sát và giá trị dự đoán (phương sai dư) cộng với phương sai mẫu của chính các dự đoán (được giải thích phương sai), chỉ là một chức năng của s . Do đó, phương sai "được giải thích" có thể được coi là phương sai trong có thể quy cho biến thể trong . Tỷ lệ phương sai trong được "giải thích" (nghĩa là tỷ lệ biến thể trong có thể quy cho biến thể trong $\overline{Y}$ ${\boldsymbol X}$ $Y_i$ ${\boldsymbol X}_i$ $Y_i$ $Y_i$ ${\boldsymbol X}_i$ ) đôi khi được gọi là . $R^2$

Bây giờ chúng tôi sử dụng hai ví dụ cực đoan cho thấy rõ tại sao phân rã phương sai này lại quan trọng:

(1) Các dự đoán không liên quan gì đến các câu trả lời . Trong trường hợp đó, công cụ dự đoán không thiên vị tốt nhất (theo nghĩa bình phương nhỏ nhất) cho là . Do đó, tổng phương sai trong chỉ bằng với phương sai còn lại và không liên quan đến phương sai trong các yếu tố dự đoán . $Y_i$ $\widehat{Y}_i = \overline{Y}$ $Y_i$ ${\boldsymbol X}_i$
(2) Các yếu tố dự đoán có liên quan tuyến tính hoàn hảo với các yếu tố dự đoán . Trong trường hợp đó, các dự đoán hoàn toàn chính xác và . Do đó, không có phương sai dư và tất cả các phương sai trong kết quả là phương sai trong chính các dự đoán, vốn chỉ là một chức năng của các yếu tố dự đoán. Do đó, tất cả các phương sai trong kết quả chỉ đơn giản là do phương sai trong các yếu tố dự đoán . $\widehat{Y}_i = Y_i$ ${\boldsymbol X}_i$

Các tình huống với dữ liệu thực thường sẽ nằm giữa hai thái cực, cũng như tỷ lệ phương sai có thể được quy cho hai nguồn này. Càng có nhiều "phương sai được giải thích" - tức là càng có nhiều biến thể trong do biến đổi trong - dự đoán càng tốt (nghĩa là càng nhỏ "Phương sai dư" là), đó là một cách khác để nói rằng mô hình bình phương nhỏ nhất rất phù hợp. $Y_i$ ${\boldsymbol X}_i$ $\widehat{Y}_{i}$

— Vĩ mô
nguồn

Đây giống như câu trả lời của tôi nhưng có lẽ giải thích tốt hơn một chút. Ngoài ra tôi thấy một phê bình có thể có thể được đề cập là tôi nên viết biến thể liên quan đến ý nghĩa của Y.

— Michael R. Chernick

@MichaelCécick, có nhưng trong hồi quy bình phương tối thiểu (mà tôi nghĩ OP đang nói về các slide được liên kết), giá trị trung bình của các giá trị dự đoán bằng giá trị trung bình của s, vì vậy bạn chỉ có thể gọi nó là phương sai mẫu của phỏng đoán.

Y

$Y$

— Macro

Tôi đã thực hiện chỉnh sửa câu trả lời của mình vì Yb là cần thiết để phân tách phương sai hoạt động đúng.

— Michael R. Chernick

Vâng, rõ ràng với tôi rằng cô ấy đã đề cập đến hồi quy bình phương nhỏ nhất. Vẫn còn rất nhiều điều bạn viết chỉ là lặp lại những gì tôi nói hơi khác. Tôi vẫn cho bạn +1.

— Michael R. Chernick

Macro, quan điểm của tôi là sự phân tách này chỉ xảy ra nếu và do đó, "hồi quy" vốn đã liên quan đến một phép chiếu trực giao lên một không gian chứa vectơ không đổi. Lưu ý rằng chúng ta có thể dễ dàng "phá vỡ" sự phân tách này bằng cách xóa vectơ không đổi khỏi mô hình của chúng ta, điều này có vẻ mâu thuẫn với nhận xét gần đây nhất của bạn.

⟨ y - \hat{y}, \hat{y} - \bar{y} 1 ⟩ = 0

$\langle \mathbf y - \hat {\mathbf y}, \hat{\mathbf{y}} - \bar{y} \mathbf{1} \rangle = 0$

— Đức Hồng Y

Tôi không thể chạy với những con chó lớn thống kê đã trả lời trước tôi, và có lẽ suy nghĩ của tôi là ngây thơ, nhưng tôi nhìn nó theo cách này ...

Hãy tưởng tượng bạn đang ở trong một chiếc ô tô và bạn đang đi xuống đường và xoay bánh xe sang trái và phải và nhấn bàn đạp ga và phanh một cách điên cuồng. Tuy nhiên, chiếc xe đang di chuyển trơn tru, không bị ảnh hưởng bởi hành động của bạn. Bạn ngay lập tức nghi ngờ rằng bạn không ở trong một chiếc xe thật và có lẽ nếu chúng tôi nhìn kỹ, chúng tôi sẽ xác định rằng bạn đang đi xe trong Thế giới Disney. (Nếu bạn ở trong một chiếc xe thực sự, bạn sẽ gặp nguy hiểm chết người, nhưng chúng ta đừng đến đó.)

Mặt khác, nếu bạn đang lái xe trên đường và quay bánh xe chỉ hơi trái hoặc phải ngay lập tức dẫn đến xe chuyển động, nhấn phanh dẫn đến giảm tốc mạnh, trong khi nhấn bàn đạp ga ném bạn trở lại vào ghế. Bạn có thể nghi ngờ rằng bạn đang ở trong một chiếc xe thể thao hiệu suất cao.

Nói chung, bạn có thể trải nghiệm một cái gì đó giữa hai thái cực. Mức độ mà các yếu tố đầu vào của bạn (lái, phanh, ga) ảnh hưởng trực tiếp đến chuyển động của xe mang lại cho bạn manh mối về chất lượng của xe. Đó là, càng nhiều phương sai trong xe của bạn liên quan đến hành động của bạn thì xe càng tốt và xe càng di chuyển độc lập với sự kiểm soát của bạn thì xe càng tệ.

Theo cách tương tự, bạn đang nói về việc tạo mô hình cho một số dữ liệu (hãy gọi dữ liệu này là ), dựa trên một số bộ dữ liệu khác (hãy gọi chúng là ). Nếu không thay đổi, nó giống như một chiếc xe không di chuyển và có thực sự không có điểm trong thảo luận nếu xe (mô hình) hoạt động tốt hay không, vì vậy chúng tôi sẽ giả không khác nhau. $y$ $x_1, x_2, ..., x_i$ $y$ $y$

$y$ $x_i$ $x_i$ $y$ $x_i$ $y$ $x_i$ $y$

Tái bút Tôi không thể đưa ra một tương tự Winnie The Pooh, nhưng tôi đã thử.

PPS [EDIT:] Lưu ý rằng tôi đang giải quyết câu hỏi cụ thể này. Đừng nhầm lẫn rằng nếu bạn chiếm 100% phương sai thì mô hình của bạn sẽ hoạt động tuyệt vời. Bạn cũng cần phải suy nghĩ về sự phù hợp quá mức, nơi mô hình của bạn linh hoạt đến mức nó phù hợp với dữ liệu đào tạo rất chặt chẽ - bao gồm cả những điều kỳ quặc và kỳ quặc ngẫu nhiên của nó. Để sử dụng sự tương tự, bạn muốn một chiếc xe có tay lái và phanh tốt, nhưng bạn muốn nó hoạt động tốt trên đường, không chỉ trong đường thử mà bạn đang sử dụng.

— Wayne
nguồn