Tại sao giả định Normality trong hồi quy tuyến tính

14

Câu hỏi của tôi rất đơn giản: tại sao chúng ta chọn bình thường là phân phối mà thuật ngữ lỗi xảy ra trong giả định hồi quy tuyến tính? Tại sao chúng ta không chọn những người khác như đồng phục, t hoặc bất cứ điều gì?

— Thầy Shi
nguồn

5

Chúng tôi không chọn giả định bình thường. Nó chỉ xảy ra trong trường hợp khi lỗi là bình thường, các hệ số mô hình chính xác tuân theo phân phối chuẩn và kiểm tra F chính xác có thể được sử dụng để kiểm tra các giả thuyết về chúng.

— AdamO

10

Bởi vì toán học hoạt động đủ dễ dàng để mọi người có thể sử dụng nó trước các máy tính hiện đại.

— Nat

1

@AdamO Tôi không hiểu; bạn chỉ nêu ra những lý do tại sao chúng tôi chọn nó.

— JiK

2

@JiK nếu tôi có thể chọn phân phối, sẽ không cần thống kê gì cả. Cả thế giới sẽ có xác suất.

— AdamO

1

@AdamO Bạn có thể chọn các giả định cho mô hình của mình khi bạn thực hiện suy luận thống kê, vì vậy tôi không nghĩ điều đó có nghĩa là không có số liệu thống kê.

— JiK

29

Chúng tôi chọn phân phối lỗi khác. Trong nhiều trường hợp bạn có thể làm như vậy khá dễ dàng; nếu bạn đang sử dụng ước tính khả năng tối đa, điều này sẽ thay đổi chức năng mất. Điều này chắc chắn được thực hiện trong thực tế.

Laplace (lỗi số mũ đôi) tương ứng với hồi quy độ lệch tuyệt đối nhỏ nhất / hồi quy $L_1$ (mà nhiều bài đăng trên trang web thảo luận). Các áp lực có lỗi t đôi khi được sử dụng (trong một số trường hợp vì chúng mạnh hơn so với lỗi thô), mặc dù chúng có thể có nhược điểm - khả năng (và do đó là tiêu cực của tổn thất) có thể có nhiều chế độ.

Lỗi đồng phục tương ứng với một $L_\infty$ mất (giảm thiểu độ lệch tối đa); hồi quy như vậy đôi khi được gọi là xấp xỉ Ch Quashev (mặc dù hãy cẩn thận, vì có một thứ khác có cùng tên). Một lần nữa, điều này đôi khi được thực hiện (thực sự đối với hồi quy đơn giản và các tập dữ liệu nhỏ với các lỗi bị ràng buộc với mức độ lây lan liên tục thường dễ dàng tìm thấy bằng tay, trực tiếp trên một âm mưu, mặc dù trong thực tế, bạn có thể sử dụng các phương pháp lập trình tuyến tính hoặc các thuật toán khác ; thực sự, các vấn đề hồi quy $L_\infty$ và $L_1$ là đối ngẫu của nhau, điều này có thể dẫn đến các phím tắt đôi khi thuận tiện cho một số vấn đề).

Trên thực tế, đây là một ví dụ về mô hình "lỗi thống nhất" được trang bị cho dữ liệu bằng tay:

Thật dễ dàng để xác định (bằng cách trượt một đường thẳng về phía dữ liệu) rằng bốn điểm được đánh dấu là những ứng cử viên duy nhất để ở trong nhóm hoạt động; ba trong số chúng thực sự sẽ tạo thành tập hợp hoạt động (và kiểm tra một chút sẽ sớm xác định ba phần nào dẫn đến dải hẹp nhất bao gồm tất cả dữ liệu). Dòng ở trung tâm của dải đó (được đánh dấu màu đỏ) sau đó là ước tính khả năng tối đa của dòng.

Nhiều lựa chọn khác về mô hình là có thể và khá nhiều đã được sử dụng trong thực tế.

Lưu ý rằng nếu bạn có các lỗi cộng gộp, độc lập, lan truyền liên tục với mật độ có dạng $k\,\exp(-c.g(\varepsilon))$ , tối đa hóa khả năng sẽ tương ứng với việc giảm thiểu $\sum_i g(e_i)$ , nơi $e_i$ là $i$ phần dư thứ .

Tuy nhiên, có nhiều lý do mà hình vuông nhỏ nhất là một lựa chọn phổ biến, nhiều trong số đó không yêu cầu bất kỳ giả định nào về tính quy tắc.

— Glen_b -Reinstate Monica
nguồn

2

Câu trả lời chính xác. Bạn có phiền khi thêm một số liên kết cung cấp thêm chi tiết về cách các biến thể này được sử dụng trong thực tế không?

— rgk

(+1) Câu trả lời tuyệt vời. Bạn có phiền khi chia sẻ mã R được sử dụng để khớp dòng

-Regression không?

L_{\infty}

$L_{\infty}$

— COOLSerdash

1

Như tôi đã giải thích trong văn bản, tôi đã trang bị nó bằng tay, theo cách rất giống với cách tiếp cận mà tôi đã mô tả. Mặc dù có thể thực hiện đủ dễ dàng bằng cách sử dụng mã, tôi thực sự đã mở cốt truyện trong MS Paint và xác định ba điểm trong tập hợp hoạt động (nối hai trong số đó tạo độ dốc) - và sau đó di chuyển nửa đường về điểm thứ ba (bằng cách giảm một nửa khoảng cách theo chiều dọc tính bằng pixel và di chuyển dòng lên nhiều pixel) - điểm cần thể hiện khá đơn giản là điều này có thể đơn giản như thế nào. Một đứa trẻ có thể được dạy để làm điều đó.

— Glen_b -Reinstate Monica

@Glen_b Thật vậy, tôi là một thiếu niên khi tôi được dạy làm chính xác điều đó trong phòng thí nghiệm vật lý năm nhất.

— Peter Leopold

9

Giả định bình thường / Gaussian thường được sử dụng vì đây là lựa chọn thuận tiện nhất về mặt tính toán. Tính toán ước tính khả năng tối đa của các hệ số hồi quy là một vấn đề tối thiểu hóa bậc hai, có thể được giải quyết bằng cách sử dụng đại số tuyến tính thuần túy. Các lựa chọn phân phối tiếng ồn khác mang lại các vấn đề tối ưu hóa phức tạp hơn thường phải giải quyết bằng số. Đặc biệt, vấn đề có thể là không lồi, mang lại các biến chứng bổ sung.

Bình thường không nhất thiết là một giả định tốt nói chung. Phân phối bình thường có đuôi rất nhẹ và điều này làm cho ước tính hồi quy khá nhạy cảm với các ngoại lệ. Các lựa chọn thay thế như phân phối Laplace hoặc Student t thường vượt trội hơn nếu dữ liệu đo có chứa các ngoại lệ.

Xem cuốn sách bán kết mạnh mẽ của Peter Huber để biết thêm thông tin.

— Martin L
nguồn

2

Khi làm việc với những giả thuyết đó, hồi quy dựa trên bình phương và khả năng tối đa cung cấp cho bạn cùng một giải pháp. Bạn cũng có khả năng nhận được các bài kiểm tra F đơn giản về tầm quan trọng của hệ số, cũng như khoảng tin cậy cho dự đoán của bạn.

Tóm lại, lý do tại sao chúng ta thường chọn phân phối bình thường là các thuộc tính của nó, điều này thường làm cho mọi thứ trở nên dễ dàng. Đây cũng không phải là một giả định rất hạn chế, vì nhiều loại dữ liệu khác sẽ xử lý "loại thông thường"

Dù sao, như đã đề cập trong một câu trả lời trước, có khả năng xác định mô hình hồi quy cho các phân phối khác. Bình thường chỉ là một trong những thường xuyên nhất

— David
nguồn

2

Glen_b đã giải thích độc đáo mà OLS hồi quy có thể được khái quát hóa (tối đa hóa khả năng thay vì giảm thiểu tổng bình phương) và chúng tôi làm chọn bản phân phối khác.

Tuy nhiên, tại sao phân phối bình thường được chọn thường xuyên như vậy ?

Lý do là sự phân phối bình thường xảy ra ở nhiều nơi một cách tự nhiên. Nó hơi giống như chúng ta thường thấy tỷ lệ vàng hoặc các số Fibonacci xảy ra "một cách tự nhiên" ở nhiều nơi khác nhau trong tự nhiên.

Phân phối bình thường là phân phối giới hạn cho tổng các biến có phương sai hữu hạn (hoặc hạn chế ít nghiêm ngặt hơn là có thể). Và, không có giới hạn, nó cũng là một xấp xỉ tốt cho tổng số lượng biến hữu hạn. Vì vậy, bởi vì nhiều lỗi được quan sát xảy ra như một tổng của nhiều lỗi nhỏ không quan sát được, phân phối chuẩn là một xấp xỉ tốt.

Xem thêm ở đây Tầm quan trọng của phân phối bình thường

nơi máy đậu của Galton thể hiện nguyên tắc bằng trực giác

— Sextus Empiricus
nguồn

-1

Tại sao chúng ta không chọn các bản phân phối khác?

$y_i \in \mathbb R$ $x_i \in \mathbb R^n$ $x_i$

{\hat{y}}_{i} = w^{⊺} x_{i} .

$\hat y_i = w^\intercal x_i.$

Mất mát đáng kinh ngạc thường là mất mát hợp lý nhất:

L = - \log P (y_{i} ∣ x_{i}) .

$L = -\log P(y_i \mid x_i).$

Bạn có thể nghĩ về hồi quy tuyến tính khi sử dụng mật độ bình thường với phương sai cố định trong phương trình trên:

L = - \log P (y_{i} ∣ x_{i}) \propto (y_{i} - {\hat{y}}_{i})^{2} .

$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$

Điều này dẫn đến việc cập nhật trọng lượng:

\nabla_{w} L = ({\hat{y}}_{i} - y_{i}) x_{i}

$\nabla_w L = (\hat y_i - y_i)x_i$

Nói chung, nếu bạn sử dụng phân phối gia đình theo cấp số nhân khác, mô hình này được gọi là mô hình tuyến tính tổng quát . Phân phối khác nhau tương ứng với một mật độ khác nhau, nhưng nó có thể được chính thức hóa dễ dàng hơn bằng cách thay đổi dự đoán, trọng lượng và mục tiêu.

$W \in \mathbb R^{n\times k}$

{\hat{u}}_{i} ≜ \nabla g (W x_{i})

$\hat u_i \triangleq \nabla g(W x_i)$

$\nabla g: \mathbb R^k \to \mathbb R^k$ $y_i$ $u_i = T(y_i) \in \mathbb R^k$

$\eta$

f (z) = h (z) \exp (η^{⊺} T (z) - g (η)) .

$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$

$\eta$ $w^\intercal x_i$ $z = y_i$

\begin{aligned} \nabla_{W} L & = \nabla_{W} - \log f (x) \\ = (\nabla g (W x_{i})) x_{i}^{⊺} - T (y_{i}) x_{i}^{⊺} \\ = ({\hat{u}}_{i} - u_{i}) x_{i}^{⊺} \end{aligned},

$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$ which has the same nice form as linear regression.

As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.

— Neil G
nguồn

This is very short and too cryptic for our standards, please also explain surprisal.

— kjetil b halvorsen

1

"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.

— Sextus Empiricus

1

The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation $f$ and a normalizing transformation $g$ " I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.

— Sextus Empiricus

1

Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.

— Sextus Empiricus

1

@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy

— kjetil b halvorsen