Tại sao các phương pháp hồi quy tối thiểu và bình phương tối thiểu không tương đương khi các lỗi không được phân phối bình thường?


11

Tiêu đề nói lên tất cả. Tôi hiểu rằng Least-Squares và Maximum-Likabilities sẽ cho kết quả tương tự đối với các hệ số hồi quy nếu các lỗi của mô hình thường được phân phối. Nhưng, điều gì xảy ra nếu các lỗi không được phân phối bình thường? Tại sao hai phương pháp không còn tương đương?


Bạn có nghĩa là (a) sử dụng MLE khi giả định về tính quy tắc không được đáp ứng, hoặc (b) sử dụng hàm khả năng không phải Gaussian?
Tim

(a), khi giả định về tính quy tắc không được đáp ứng
Shuklaswag

Ngay cả khi giả định không được đáp ứng (nghĩa là các giá trị quan sát không được phân phối theo Gaussian) ... nếu bạn tính toán MLE với việc sử dụng hàm khả năng Gaussian thì bạn cũng thực hiện tương tự như tối ưu hóa bình phương tối thiểu. Các phương pháp tối ưu hóa tương đương về mặt toán học và không phụ thuộc vào việc giả định tính chuẩn có đúng hay không.
Sextus Empiricus

Ngay cả với các phân phối bình thường, bình phương nhỏ nhất áp đặt phương sai cố định.
CodeInChaos

Câu trả lời:


16

Câu trả lời ngắn

Mật độ xác suất của biến phân phối Gaussian đa biến , với trung bình có liên quan đến bình phương của euclide khoảng cách giữa giá trị trung bình và biến ( ), hay nói cách khác là tổng bình phương.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Câu trả lời dài

Nếu bạn nhân nhiều phân phối Gaussian cho lỗi của bạn , trong đó bạn giả sử độ lệch bằng nhau, thì bạn sẽ có được một tổng bình phương.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

hoặc ở dạng logarit thuận tiện:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Vì vậy, tối ưu hóa để giảm thiểu tổng bình phương bằng với tối đa hóa khả năng (log) (nghĩa là sản phẩm của nhiều phân phối Gaussian hoặc phân phối Gaussian đa biến).μ

Đây là hình vuông lồng nhau của sự khác biệt bên trong cấu trúc hàm mũ, , điều mà các bản phân phối khác không có.(μx)exp[(xiμ)2]


So sánh ví dụ với trường hợp phân phối Poisson

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

có tối đa khi tối thiểu hóa những điều sau đây:

μjlog(μj)xij

đó là một con thú khác nhau


Ngoài ra (lịch sử)

Lịch sử của phân phối bình thường (bỏ qua deMoivre đến phân phối này như là một xấp xỉ cho phân phối nhị thức) thực sự là khám phá phân phối làm cho MLE tương ứng với phương pháp bình phương nhỏ nhất (chứ không phải là phương pháp bình phương nhỏ nhất là phương pháp có thể biểu thị MLE của phân phối chuẩn, đầu tiên là phương pháp bình phương nhỏ nhất, thứ hai là phân phối Gaussian)

Lưu ý rằng Gauss, kết nối 'phương pháp khả năng tối đa' với 'phương pháp bình phương tối thiểu', đã đưa ra 'phân phối Gaussian', , là phân phối lỗi duy nhất dẫn chúng ta đến tạo kết nối này giữa hai phương thứcex2

Từ bản dịch của Charles Henry Davis (Lý thuyết về chuyển động của các thiên thể di chuyển về mặt trời trong các phần hình nón. Bản dịch của "Theoria motus" của Gauss, với một phụ lục) ...

Gauss định nghĩa:

Theo đó, xác suất được chỉ định cho từng lỗi sẽ được biểu thị bằng hàm mà chúng ta sẽ biểu thị bằng .ΔΔψΔ

(Việc in nghiêng do tôi thực hiện)

Và tiếp tục ( trong phần 177 trang 258 ):

... từ đó có thể dễ dàng suy ra rằng phải là một số lượng không đổi. mà chúng ta sẽ biểu thị bằng . Do đó, chúng tôi có biểu thị cơ sở của logarit hyperbol bằng và giả sửψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

kết thúc (sau khi bình thường hóa và nhận ra ) trongk<0

ψΔ=hπehhΔΔ


Viết bởi StackExchangeStrike


Bạn có nhớ nơi bạn có kiến ​​thức này từ đâu? Bạn có phiền khi thêm nguồn vào bài viết của mình không? (Tôi đang gặp khó khăn khi tìm một cuốn sách giáo khoa giải thích điều này tốt.)
Joooeey

@Joooeey Tôi đã thêm tiêu đề của nguồn cho các trích dẫn được dịch của Gauss cũng như liên kết đến một trong nhiều nguồn trực tuyến. Văn bản gốc này nặng, nhưng bạn sẽ gặp các hiệp ước nhẹ hơn trong bất kỳ mô tả nào về lịch sử phân phối bình thường.
Sextus Empiricus

Các chức năng khả năng đang xuất hiện ở nhiều nơi. Nếu bạn tìm kiếm các nguồn mà tôi có được 'kiến thức' này thì tôi đoán tôi có thể nói bài viết năm 1900 của Pearson về bài kiểm tra chi bình phương trong đó phân phối bình thường đa biến được xử lý hình học. Ngoài ra, Fisher đã sử dụng các biểu diễn hình học nhiều lần (ví dụ như bài viết này trong những năm 20, về hiệu quả của các ước tính, trong đó ông so sánh sai số bình phương trung bình và sai số tuyệt đối và nói về bề mặt trong một không gian siêu âm).
Sextus Empiricus

@Joooeey Tôi đã tham khảo bài viết đó của Fisher trước đây . Và câu trả lời của tôi ở đây sử dụng một quan điểm hình học để rút ra một đặc tính của phân phối t cũng liên quan đến Fisher (tôi tin rằng bài báo mà ông chứng minh phân phối t của Gosset hoặc có thể một số bài báo hơi muộn hơn).
Sextus Empiricus

5

Bởi vì MLE có nguồn gốc từ giả định phân phối dư thường.

Lưu ý rằng

minβ  Xβy2

không có ý nghĩa xác suất : chỉ cần tìm ra giảm thiểu hàm tổn thất bình. Tất cả mọi thứ là xác định, và không có thành phần ngẫu nhiên trong đó.β

Trường hợp khái niệm xác suất và khả năng đến, chúng ta giả sử

y=Xβ+ϵ

Trong đó chúng tôi đang xem xét như một biến ngẫu nhiên và thường được phân phối.εyϵ


@Matthew Drury tại sao thay đổi ký hiệu ma trận và thêm dấu tổng?
Haitao Du

Tôi cho rằng nó sẽ rõ ràng, nhưng nếu bạn cho rằng một tuyên bố không có ý nghĩa chính thống, bạn không thể sử dụng một biểu thức với các ký hiệu được diễn giải tốt nhất là các biến ngẫu nhiên. Vấn đề tối ưu hóa mà bạn đang đề cập có liên quan đến dữ liệu cố định, tôi đã nói rõ điều đó.
Matthew Drury

5

Bình phương nhỏ nhất và khả năng phù hợp tối đa (gaussian) luôn luôn tương đương. Đó là, chúng được tối thiểu hóa bởi cùng một hệ số.

Thay đổi giả định về các lỗi sẽ thay đổi hàm khả năng của bạn (tối đa hóa khả năng của một mô hình tương đương với tối đa hóa khả năng của thuật ngữ lỗi), và do đó hàm sẽ không còn được tối thiểu hóa bởi cùng một hệ số.

Vì vậy, trong thực tế hai cái này giống nhau, nhưng về lý thuyết, khi bạn tối đa hóa một khả năng khác nhau, bạn sẽ nhận được một câu trả lời khác với Least-squares


"Hay luôn luôn tương đương"?
nbro

0

Một ví dụ cụ thể: Giả sử chúng ta lấy hàm lỗi đơn giản p (1) =. 9, p (-9) = .10. Nếu chúng tôi lấy hai điểm, thì LS sẽ chỉ đi qua đường đó. ML, mặt khác, sẽ giả định rằng cả hai điểm là một đơn vị quá cao, và do đó sẽ đưa dòng qua các điểm được chuyển xuống trên đơn vị.


2
Ví dụ của bạn không rõ ràng; đặc biệt, thật khó để xem mô hình nào bạn đang cố gắng mô tả hoặc tại sao ML sẽ tạo ra kết quả mà bạn yêu cầu. Bạn có thể giải thích thêm trong câu trả lời này?
whuber

Mô hình là lỗi y = mx + b +, trong đó lỗi có 90% cơ hội là +1 và 10% cơ hội là -9. Với bất kỳ điểm quan sát nào, điểm thực sự có 90% khả năng là một đơn vị dưới đây và 10% khả năng là chín đơn vị ở trên. Do đó, ML cho rằng điểm thực sự là một đơn vị dưới đây. Bạn không hiểu gì về điều này?
Tích lũy

2
Nhận xét của bạn rất hữu ích, nhưng câu trả lời của bạn vẫn không mô tả mô hình theo bất kỳ cách rõ ràng hoặc dễ hiểu nào. Bạn có thể kết hợp lời giải thích đó trong câu trả lời không? Đó là một ví dụ hay.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.