Là giảm thiểu lỗi bình phương tương đương với giảm thiểu lỗi tuyệt đối? Tại sao lỗi bình phương phổ biến hơn lỗi sau?


39

Khi chúng ta tiến hành hồi quy tuyến tính để phù hợp với một loạt các điểm dữ liệu ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , phương pháp cổ điển giảm thiểu lỗi bình phương. Tôi từ lâu đã bị bối rối bởi một câu hỏi sẽ giảm thiểu lỗi bình phương mang lại kết quả tương tự như giảm thiểu lỗi tuyệt đốiy=ax+b(x1,y1),(x2,y2),...,(xn,yn)? Nếu không, tại sao giảm thiểu lỗi bình phương là tốt hơn? Có lý do nào khác ngoài "hàm mục tiêu là khác biệt" không?

Lỗi bình phương cũng được sử dụng rộng rãi để đánh giá hiệu suất mô hình, nhưng lỗi tuyệt đối ít phổ biến hơn. Tại sao lỗi bình phương được sử dụng phổ biến hơn lỗi tuyệt đối? Nếu việc lấy đạo hàm không liên quan, tính sai số tuyệt đối cũng dễ như tính sai số bình phương, vậy tại sao lỗi bình phương lại phổ biến như vậy ? Có bất kỳ lợi thế duy nhất có thể giải thích sự phổ biến của nó?

Cảm ơn bạn.


Luôn có một số vấn đề tối ưu hóa phía sau và bạn muốn có thể tính toán độ dốc để tìm mức tối thiểu / tối đa.
Vladislavs Dovgalecs

11
cho x ( - 1 , 1 ) x 2 > | x | nếu | x | > 1 . Do đó, lỗi bình phương xử phạt các lỗi lớn hơn lỗi tuyệt đối và tha thứ cho các lỗi nhỏ hơn lỗi tuyệt đối. Điều này phù hợp với những gì nhiều người nghĩ là một cách làm việc thích hợp. x2<|x|x(1,1)x2>|x||x|>1
Dilip Sarwate

Câu trả lời:


47

yxyx

Trong lịch sử, Laplace ban đầu coi sai số quan sát tối đa là thước đo độ chính xác của mô hình. Thay vào đó, anh sớm chuyển sang xem xét MAD . Do không thể giải quyết chính xác cả hai tình huống, anh đã sớm xem xét MSE khác biệt. Chính ông và Gauss (dường như đồng thời) rút ra các phương trình bình thường, một giải pháp dạng đóng cho vấn đề này. Ngày nay, việc giải quyết MAD tương đối dễ dàng bằng phương pháp lập trình tuyến tính. Tuy nhiên, như đã biết, lập trình tuyến tính không có giải pháp dạng đóng.

x=0

Một lý do lý thuyết nữa là, trong một môi trường bay bổng, khi giả sử các linh mục thống nhất của các tham số mô hình, MSE mang lại các lỗi phân phối bình thường, được coi là một bằng chứng về tính chính xác của phương pháp. Các nhà lý luận thích phân phối bình thường vì họ tin rằng đó là một thực tế thực nghiệm, trong khi các thí nghiệm thích nó vì họ tin rằng đó là một kết quả lý thuyết.

Một lý do cuối cùng về lý do tại sao MSE có thể có sự chấp nhận rộng rãi là vì nó dựa trên khoảng cách euclide (thực tế nó là một giải pháp của vấn đề chiếu trên không gian banach euclid) rất trực quan với thực tế hình học của chúng ta.


1
(+1) để tham khảo về Laplace!
Tây An

2
"Các nhà lý thuyết thích phân phối bình thường bởi vì họ tin rằng đó là một thực tế thực nghiệm, trong khi các thí nghiệm thích nó bởi vì họ tin rằng đó là một kết quả lý thuyết." -- Tôi thích nó. Nhưng không phải cũng có các ứng dụng vật lý trực tiếp cho phân phối Gaussian sao? Và cũng có những thứ về phân phối entropy tối đa
Shadowtalker

8
@ssdecontrol Tôi nghĩ rằng epigram là do Henri Poincaré hơn một trăm năm trước. Tout le monde y croit cepunt, me disait un jour M. Lippmann, car les expérimentateurs s'imagacular que c'est un théorème de mathématiques, et les mathématiciens que c'est un fait expérimental. "Mọi người đều chắc chắn về điều này [rằng các lỗi thường được phân phối], ông Lippman nói với tôi một ngày, vì các nhà thực nghiệm tin rằng đó là một định lý toán học, và các nhà toán học cho rằng đó là một thực tế được xác định bằng thực nghiệm." từ Tính toán des probabilités (tái bản lần 2, 1912), tr. 171
Dilip Sarwate

1
Đây là một câu trả lời toán học. Nếu chúng ta có một ma trận dữ liệu gồm các biến độc lập X và ma trận cột Y, thì nếu có ma trận b với thuộc tính Xb = Y, chúng ta có một soln. Thông thường chúng tôi không thể và chúng tôi muốn b là 'gần nhất' với một giải pháp chính xác. Như toán học, điều này là 'dễ dàng' để giải quyết. Đó là hình chiếu của Y lên không gian cột của X. Các khái niệm về hình chiếu và vuông góc, v.v., phụ thuộc vào số liệu. Số liệu Euclide L2 thông thường là những gì chúng ta đã quen và nó cho các bình phương nhỏ nhất. Thuộc tính tối thiểu của mse là sự phục hồi của thực tế là chúng ta có phép chiếu.
aginensky

1
Tôi nghĩ rằng sự bất đồng ưu tiên là giữa Gauss và Legendre, với Legendre trước Gauss trong xuất bản, nhưng Gauss trước Legendre trong thư tín không chính thức. Tôi cũng (mơ hồ) biết rằng bằng chứng của Laplace được coi là vượt trội. Bất kỳ tài liệu tham khảo về những?
PatrickT

31

Như một lời giải thích khác, hãy xem xét trực giác sau:

Khi giảm thiểu lỗi, chúng tôi phải quyết định cách xử phạt những lỗi này. Thật vậy, cách tiếp cận đơn giản nhất để xử phạt lỗi sẽ là sử dụng linearly proportionalchức năng xử phạt. Với hàm như vậy, mỗi độ lệch so với giá trị trung bình được đưa ra một lỗi tương ứng tỷ lệ. Do đó, hai lần so với giá trị trung bình sẽ dẫn đến hình phạt gấp đôi .

Cách tiếp cận phổ biến hơn là xem xét squared proportionalmối quan hệ giữa độ lệch so với giá trị trung bình và hình phạt tương ứng. Điều này sẽ đảm bảo rằng bạn càng xa trung bình, bạn sẽ càng bị phạt theo tỷ lệ tương ứng . Sử dụng chức năng hình phạt này, các ngoại lệ (cách xa giá trị trung bình) được coi là có nhiều thông tin hơn so với các quan sát gần giá trị trung bình.

Để hình dung về điều này, bạn chỉ cần vẽ các hàm hình phạt:

So sánh các chức năng phạt MAD và MSE

Bây giờ đặc biệt khi xem xét ước tính hồi quy (ví dụ OLS), các hàm hình phạt khác nhau sẽ mang lại kết quả khác nhau. Sử dụng linearly proportionalchức năng phạt, hồi quy sẽ gán trọng số ít hơn cho các ngoại lệ so với khi sử dụng squared proportionalchức năng phạt. Do đó, Độ lệch tuyệt đối trung bình (MAD) được biết đến là một công cụ ước tính mạnh mẽ hơn . Do đó, nói chung, đó là trường hợp một công cụ ước tính mạnh mẽ phù hợp với hầu hết các điểm dữ liệu nhưng 'bỏ qua' các ngoại lệ. Một hình vuông nhỏ nhất phù hợp, so sánh, được kéo nhiều hơn về phía ngoại lệ. Đây là một hình ảnh để so sánh:

So sánh OLS với một công cụ ước tính mạnh mẽ

Bây giờ, mặc dù OLS có khá nhiều tiêu chuẩn, các chức năng phạt khác nhau chắc chắn cũng được sử dụng. Ví dụ, bạn có thể xem chức năng mạnh mẽ của Matlab cho phép bạn chọn một hình phạt khác (còn gọi là hàm 'trọng số') cho hồi quy của bạn. Các chức năng hình phạt bao gồm andrews, bisapes, cauchy, fair, huber, logistic, ols, Talwar và welsch. Biểu thức tương ứng của họ có thể được tìm thấy trên trang web là tốt.

Tôi hy vọng điều đó sẽ giúp bạn có thêm một chút trực giác cho các chức năng phạt :)

Cập nhật

Nếu bạn có Matlab, tôi có thể giới thiệu chơi với Matlab của robustdemo , được xây dựng đặc biệt cho việc so sánh bình phương nhỏ nhất thông thường để hồi quy mạnh mẽ:

mạnh mẽ

Bản demo cho phép bạn kéo các điểm riêng lẻ và ngay lập tức thấy tác động lên cả bình phương nhỏ nhất và hồi quy mạnh mẽ (hoàn hảo cho mục đích giảng dạy!).


3

Như một câu trả lời khác đã giải thích, giảm thiểu lỗi bình phương không giống như giảm thiểu lỗi tuyệt đối.

Lý do giảm thiểu lỗi bình phương được ưa thích là vì nó ngăn ngừa các lỗi lớn tốt hơn.

Giả sử bộ phận biên chế của nhân viên của bạn vô tình trả cho mỗi người trong tổng số mười nhân viên ít hơn $ 50 so với yêu cầu. Đó là một lỗi tuyệt đối 500 đô la . Đó cũng là một lỗi tuyệt đối 500 đô la nếu bộ phận chỉ trả cho một nhân viên ít hơn 500 đô la . Nhưng nó liên quan đến lỗi bình phương, đó là 25000 so với 250000.

Không phải lúc nào cũng tốt hơn để sử dụng lỗi bình phương. Nếu bạn có một tập dữ liệu cực kỳ ngoại lệ do lỗi thu thập dữ liệu, việc giảm thiểu lỗi bình phương sẽ kéo sự phù hợp về phía cực kỳ nhiều hơn nhiều so với giảm thiểu lỗi tuyệt đối. Điều đó đang được nói, tốt hơn hết là sử dụng lỗi bình phương.


4
Lý do giảm thiểu lỗi bình phương được ưa thích là vì nó ngăn ngừa các lỗi lớn tốt hơn. - vậy thì tại sao không lập phương?
Daniel Earwicker

@DanielEarwicker Cubed mắc lỗi sai hướng trừ. Vì vậy, nó sẽ phải là lỗi khối tuyệt đối, hoặc dính vào các quyền hạn. Không có lý do thực sự "tốt" nào mà bình phương được sử dụng thay vì các quyền hạn cao hơn (hoặc, thực sự, các hàm hình phạt không đa thức). Nó chỉ dễ tính toán, dễ thu nhỏ và thực hiện công việc.
Atsby

1
Tất nhiên tôi nên nói bất kỳ quyền lực cao hơn! :)
Daniel Earwicker

Điều này không có upvote (tại thời điểm này) nhưng không phải điều này nói giống như câu trả lời rằng (hiện tại) có 15 phiếu (tức là các ngoại lệ có hiệu lực hơn)? Đây có phải là không nhận được phiếu bầu vì nó sai, hoặc vì nó bỏ lỡ một số thông tin quan trọng? Hay bởi vì nó không có đồ thị đẹp? ;-)
Darren Cook

@DarrenCook Tôi nghi ngờ cách tiếp cận "hiện đại" đối với các số liệu thống kê thích MAD hơn OLS và cho rằng lỗi bình phương là "thường" tốt hơn mang lại cho tôi một số nhược điểm.
Atsby

2

Về lý thuyết bạn có thể sử dụng bất kỳ loại chức năng mất. Các hàm mất tuyệt đối và bình phương chỉ là các hàm mất phổ biến nhất và trực quan nhất. Theo mục wikipedia này ,

Một ví dụ phổ biến liên quan đến việc ước tính "vị trí." Theo các giả định thống kê điển hình, giá trị trung bình hoặc trung bình là số liệu thống kê để ước tính vị trí giảm thiểu tổn thất dự kiến ​​xảy ra theo hàm mất bình phương, trong khi trung vị là công cụ ước tính giảm thiểu tổn thất dự kiến ​​xảy ra theo hàm mất chênh lệch tuyệt đối. Các ước tính khác nhau sẽ là tối ưu trong các trường hợp khác, ít phổ biến hơn.

Như đã giải thích trong mục wikipedia, việc lựa chọn các hàm mất phụ thuộc vào cách bạn đánh giá độ lệch khỏi đối tượng được nhắm mục tiêu của bạn. Nếu tất cả các sai lệch đều tệ như nhau đối với bạn bất kể dấu hiệu của chúng là gì, thì bạn có thể sử dụng hàm mất tuyệt đối. Nếu độ lệch trở nên tồi tệ hơn đối với bạn thì bạn càng ở xa mức tối ưu và bạn không quan tâm đến việc độ lệch là dương hay âm, thì hàm mất bình phương là lựa chọn dễ dàng nhất của bạn. Nhưng nếu không có định nghĩa nào về mất mát phù hợp với vấn đề của bạn, vì ví dụ độ lệch nhỏ sẽ tệ hơn đối với bạn so với độ lệch lớn, thì bạn có thể chọn một hàm mất khác và cố gắng giải quyết vấn đề giảm thiểu. Tuy nhiên, các thuộc tính thống kê của giải pháp của bạn có thể khó đánh giá.


Một chi tiết nhỏ: "Nếu tất cả các độ lệch đều tệ như nhau đối với bạn cho dù dấu hiệu của chúng là gì ..": Hàm MAD xử phạt các lỗi theo tỷ lệ tuyến tính. Do đó, các lỗi không phải là "xấu như nhau" mà là "xấu theo tỷ lệ" vì hai lần lỗi sẽ bị phạt gấp đôi.
Jean-Paul

@ Jean-Paul: Bạn nói đúng. Tôi có nghĩa là nó theo cách đó. Điều tôi muốn nói với "tệ không kém" là độ dốc của MAD không đổi trong khi độ dốc cho MSE tăng tuyến tính với lỗi. Do đó, nếu sự khác biệt giữa hai lỗi là không đổi cho dù bạn có ở mức tối ưu bao xa, trong khi điều tương tự không đúng với MSE. Tôi hy vọng, điều đó làm cho nó dễ hiểu hơn một chút những gì tôi muốn nói.
kristjan

-1

Câu trả lời ngắn

  1. không
  2. giá trị trung bình có các thuộc tính thống kê thú vị hơn trung vị

10
Sẽ thật tuyệt nếu bạn có thể đủ điều kiện "các thuộc tính thống kê thú vị hơn".
Momo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.