Tại sao chúng ta thường chọn giảm thiểu tổng lỗi vuông (SSE) khi lắp mô hình?


23

Câu hỏi rất đơn giản: tại sao, khi chúng ta cố gắng khớp một mô hình với dữ liệu của mình, tuyến tính hay phi tuyến tính, chúng ta thường cố gắng giảm thiểu tổng bình phương sai số để có được ước lượng của chúng ta cho tham số mô hình? Tại sao không chọn một số chức năng mục tiêu khác để giảm thiểu? Tôi hiểu rằng, vì lý do kỹ thuật, hàm số bậc hai đẹp hơn một số hàm khác, ví dụ: tổng độ lệch tuyệt đối. Nhưng đây vẫn chưa phải là một câu trả lời rất thuyết phục. Khác với lý do kỹ thuật này, tại sao cụ thể là những người ủng hộ 'loại Euclide' này của hàm khoảng cách? Có một ý nghĩa cụ thể hoặc giải thích cho điều đó?

Logic đằng sau suy nghĩ của tôi là như sau:

Khi bạn có một tập dữ liệu, trước tiên bạn thiết lập mô hình của mình bằng cách tạo một tập hợp các giả định chức năng hoặc phân phối (giả sử, một số điều kiện thời điểm nhưng không phải là toàn bộ phân phối). Trong mô hình của bạn, có một số tham số (giả sử đó là mô hình tham số), sau đó bạn cần tìm cách ước lượng nhất quán các tham số này và hy vọng, công cụ ước tính của bạn sẽ có phương sai thấp và một số thuộc tính tốt khác. Cho dù bạn giảm thiểu SSE hoặc LAD hoặc một số hàm mục tiêu khác, tôi nghĩ rằng chúng chỉ là các phương pháp khác nhau để có được một công cụ ước tính nhất quán. Theo logic này, tôi nghĩ mọi người sử dụng bình phương tối thiểu phải là 1) nó tạo ra công cụ ước lượng nhất quán của mô hình 2) một cái gì đó khác mà tôi không biết.

Trong toán kinh tế lượng, chúng ta biết rằng trong mô hình hồi quy tuyến tính, nếu bạn giả sử các thuật ngữ lỗi có 0 điều kiện trung bình trên các yếu tố dự đoán và độ đồng nhất và các lỗi không tương quan với nhau, thì việc giảm thiểu tổng sai số bình phương sẽ cho bạn một ước lượng XÁC NHẬN của mô hình của bạn tham số và theo định lý Gauss-Markov, công cụ ước tính này là BLUE. Vì vậy, điều này sẽ gợi ý rằng nếu bạn chọn giảm thiểu một số hàm mục tiêu khác không phải là SSE, thì không có gì đảm bảo rằng bạn sẽ có được một công cụ ước tính nhất quán về tham số mô hình của mình. Tôi hiểu có đúng không? Nếu nó là chính xác, thì việc giảm thiểu SSE thay vì một số hàm mục tiêu khác có thể được chứng minh bằng tính nhất quán, trên thực tế, có thể chấp nhận tốt hơn là nói hàm bậc hai đẹp hơn.

Trong thực tế, tôi thực sự đã thấy nhiều trường hợp người ta trực tiếp giảm thiểu tổng các lỗi bình phương mà không xác định rõ mô hình hoàn chỉnh, ví dụ, các giả định phân phối (giả định thời điểm) về thuật ngữ lỗi. Sau đó, điều này có vẻ với tôi rằng người dùng phương pháp này chỉ muốn xem dữ liệu phù hợp với 'mô hình' như thế nào (tôi sử dụng dấu ngoặc kép vì các giả định mô hình có thể không đầy đủ) về mặt hàm khoảng cách vuông.

Một câu hỏi liên quan (cũng liên quan đến trang web này) là: tại sao, khi chúng ta cố gắng so sánh các mô hình khác nhau bằng cách sử dụng xác thực chéo, chúng ta lại sử dụng SSE làm tiêu chí đánh giá? tức là chọn mô hình có ít SSE nhất? Tại sao không phải là một tiêu chí khác?


Câu trả lời:


14

Mặc dù câu hỏi của bạn tương tự như một số câu hỏi khác trên trang web, các khía cạnh của câu hỏi này (chẳng hạn như sự nhấn mạnh của bạn về tính nhất quán) khiến tôi nghĩ rằng chúng không đủ gần để trở thành bản sao.

Tại sao không chọn một số chức năng mục tiêu khác để giảm thiểu?

Tại sao không, thực sự? Nếu mục tiêu của bạn khác với bình phương tối thiểu, thay vào đó bạn nên giải quyết mục tiêu của mình!

Tuy nhiên, hình vuông nhỏ nhất có một số tính chất tốt (nhất là, mối liên hệ mật thiết với phương tiện ước tính , điều mà nhiều người muốn, và sự đơn giản làm cho nó trở thành lựa chọn đầu tiên rõ ràng khi dạy hoặc cố gắng thực hiện ý tưởng mới).

Hơn nữa, trong nhiều trường hợp, mọi người không có chức năng khách quan rõ ràng, do đó, có một lợi thế để chọn những gì có sẵn và được hiểu rộng rãi.

Điều đó nói rằng, hình vuông nhỏ nhất cũng có một số thuộc tính kém đẹp (ví dụ độ nhạy cảm với các ngoại lệ) - vì vậy đôi khi mọi người thích một tiêu chí mạnh mẽ hơn.

giảm thiểu tổng lỗi vuông sẽ cung cấp cho bạn công cụ ước tính XÁC NHẬN các tham số mô hình của bạn

Bình phương tối thiểu không phải là một yêu cầu cho sự nhất quán. Tính nhất quán không phải là một trở ngại rất cao - rất nhiều người ước tính sẽ nhất quán. Hầu như tất cả các ước tính mọi người sử dụng trong thực tế là phù hợp.

và theo định lý Gauss-Markov, công cụ ước tính này là BLUE.

Nhưng trong các tình huống mà tất cả các công cụ ước tính tuyến tính đều xấu (như trường hợp cực kỳ nặng nề, chẳng hạn), không có nhiều lợi thế trong cách tốt nhất.

nếu bạn chọn giảm thiểu một số hàm mục tiêu khác không phải là SSE, thì không có gì đảm bảo rằng bạn sẽ có được ước tính nhất quán của tham số mô hình của mình. Tôi hiểu có đúng không?

không khó để tìm ra các công cụ ước tính nhất quán, vì vậy, đó không phải là một lời biện minh đặc biệt tốt cho các bình phương tối thiểu

Tại sao khi chúng ta cố gắng so sánh các mô hình khác nhau bằng xác nhận chéo, chúng ta lại sử dụng SSE làm tiêu chí đánh giá? [...] Tại sao không phải là tiêu chí khác?

Nếu mục tiêu của bạn được phản ánh tốt hơn bởi một cái gì đó khác, tại sao không thực sự?

Không thiếu người sử dụng các hàm mục tiêu khác ngoài bình phương nhỏ nhất. Nó xuất hiện trong ước lượng M, trong các công cụ ước tính được cắt xén ít nhất, trong hồi quy lượng tử và khi mọi người sử dụng các hàm mất LINEX, chỉ để đặt tên cho một số.

đã nghĩ rằng khi bạn có một tập dữ liệu, trước tiên bạn hãy thiết lập mô hình của mình, tức là tạo một tập hợp các giả định chức năng hoặc phân phối. Trong mô hình của bạn, có một số tham số (giả sử đó là mô hình tham số),

Có lẽ các tham số của các giả định chức năng là những gì bạn đang cố gắng ước tính - trong trường hợp đó, các giả định chức năng là những gì bạn làm bình phương tối thiểu (hoặc bất cứ điều gì khác) xung quanh ; họ không xác định tiêu chí, họ là những gì tiêu chí đang ước tính.

Mặt khác, nếu bạn có một giả định phân phối, thì bạn có rất nhiều thông tin về một hàm mục tiêu phù hợp hơn - ví dụ, có lẽ, bạn sẽ muốn có được ước tính hiệu quả của các tham số của mình - trong các mẫu lớn sẽ có xu hướng dẫn bạn tới MLE, (mặc dù có thể trong một số trường hợp được nhúng trong khung mạnh mẽ).

sau đó bạn cần tìm một cách để ước lượng nhất quán các tham số này. Cho dù bạn giảm thiểu SSE hoặc LAD hoặc một số chức năng khách quan khác,

LAD là một công cụ ước tính định lượng. Đó là một công cụ ước tính nhất quán của tham số mà nó nên ước tính trong các điều kiện mà nó sẽ được dự kiến, giống như cách mà bình phương nhỏ nhất. (Nếu bạn nhìn vào những gì bạn thể hiện sự nhất quán cho với bình phương nhỏ nhất, có kết quả tương ứng đối với nhiều ước lượng phổ biến khác. Mọi người hiếm khi sử dụng ước lượng không phù hợp, vì vậy nếu bạn nhìn thấy một ước lượng được thảo luận rộng rãi, trừ khi họ đang nói về mâu thuẫn của nó, nó gần như chắc chắn phù hợp. *)

* Điều đó nói rằng, tính nhất quán không nhất thiết là một tài sản thiết yếu. Rốt cuộc, đối với mẫu của tôi, tôi có một số cỡ mẫu cụ thể, không phải là một chuỗi các cỡ mẫu có xu hướng vô cùng. Điều quan trọng là các thuộc tính tại tôi có, không phải là số n lớn hơn vô hạn mà tôi không có và sẽ không bao giờ nhìn thấy . Nhưng cần phải chăm sóc nhiều hơn khi chúng tôi có sự không nhất quán - chúng tôi có thể có một công cụ ước tính tốt ở n = 20, nhưng nó có thể khủng khiếp ở n = 2000; theo một nghĩa nào đó, cần nhiều nỗ lực hơn, nếu chúng ta muốn sử dụng các công cụ ước tính nhất quán.nnnn

Nếu bạn sử dụng LAD để ước tính giá trị trung bình của số mũ, thì nó sẽ không nhất quán cho điều đó (mặc dù tỷ lệ tầm thường của ước tính của nó sẽ là) - nhưng bằng cách đó, nếu bạn sử dụng bình phương tối thiểu để ước lượng trung bình của số mũ , nó sẽ không nhất quán cho điều đó (và một lần nữa, một sự thay đổi kích thước tầm thường sửa chữa điều đó).


Tôi đoán tôi đã không thể hiện rõ mối quan tâm của mình. Tôi đã nghĩ rằng khi bạn có một tập dữ liệu, trước tiên bạn hãy thiết lập mô hình của mình, tức là tạo một tập hợp các giả định chức năng hoặc phân phối. Trong mô hình của bạn, có một số tham số (giả sử đó là mô hình tham số), sau đó bạn cần tìm cách ước lượng nhất quán các tham số này. Cho dù bạn giảm thiểu SSE hoặc LAD hoặc một số hàm mục tiêu khác, tôi nghĩ rằng chúng chỉ là các phương pháp khác nhau để có được công cụ ước tính. Theo logic này, tôi nghĩ mọi người sử dụng bình phương tối thiểu phải là 1) nó tạo ra công cụ ước lượng nhất quán của mô hình 2) một cái gì đó khác
KevinKim

Có lẽ các tham số của các giả định chức năng là những gì bạn đang cố gắng ước tính - trong trường hợp đó, các giả định chức năng là những gì bạn làm bình phương nhỏ nhất (hoặc bất cứ điều gì khác) xung quanh; họ không xác định tiêu chí. Mặt khác, nếu bạn có một giả định phân phối, thì bạn có rất nhiều thông tin về một hàm mục tiêu phù hợp hơn - ví dụ, có lẽ, bạn sẽ muốn có được ước tính hiệu quả của các tham số của mình - trong các mẫu lớn sẽ có xu hướng dẫn bạn tới MLE, (mặc dù có thể trong một số trường hợp được nhúng trong khung mạnh mẽ).
Glen_b -Reinstate Monica

Câu trả lời này phù hợp với suy nghĩ của tôi. Nhưng tôi vẫn có một câu hỏi, ý của bạn là 'họ không xác định tiêu chí'? Điều này có nghĩa là, ví dụ, trong kinh tế lượng 101 trong hồi quy tuyến tính, theo giả định chức năng (không phân phối), để có được công cụ ước lượng nhất quán, bạn phải sử dụng ols, bạn không thể sử dụng một số hàm mục tiêu tùy ý để giảm thiểu, vì không đảm bảo cho việc ước tính nhất quán từ đó?
KevinKim

Trên "không xác định" - hãy để tôi mở rộng câu trả lời của mình. Về tính nhất quán: Tôi đã nêu điều ngược lại trong câu trả lời của tôi. Hãy để tôi nói lại một lần nữa: bình phương tối thiểu không phải là một yêu cầu cho tính nhất quán. Điều này bao gồm cả tình huống bạn vừa đề cập; có vô số các công cụ ước tính thay thế sẽ phù hợp. Hầu như tất cả các ước tính mọi người sử dụng trong thực tế là phù hợp. Tôi sẽ chỉnh sửa câu trả lời của tôi để rõ ràng hơn.
Glen_b -Reinstate Monica

đối với câu trả lời được cập nhật của bạn, đoạn cuối cùng, vì vậy đối với một số mô hình, có một số cách mà KHÔNG tạo ra các tham số nhất quán cho các tham số mô hình của bạn, mặc dù bạn vẫn có thể áp dụng các phương thức đó và compter sẽ cung cấp cho bạn một số số, phải không? Vì vậy, tôi có thể nói rằng đối với một người mẫu xây dựng, để lấy được các công cụ ước tính cho các tham số trong mô hình, mọi người KHÔNG THỂ tùy ý chọn một hàm mục tiêu để tối ưu hóa CHỈ dựa trên các đặc tính kỹ thuật tốt đẹp của nó?
KevinKim

5

Bạn đã hỏi một câu hỏi thống kê và tôi hy vọng rằng câu trả lời của kỹ sư hệ thống điều khiển của tôi là một cú đâm vào nó từ đủ hướng khác nhau để được khai sáng.

Đây là một dạng luồng thông tin "chính tắc" cho kỹ thuật hệ thống điều khiển: nhập mô tả hình ảnh ở đây

"R" là giá trị tham chiếu. Nó được tóm tắt bằng một biến đổi "F" của đầu ra "y" để tạo ra lỗi "e". Lỗi này là đầu vào cho bộ điều khiển, được chuyển đổi bởi chức năng chuyển điều khiển "C" thành đầu vào điều khiển cho nhà máy "P". Nó có nghĩa là đủ chung để áp dụng cho các nhà máy tùy ý. "Nhà máy" có thể là động cơ xe để điều khiển hành trình, hoặc góc đầu vào của con lắc ngược.

Giả sử bạn có một nhà máy có chức năng chuyển giao đã biết với hiện tượng học phù hợp với các cuộc thảo luận sau đây, trạng thái hiện tại và trạng thái kết thúc mong muốn. ( bảng 2.1 tr68 ) Có vô số đường dẫn duy nhất mà hệ thống, với các đầu vào khác nhau, có thể đi qua để đi từ trạng thái ban đầu đến trạng thái cuối cùng. Sách giáo khoa điều khiển "phương pháp tối ưu" bao gồm tối ưu thời gian ( thời gian ngắn nhất / bang-bang ), tối ưu khoảng cách (đường đi ngắn nhất), tối ưu hóa lực (cường độ đầu vào tối đa thấp nhất) và tối ưu năng lượng (tổng năng lượng tối thiểu).

Giống như có vô số đường dẫn, có vô số "tối ưu" - mỗi đường dẫn chọn một trong những đường dẫn đó. Nếu bạn chọn một con đường và nói nó là tốt nhất thì bạn đang ngầm chọn một "thước đo lòng tốt" hoặc "thước đo sự tối ưu".

Theo ý kiến ​​cá nhân của tôi, tôi nghĩ rằng những người như định mức L-2 (hay còn gọi là tối ưu năng lượng, hay còn gọi là lỗi bình phương nhỏ nhất) bởi vì nó đơn giản, dễ giải thích, dễ thực thi, có đặc tính làm nhiều việc hơn so với các lỗi lớn hơn so với các lỗi nhỏ hơn, và lá với độ lệch bằng không. Xem xét các chỉ tiêu h-infinite trong đó phương sai được giảm thiểu và độ lệch bị hạn chế nhưng không bằng không. Chúng có thể khá hữu ích, nhưng chúng phức tạp hơn để mô tả và phức tạp hơn để viết mã.

Tôi nghĩ rằng định mức L2, hay còn gọi là đường dẫn tối ưu giảm thiểu năng lượng, hay còn gọi là phù hợp với lỗi bình phương nhỏ nhất, là dễ dàng và theo nghĩa lười biếng phù hợp với kinh nghiệm rằng "lỗi lớn hơn là xấu hơn và lỗi nhỏ hơn thì ít tệ hơn". Có rất nhiều cách thuật toán để tạo ra điều này, nhưng lỗi bình phương là một trong những cách thuận tiện nhất. Nó chỉ yêu cầu đại số, vì vậy nhiều người có thể hiểu nó. Nó hoạt động trong không gian đa thức (phổ biến). Tối ưu hóa năng lượng phù hợp với hầu hết các vật lý bao gồm thế giới nhận thức của chúng ta, vì vậy nó "cảm thấy quen thuộc". Nó rất nhanh để tính toán và không quá kinh khủng trên bộ nhớ.

Nếu tôi có nhiều thời gian hơn, tôi muốn đặt hình ảnh, mã hoặc tài liệu tham khảo.


1

SSESSER2SST

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS, có liên quan đến câu hỏi của bạn ở cuối bài.

SSE


2
R2R2

R2R2

R2

R2

0

Bạn cũng có thể xem xét giảm thiểu lỗi tối đa thay vì khớp hình vuông nhỏ nhất. Có một tài liệu phong phú về chủ đề này. Đối với một từ tìm kiếm, hãy thử "Tchebechev" cũng đánh vần các đa thức "Ch Quashev".


1
Tối đa là một chỉ tiêu vô cực L. Nếu bạn nhìn vào Nutonia / Formulize / Eureqa, họ có một sở thú tốt về các hàm chi phí (dạng lỗi) bao gồm lỗi tuyệt đối liên mã, lỗi mất bản lề, ROC-AUC và chênh lệch đã ký. formulize.nutonia.com/documentation/eureqa/general-reference/ory
EngrStudent - Tái lập Monica

0

Có vẻ như mọi người sử dụng hình vuông vì nó cho phép nằm trong vương quốc Đại số tuyến tính và không chạm vào những thứ phức tạp khác như tối ưu hóa lồi mạnh mẽ hơn, nhưng nó dẫn đến việc giải quyết bằng cách sử dụng các giải pháp dạng đóng đẹp.

Ngoài ra ý tưởng từ lĩnh vực toán học có tên tối ưu hóa lồi này đã không lan truyền nhiều.

"... Tại sao chúng ta quan tâm đến bình phương của các mặt hàng. Thành thật mà nói vì chúng ta có thể phân tích nó ... Nếu bạn nói rằng nó tương ứng với Năng lượng và họ mua nó thì hãy tiếp tục nhanh chóng ...." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Cũng ở đây, Stephen P. Boyd mô tả vào năm 2008 rằng mọi người sử dụng búa và adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

Còn một chú ý đáng nói:

p(t|x,w,β)= =N(t|y(x,w),β-1)
{x,t}w
p(t|x,w,β)= =Πn= =1NN(tn|y(xn,w),β-1).
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
is the same as minimizing the negative log likelihood. We cab drop the second and the third term since they're constant with regards to w. Also the scaling factor β in the first term can be dropped, since a constant factor does not change the location of the maximum/minimum, leaving us with
12n=1N{y(xn,w)tn}2.
Thus the SSE has arisen as a consequence of maximizing likelihood under the assumption of a Gaussian noise distribution.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.