Câu hỏi rất đơn giản: tại sao, khi chúng ta cố gắng khớp một mô hình với dữ liệu của mình, tuyến tính hay phi tuyến tính, chúng ta thường cố gắng giảm thiểu tổng bình phương sai số để có được ước lượng của chúng ta cho tham số mô hình? Tại sao không chọn một số chức năng mục tiêu khác để giảm thiểu? Tôi hiểu rằng, vì lý do kỹ thuật, hàm số bậc hai đẹp hơn một số hàm khác, ví dụ: tổng độ lệch tuyệt đối. Nhưng đây vẫn chưa phải là một câu trả lời rất thuyết phục. Khác với lý do kỹ thuật này, tại sao cụ thể là những người ủng hộ 'loại Euclide' này của hàm khoảng cách? Có một ý nghĩa cụ thể hoặc giải thích cho điều đó?
Logic đằng sau suy nghĩ của tôi là như sau:
Khi bạn có một tập dữ liệu, trước tiên bạn thiết lập mô hình của mình bằng cách tạo một tập hợp các giả định chức năng hoặc phân phối (giả sử, một số điều kiện thời điểm nhưng không phải là toàn bộ phân phối). Trong mô hình của bạn, có một số tham số (giả sử đó là mô hình tham số), sau đó bạn cần tìm cách ước lượng nhất quán các tham số này và hy vọng, công cụ ước tính của bạn sẽ có phương sai thấp và một số thuộc tính tốt khác. Cho dù bạn giảm thiểu SSE hoặc LAD hoặc một số hàm mục tiêu khác, tôi nghĩ rằng chúng chỉ là các phương pháp khác nhau để có được một công cụ ước tính nhất quán. Theo logic này, tôi nghĩ mọi người sử dụng bình phương tối thiểu phải là 1) nó tạo ra công cụ ước lượng nhất quán của mô hình 2) một cái gì đó khác mà tôi không biết.
Trong toán kinh tế lượng, chúng ta biết rằng trong mô hình hồi quy tuyến tính, nếu bạn giả sử các thuật ngữ lỗi có 0 điều kiện trung bình trên các yếu tố dự đoán và độ đồng nhất và các lỗi không tương quan với nhau, thì việc giảm thiểu tổng sai số bình phương sẽ cho bạn một ước lượng XÁC NHẬN của mô hình của bạn tham số và theo định lý Gauss-Markov, công cụ ước tính này là BLUE. Vì vậy, điều này sẽ gợi ý rằng nếu bạn chọn giảm thiểu một số hàm mục tiêu khác không phải là SSE, thì không có gì đảm bảo rằng bạn sẽ có được một công cụ ước tính nhất quán về tham số mô hình của mình. Tôi hiểu có đúng không? Nếu nó là chính xác, thì việc giảm thiểu SSE thay vì một số hàm mục tiêu khác có thể được chứng minh bằng tính nhất quán, trên thực tế, có thể chấp nhận tốt hơn là nói hàm bậc hai đẹp hơn.
Trong thực tế, tôi thực sự đã thấy nhiều trường hợp người ta trực tiếp giảm thiểu tổng các lỗi bình phương mà không xác định rõ mô hình hoàn chỉnh, ví dụ, các giả định phân phối (giả định thời điểm) về thuật ngữ lỗi. Sau đó, điều này có vẻ với tôi rằng người dùng phương pháp này chỉ muốn xem dữ liệu phù hợp với 'mô hình' như thế nào (tôi sử dụng dấu ngoặc kép vì các giả định mô hình có thể không đầy đủ) về mặt hàm khoảng cách vuông.
Một câu hỏi liên quan (cũng liên quan đến trang web này) là: tại sao, khi chúng ta cố gắng so sánh các mô hình khác nhau bằng cách sử dụng xác thực chéo, chúng ta lại sử dụng SSE làm tiêu chí đánh giá? tức là chọn mô hình có ít SSE nhất? Tại sao không phải là một tiêu chí khác?