Lỗi bình phương trung bình so với lỗi bình phương tối thiểu, lỗi nào để so sánh bộ dữ liệu?


8

Tôi có 3 bộ dữ liệu của cùng một hệ thống. Nhưng lần đầu tiên, tôi có 21 lần đo. Đối với lần thứ hai và thứ ba, tôi chỉ có 9 phép đo. Bây giờ tôi đã tạo một mô hình bằng cách sử dụng 3 bộ dữ liệu này (vì vậy 3 mô hình, 1 cho mỗi tập dữ liệu). Khi tôi muốn so sánh lỗi giữa hai bộ dữ liệu này. Có một lợi thế rõ ràng bằng cách sử dụng MSE thay cho LSE (lỗi bình phương nhỏ nhất). Trên internet tôi không tìm thấy câu trả lời rõ ràng cho việc này. Những lợi thế chính là gì?

Câu trả lời:


11

Tôi nghĩ bạn đang bối rối về cách xây dựng một mô hình từ dữ liệu và cách định lượng độ chính xác của mô hình một khi nó được xây dựng.

Khi bạn muốn xây dựng một mô hình (hồi quy tuyến tính trong trường hợp của bạn, tôi đoán vậy?), Bạn thường sẽ sử dụng phương pháp lỗi bình phương nhỏ nhất là tối thiểu hóa khoảng cách euclid "tổng" giữa một dòng và các điểm dữ liệu. Về mặt lý thuyết, các hệ số của dòng này có thể được tìm thấy bằng cách sử dụng phép tính nhưng trong thực tế, một thuật toán sẽ thực hiện việc giảm độ dốc nhanh hơn.

Một khi bạn có mô hình của bạn, bạn muốn đánh giá hiệu suất của nó. Do đó, trong trường hợp hồi quy, có thể tốt khi tính toán một số liệu đánh giá mô hình của bạn "bao xa" với các điểm dữ liệu thực tế (hoặc dữ liệu của tập kiểm tra nếu bạn có trung bình). MSE là một ước tính tốt mà bạn có thể muốn sử dụng!

Tóm lại, hãy nhớ rằng LSE là một phương pháp xây dựng mô hình và MSE là một thước đo đánh giá hiệu suất của mô hình của bạn.


1
Tôi đã thực hiện một mô hình bất hoạt sinh học phi tuyến tính với 2 tham số với lệnh matlab: LSQNONLINE. Lệnh này cho tôi lỗi vuông nhỏ nhất. Tôi có 3 lỗi bình phương nhỏ nhất vì tôi đã làm điều đó cho 3 tập dữ liệu. Bây giờ tôi muốn so sánh độ chính xác của cả hai tập dữ liệu. Tại sao tôi không thể so sánh những LSE này với nhau?
Thomas

1
@Thomas Các tập dữ liệu có số lượng quan sát khác nhau không? Bạn đã đưa ra một bộ dữ liệu cuối cùng để ghi cả ba mô hình trên?
Matthew Drury

1
Nhưng phương trình của LSE và MSE gần như giống nhau, phải không?
QtRoS

Hãy xem xét hai bộ dữ liệu, một có 10 điểm dữ liệu và một có 10.000 điểm dữ liệu. Nếu chúng có cùng MSE thì chúng không thể có cùng LSE - Đây là lý do tại sao Nghĩa trong "Lỗi bình phương trung bình" được sử dụng, bình phương làm cho tất cả các số dương và trung bình trung bình các giá trị đó sao cho thống kê độc lập với số lượng dữ liệu điểm. R-squared (R2) được tính là "R2 = 1.0 - (perfect_error_variance / Dep_data_variance)" cũng được sử dụng cho lý do tương tự, nghĩa là nó độc lập với số lượng điểm dữ liệu được sử dụng trong mô hình.
James Phillips

3

MSE (Lỗi bình phương trung bình) là trung bình của lỗi bình phương, tức là sự khác biệt giữa công cụ ước tính và ước tính. MMSE (Lỗi bình phương trung bình tối thiểu) là một công cụ ước tính giảm thiểu MSE. Do đó LSE và MMSE tương đương nhau vì cả hai đều là công cụ ước tính. LSE và MSE không thể so sánh như được chỉ ra bởi Anil. Về mặt lý thuyết, có một số khác biệt quan trọng giữa MMSE và LSE.
MMSE là tối ưu cho tất cả các hiện thực của quá trình trong khi LSE là tối ưu cho chính dữ liệu đã cho. Điều này là do MMSE sử dụng mức trung bình chung (kỳ vọng) trong khi LSE sử dụng mức trung bình thời gian.

Ý nghĩa thực tế của nó là: 1. Đối với MMSE, bạn cần biết các thuộc tính thống kê bậc hai của dữ liệu (giao thoa và tự tương quan), trong khi đối với LSE, bạn chỉ cần dữ liệu. Autocorrelation & crosscorrelation là tính toán tốn kém và một tính toán chính xác cần rất nhiều điểm dữ liệu / thí nghiệm. 2. Các hệ số MMSE là tối ưu cho quy trình, do đó, nó là tối ưu cho tất cả các bộ dữ liệu của quy trình trong khi LSE chỉ tối ưu cho tập dữ liệu cụ thể. Các hệ số LSE sẽ không duy trì tối ưu nếu dữ liệu thay đổi.

Ngoài ra, xin lưu ý rằng MMSE tiếp cận LSE nếu quá trình này là ergodic và số lượng điểm dữ liệu tiếp cận vô hạn.


0

Tôi tin rằng câu trả lời đầu tiên hiện tại của Anil Narassiguin là sai lệch. Nó nói ở phía dưới: "LSE là một phương pháp xây dựng mô hình và MSE là một thước đo đánh giá hiệu suất của mô hình của bạn."

Đơn giản là nó sai. Về cơ bản, chúng là cả hai hàm mất / chi phí . Cả hai đều tính toán sai số của các dự đoán hiện tại trong khi lặp lại để các trọng số có thể được tối ưu hóa.

Tuy nhiên, LSE được sử dụng cho các vấn đề phân loại trong khi MSE được sử dụng cho các vấn đề hồi quy. Tôi tin rằng đây là sự khác biệt chính giữa hai điều này, vì vậy bạn cần tìm ra loại vấn đề bạn gặp phải, hồi quy phân loại.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.