Xu hướng về số tự nhiên trong trường hợp bình phương nhỏ nhất


14

Tại sao chúng ta tìm cách giảm thiểu x^2thay vì giảm thiểu |x|^1.95hoặc |x|^2.05. Có những lý do tại sao số phải chính xác là hai hoặc nó chỉ đơn giản là một quy ước có lợi thế của việc đơn giản hóa toán học?

Câu trả lời:


5

Câu hỏi này khá cũ nhưng tôi thực sự có một câu trả lời không xuất hiện ở đây và một câu hỏi đưa ra lý do thuyết phục tại sao (theo một số giả định hợp lý) lỗi bình phương là chính xác, trong khi bất kỳ sức mạnh nào khác là không chính xác.

Giả sử chúng ta có một số dữ liệu và muốn tìm ra tuyến tính (hoặc bất kỳ) chức năng f phù hợp nhất với dự đoán các dữ liệu, theo nghĩa là mật độ xác suất p f ( D ) để quan sát dữ liệu này nên được tối đa đối với với f (cái này được gọi làD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)fước tính khả năng tối đa ). Nếu chúng ta giả định rằng các dữ liệu được xác định bởi cộng với một số hạng sai số phân phối chuẩn với độ lệch chuẩn σ , sau đó p f ( D ) = n Π i = 1 1fσ Điều này tương đương với 1

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
Vì vậy, tối đa hóapf(D)được thực hiện bằng cách giảm thiểuΣ n i = 1 (yi-f(xi))2, có nghĩa là, tổng các sai số bình phương.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
pf(D)i=1n(yif(xi))2

Điều đó có vẻ như thông tư, tại sao bạn nên giả sử một thuật ngữ lỗi phân phối bình thường?
Joe

@Joe Bạn không nên luôn luôn, nhưng nếu điều duy nhất bạn biết về thuật ngữ lỗi là nó có giá trị trung bình là 0 và giá trị tuyệt đối được mong đợi hữu hạn, thì đó là giả định entropy tối đa, vì vậy nó có thể đứng ở bất cứ điều gì chưa biết chức năng lỗi bạn thực sự có. Nếu bạn có thêm thông tin về phân phối lỗi thì tôi cho rằng bạn có thể sử dụng nó và tìm một công cụ ước tính khả năng tối đa chính xác hơn.

"nếu điều duy nhất bạn biết về thuật ngữ lỗi là nó có giá trị trung bình bằng 0 và giá trị tuyệt đối được mong đợi hữu hạn, thì đó là giả định entropy tối đa" - mọi dẫn xuất của phân phối entropy tối đa mà tôi đã thấy xuất phát từ phân phối Laplace là phân phối tối đa cho một giá trị tuyệt đối (đã biết) hữu hạn, trong khi Gaussian là giá trị tối đa cho một giá trị tuyệt đối bình phương (đã biết) bình phương, xem như một ví dụ thống kê.stackexchange.com/questions/82410/ Bạn có những trích dẫn không đồng ý ?
Joe

Bạn biết đấy, tôi không. Tôi sẽ cho rằng bạn đúng. (Mặc dù tôi không thể tìm ra cách chỉnh sửa nhận xét của mình vì một số lý do)

14

Chẳng có lý do gì bạn không thể cố gắng giảm thiểu các chỉ tiêu khác ngoài x ^ 2, chẳng hạn, đã có toàn bộ sách viết về hồi quy lượng tử, chẳng hạn, giảm thiểu ít nhiều | x | nếu bạn đang làm việc với trung bình. Nói chung, việc này khó thực hiện hơn và, tùy thuộc vào mô hình lỗi, có thể không đưa ra các công cụ ước tính tốt (tùy thuộc vào việc điều đó có nghĩa là các công cụ ước tính thấp hoặc không thiên vị hoặc MSE thấp trong ngữ cảnh).

Về lý do tại sao chúng ta thích các số nguyên hơn các số có giá trị bằng số thực, lý do chính có thể là do trong khi các số nguyên của số thực luôn dẫn đến số thực, thì các số không nguyên của số thực âm tạo ra các số phức, do đó yêu cầu sử dụng một giá trị tuyệt đối. Nói cách khác, trong khi khoảnh khắc thứ 3 của một biến ngẫu nhiên có giá trị thực là có thật, thì khoảnh khắc thứ 3,2 không nhất thiết là có thật và do đó gây ra các vấn đề diễn giải.

Ngoài ra ...

  1. Các biểu thức phân tích cho các khoảnh khắc nguyên của các biến ngẫu nhiên thường dễ tìm hơn nhiều so với các khoảnh khắc có giá trị thực, bằng cách tạo các hàm hoặc một số phương thức khác. Các phương pháp để giảm thiểu chúng do đó dễ viết hơn.
  2. Việc sử dụng các khoảnh khắc số nguyên dẫn đến các biểu thức có tính dễ điều khiển hơn các khoảnh khắc có giá trị thực.
  3. Tôi không thể nghĩ ra một lý do thuyết phục rằng (ví dụ) khoảnh khắc 1,95 của giá trị tuyệt đối của X sẽ cung cấp các thuộc tính phù hợp tốt hơn (ví dụ) khoảnh khắc thứ 2 của X, mặc dù điều đó có thể thú vị để điều tra
  4. Cụ thể với định mức L2 (hoặc lỗi bình phương), nó có thể được viết thông qua các sản phẩm chấm, điều này có thể dẫn đến những cải tiến lớn về tốc độ tính toán. Đây cũng là không gian Lp duy nhất là không gian Hilbert, đây là một tính năng hay.

8

Chúng tôi cố gắng giảm thiểu phương sai còn lại trong các mô tả. Tại sao phương sai? Đọc câu hỏi này ; điều này cũng đi kèm với giả định (chủ yếu là im lặng) rằng các lỗi thường được phân phối.

Gia hạn:
Hai đối số bổ sung:

  1. Đối với phương sai, chúng ta có "luật" tốt đẹp này rằng tổng phương sai bằng với phương sai của tổng, đối với các mẫu không tương quan. Nếu chúng tôi cho rằng lỗi không tương quan với trường hợp, việc giảm thiểu các ô vuông còn lại sẽ hoạt động đơn giản để tối đa hóa phương sai được giải thích, đó có thể là thước đo chất lượng không tốt nhưng vẫn phổ biến.

  2. Nếu chúng ta giả sử tính chuẩn của một lỗi, thì ước lượng sai số bình phương nhỏ nhất là khả năng tối đa.


1
Câu trả lời trong chủ đề khác không thực sự giải thích tại sao 2 là giá trị tốt hơn các giá trị khác rất gần với 2 nhưng không phải là số tự nhiên.
Christian

Tôi nghĩ rằng nó làm; Tôi vẫn sẽ cố gắng mở rộng câu trả lời.

Vì vậy, nếu các lỗi không được phân phối bình thường, nhưng ví dụ theo phân phối ổn định Lévy khác, nó có thể trả hết để sử dụng số mũ khác với 2?
Raskolnikov

Hãy nhớ rằng, phân phối bình thường là phân phối "thận trọng" nhất đối với phương sai đã biết (bởi vì có entropy tối đa trong số tất cả các mật độ có phương sai cố định). Nó để lại nhiều nhất được nói bởi dữ liệu. Hoặc đặt một cách khác, đối với các tập dữ liệu "lớn" có cùng phương sai, "bạn" phải "cố gắng" cực kỳ khó khăn để có được một bản phân phối khác với bình thường.
xác suất

8

Trong bình phương tối thiểu thông thường, giải pháp cho (A'A) ^ (- 1) x = A'b giảm thiểu mất bình phương lỗi và là giải pháp khả năng tối đa.

Vì vậy, phần lớn là do toán học dễ dàng trong trường hợp lịch sử này.

Nhưng nhìn chung mọi người giảm thiểu nhiều hàm mất mát khác nhau , chẳng hạn như hàm mũ, logistic, cauch, laplace, huber, v.v ... Những hàm mất mát kỳ lạ này thường đòi hỏi nhiều tài nguyên tính toán và không có giải pháp dạng đóng (nói chung), vì vậy Bây giờ họ chỉ bắt đầu trở nên phổ biến hơn.


1
+1 để giới thiệu ý tưởng về sự mất mát. (Nhưng không phải là "mũ", vv, phân phối , không phải chức năng mất?) Mất phương diện lịch sử tuyến tính là phương pháp đầu tiên chính thức được phát triển, trong năm 1750, và đã có một đơn giản hình học giải pháp có sẵn cho nó. Tôi tin rằng Laplace đã thiết lập mối quan hệ giữa điều này và phân phối theo cấp số nhân trong một ấn phẩm 1809 (trong đó MLE sẽ giảm thiểu lỗi tuyệt đối, không phải lỗi bình phương). Do đó, tổn thất bình phương không được phân biệt duy nhất bởi các tiêu chí để có MLE và dễ dàng về mặt toán học.
whuber

Cả hai đều là phân phối và chức năng mất trong các bối cảnh khác nhau.
Joe

Tôi đã nhấn enter quá nhanh trong lần trả lời trước - mất theo cấp số nhân có liên quan rộng rãi đến việc tăng cường (xem Quan điểm thống kê về tăng cường của Friedman Hastie và Tibshirani), trong đó mất mát thay vì phân phối, hồi quy logistic cho mất log, laplace là phân phối nhưng tương ứng với mất giá trị tuyệt đối - vì vậy phần lớn tôi đã rất cẩu thả, cảm ơn vì đã chỉ ra nó. Nhưng trong khi mất L1 có một giải pháp hình học, nó không phải là dạng đóng phân tích, vì vậy tôi khó có thể gọi giải pháp đó là dễ dàng.
Joe

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.