Điều gì sẽ là một ví dụ về khi L2 là một hàm mất mát tốt để tính toán tổn thất sau?

Mất L2, cùng với mất L0 và L1, là ba hàm mất "mặc định" rất phổ biến được sử dụng khi tóm tắt một hậu thế bằng tổn thất dự kiến tối thiểu sau. Một lý do cho điều này có lẽ là chúng tương đối dễ tính toán (ít nhất là cho các bản phân phối 1d), kết quả L0 trong chế độ, L1 trong trung vị và kết quả L2 có nghĩa là trung bình. Khi giảng dạy, tôi có thể đưa ra các kịch bản trong đó L0 và L1 là các hàm mất hợp lý (và không chỉ là "mặc định"), nhưng tôi đang vật lộn với một kịch bản trong đó L2 sẽ là hàm mất hợp lý. Vì vậy, câu hỏi của tôi:

Đối với các mục đích sư phạm, ví dụ nào khi L2 là hàm mất mát tốt để tính toán tổn thất sau tối thiểu?

Đối với L0, thật dễ dàng để đưa ra các kịch bản từ cá cược. Giả sử bạn đã tính hậu thế so với tổng số bàn thắng trong một trận bóng đá sắp tới và bạn sẽ đặt cược trong đó bạn thắng $$$ nếu bạn đoán đúng số lượng bàn thắng và thua khác. Thì L0 là hàm mất hợp lý.

Ví dụ L1 của tôi là một chút giả định. Bạn đang gặp một người bạn sẽ đến một trong nhiều sân bay và sau đó đi du lịch bằng ô tô, vấn đề là bạn không biết sân bay nào (và không thể gọi cho bạn của bạn vì cô ấy đang ở trên không). Đưa ra một hậu thế về sân bay nào cô ấy có thể hạ cánh, đâu là nơi tốt để định vị bản thân để khoảng cách giữa cô ấy và bạn sẽ nhỏ, khi cô ấy đến? Ở đây, điểm giảm thiểu tổn thất L1 dự kiến có vẻ hợp lý, nếu đưa ra các giả định đơn giản hóa rằng chiếc xe của cô ấy sẽ di chuyển với tốc độ không đổi trực tiếp đến vị trí của bạn. Đó là, chờ đợi một giờ là tồi tệ gấp đôi so với chờ đợi 30 phút.

— Rasmus Bååth
nguồn

Cảnh báo: L0 không dẫn đến chế độ cho các sự cố liên tục ....

— Xi'an

Hmm, vâng tôi biết rằng chế độ L0 -> hơi cẩu thả.

— Rasmus Bååth 17/03/2015

Nhìn vào luật bình phương nghịch đảo, nếu bạn có một số nguồn sáng được đặt sao cho bất kỳ điểm nào trong không gian chúng ta có thể chọn sẽ nhận được ánh sáng không đáng kể từ tất cả trừ nguồn gần nhất, sử dụng tổn thất L2 sẽ tương đương với mong muốn giảm thiểu, giả sử, con số của giây trên mỗi lum nhận được. Tuy nhiên, tôi không thể nghĩ tại sao bạn muốn làm điều đó hơn là tối đa hóa lumens mỗi giây.

— Thống kê tình cờ

L2 là "dễ dàng." Theo mặc định, đó là những gì bạn nhận được nếu bạn thực hiện các phương pháp ma trận tiêu chuẩn như hồi quy tuyến tính, SVD, v.v. Cho đến khi chúng tôi có máy tính, L2 là trò chơi duy nhất trong thị trấn có rất nhiều vấn đề, đó là lý do tại sao mọi người sử dụng ANOVA, kiểm tra t, v.v. . Cũng dễ dàng hơn để có được câu trả lời chính xác bằng cách sử dụng mất L2 với nhiều phương thức fancier như quy trình Gaussian hơn là nhận được câu trả lời chính xác bằng các hàm mất khác.
Liên quan, bạn có thể nhận được tổn thất L2 chính xác bằng cách sử dụng xấp xỉ Taylor bậc 2, đây không phải là trường hợp của hầu hết các hàm mất (ví dụ: entropy chéo,). Điều này giúp tối ưu hóa dễ dàng với các phương pháp bậc 2 như phương pháp của Newton. Rất nhiều phương pháp để xử lý các hàm mất mát khác vẫn sử dụng các phương thức cho tổn thất L2 dưới cùng vì lý do tương tự (ví dụ: bình phương tối thiểu lặp lại, các xấp xỉ Laplace lồng nhau).
L2 liên quan chặt chẽ đến các phân phối Gaussian và Định lý giới hạn trung tâm làm cho các phân phối Gaussian trở nên phổ biến. Nếu quy trình tạo dữ liệu của bạn là (có điều kiện) Gaussian, thì L2 là công cụ ước tính hiệu quả nhất.
Mất L2 phân hủy độc đáo, vì quy luật tổng phương sai. Điều đó làm cho các mô hình đồ họa nhất định với các biến tiềm ẩn đặc biệt dễ phù hợp.
L2 phạt những dự đoán khủng khiếp không tương xứng. Điều này có thể tốt hoặc xấu, nhưng nó thường khá hợp lý. Trung bình một giờ chờ đợi có thể tệ gấp bốn lần so với chờ 30 phút, trung bình, nếu điều đó khiến nhiều người bỏ lỡ các cuộc hẹn của họ.

— David J. Harris
nguồn

Hmm, những gì tôi đã theo sau giống như một tình huống quyết định trong đó L2 sẽ là một trò đùa mất mát hợp lý. Giống như kịch bản tương tự như hai ví dụ trong câu hỏi của tôi, nhưng đối với L2.

— Rasmus Bååth 17/03/2015

@ RasmusBååth Tôi không chắc chắn về một đối số cho bình phương chính xác tổn thất (ngoài kết nối của nó với các quá trình tạo dữ liệu Gaussian ở # 3), nhưng # 5 là một đối số cho một loại mất chức năng tăng tốc. Để thứ hai, bất kỳ chức năng như vậy sẽ phù hợp với mất L2.

— David J. Harris

@ DavidJ.Harris Thật ra, # 5 không chính xác. Những gì bạn sẽ làm trong trường hợp như vậy là sử dụng L1 abs (xy) để giảm thiểu sự thất vọng = time². Sử dụng (xy) ² mất thời gian, như bạn đã đề xuất thực sự sẽ mang lại cho bạn một kết quả tối ưu.

— Íhor Mé

@ ÍhorMé Tôi nghĩ tôi phải hiểu lầm bạn. Có vẻ như bạn đang nói rằng cách tốt nhất để giảm thiểu lỗi bình phương là bằng cách giảm thiểu tổn thất tuyệt đối chứ không phải định mức L2.

— David J. Harris

@ DavidJ.Harris Vâng, tôi đã cố gắng đưa ra quan điểm rằng đây là vấn đề giảm thiểu "tính xấu" (= time diff²) và không dành thời gian chờ đợi, nhưng về cơ bản, tôi nghĩ rằng tôi đã hiểu sai về thí nghiệm suy nghĩ. Bây giờ tôi đang đọc lại nó, L2 là một cách hợp pháp để chuyển từ giảm thiểu chênh lệch thời gian sang giảm thiểu "tính xấu". Mặc dù, tôi phải nói rằng, tốt nhất là một lập trình viên trước tiên phải xác định chính xác "tính xấu" mà anh ta muốn giảm thiểu, sau đó lấy giá trị đó, sau đó thu nhỏ qua L1. Trong trường hợp này, bạn nhận được (thời gian khác) ² trước sau đó giảm thiểu mất L1. Chỉ đi với L2 khi bạn biết bạn đang làm gì.

— Íhor Mé