Tôi hiểu câu hỏi này khi hỏi về cái nhìn sâu sắc về cách người ta có thể đưa ra bất kỳ hàm mất mát nào tạo ra một lượng tử nhất định như một công cụ giảm thiểu tổn thất cho dù phân phối cơ bản có thể là gì. Sau đó, sẽ không thỏa đáng, chỉ cần lặp lại phân tích trong Wikipedia hoặc các nơi khác cho thấy chức năng mất đặc biệt này hoạt động.
Hãy bắt đầu với một cái gì đó quen thuộc và đơn giản.
Những gì bạn đang nói về là tìm một "vị trí" tương ứng với một phân phối hoặc tập hợp các dữ liệu F . Chẳng hạn, người ta biết rằng trung bình ˉ x giảm thiểu phần dư bình phương dự kiến; đó là một giá trịx∗Fx¯
LF(x¯)=∫R(x−x¯)2dF(x)
càng nhỏ càng tốt. Tôi đã sử dụng ký hiệu này để nhắc nhở chúng tôi rằng có nguồn gốc từ một mất mát , nó được xác định bởi F , nhưng quan trọng nhất là nó phụ thuộc vào số ˉ x .LFx¯
Cách thông thường để chứng minh rằng Giảm thiểu bất kỳ chức năng bắt đầu bằng cách chứng minh giá trị của hàm không giảm khi x * được thay đổi bởi một chút. Một giá trị như vậy được gọi là một điểm quan trọng của hàm.x∗x∗
Loại hàm mất nào sẽ dẫn đến phần trăm F - 1 ( α ) là một điểm tới hạn? Mất mát cho giá trị đó sẽ làΛF−1(α)
LF(F−1(α))=∫RΛ(x−F−1(α))dF(x)=∫10Λ(F−1(u)−F−1(α))du.
For this to be a critical point, its derivative must be zero. Since we're just trying to find some solution, we won't pause to see whether the manipulations are legitimate: we'll plan to check technical details (such as whether we really can differentiate Λ, etc.) at the end. Thus
0=L′F(x∗)=L′F(F−1(α))=−∫10Λ′(F−1(u)−F−1(α))du=−∫α0Λ′(F−1(u)−F−1(α))du−∫1αΛ′(F−1(u)−F−1(α))du.(1)
On the left hand side, the argument of Λ is negative, whereas on the right hand side it is positive. Other than that, we have little control over the values of these integrals because F could be any distribution function. Consequently our only hope is to make Λ′ depend only on the sign of its argument, and otherwise it must be constant.
This implies Λ will be piecewise linear, potentially with different slopes to the left and right of zero. Clearly it should be decreasing as zero is approached--it is, after all, a loss and not a gain. Moreover, rescaling Λ by a constant will not change its properties, so we may feel free to set the left hand slope to −1. Let τ>0 be the right hand slope. Then (1) simplifies to
0=α−τ(1−α),
whence the unique solution is, up to a positive multiple,
Λ(x)={−x, x≤0α1−αx, x≥0.
Multiplying this (natural) solution by 1−α, to clear the denominator, produces the loss function presented in the question.
Clearly all our manipulations are mathematically legitimate when Λ has this form.