Chức năng mất mát của bạn sẽ không hoạt động bởi vì nó incentivizes thiết θ1 với bất kỳ giá trị hữu hạn và θ0 đến - ∞ .
Hãy gọi r ( x , y) = 1mΣmi = 1hθ( x( tôi )) -ycácdưchoh.
Mục tiêu của bạn là làm cho r càng gần 0 càng tốt, không chỉ giảm thiểu nó . Giá trị âm cao cũng tệ như giá trị dương cao.
EDIT: Bạn có thể truy cập này bằng cách giới hạn nhân tạo không gian tham số Θ (ví dụ như bạn muốn |θ0|<10 ). Trong trường hợp này, các tham số tối ưu sẽ nằm trên một số điểm nhất định trên đường biên của không gian tham số. Xem https://math.stackexchange.com/q/896388/12467 . Đây không phải điều bạn muốn.
Tại sao chúng ta sử dụng mất vuông
Lỗi bình phương buộc h(x) và y khớp nhau. Nó được thu nhỏ ở mức u=v , nếu có thể và luôn luôn là ≥0 , vì đó là một hình vuông của số thực u−v .
|u−v|cũng sẽ hoạt động cho mục đích trên, như(u−v)2n , vớin một số nguyên dương. Cái đầu tiên trong số này thực sự được sử dụng (nó được gọi làmấtℓ1 ; bạn cũng có thể gặp phảitổn thấtℓ2 , một tên gọi khác của lỗi bình phương).
Vì vậy, tại sao mất bình phương tốt hơn so với những gì? Đây là một câu hỏi sâu sắc liên quan đến mối liên hệ giữa suy luận thường xuyên và suy luận Bayes . Nói tóm lại, lỗi bình phương liên quan đến nhiễu Gaussian .
Nếu dữ liệu của bạn không phù hợp với tất cả các điểm chính xác, tức là h(x)−y không bằng không đối với một số điểm là không có vấn đề gì θ bạn chọn (như sẽ luôn luôn xảy ra trong thực tế), mà có thể là do tiếng ồn . Trong bất kỳ hệ thống phức tạp nào, sẽ có nhiều nguyên nhân độc lập nhỏ cho sự khác biệt giữa mô hình h của bạn và thực tế y : lỗi đo lường, các yếu tố môi trường, v.v ... Theo Định lý giới hạn trung tâm (CLT), tổng nhiễu sẽ được phân phối Thông thường , tức là theo Phân phối Gaussian . Chúng tôi muốn chọn phù hợp nhất θtính đến phân phối tiếng ồn này. Giả sử R=h(X)−Y , một phần của y rằng mô hình của bạn không thể giải thích, sau sự phân bố Gaussian N(μ,σ) . Chúng tôi đang sử dụng vốn vì hiện tại chúng tôi đang nói về các biến ngẫu nhiên.
Sự phân bố Gaussian có hai tham số, có nghĩa là μ = E [ R ] = 1mΣTôihθ( X( tôi )) - Y( I ) )và phương saiσ2= E[ R2] = 1mΣTôi( hθ( X( tôi )) - Y( I ) ))2. Xemở đâyđể hiểu các điều khoản tốt hơn.
Cân nhắc μ , đó là lỗi hệ thống đo lường của chúng tôi. Sử dụng h'( X ) = h ( x ) - μ để sửa chữa cho lỗi có hệ thống, do đó μ'= E [ R'] = 0 (tập thể dục cho người đọc). Không có gì khác để làm ở đây.
σ đại diện chosai số ngẫu nhiên, hay còn gọi làtiếng ồn. Khi chúng ta đã quan tâm đến thành phần nhiễu có hệ thống như ở điểm trước, bộ dự đoán tốt nhất thu được khiσ2= 1mΣTôi( hθ( X( tôi )) - Y( I ) ))2được thu nhỏ. Nói cách khác, công cụ dự đoán tốt nhất là công cụ có phân phối chặt chẽ nhất (phương sai nhỏ nhất) xung quanh giá trị dự đoán, tức là phương sai nhỏ nhất. Giảm thiểu tổn thất bình phương nhỏ nhất cũng giống như giảm thiểu phương sai! Điều đó giải thích tại sao tổn thất bình phương nhỏ nhất hoạt động cho một loạt các vấn đề. Tiếng ồn cơ bản rất thường là Gaussian, vì CLT, và giảm thiểu lỗi bình phương hóa ra làđiềuđúngđắn!
Đồng thời đưa cả hai giá trị trung bình và phương sai vào tài khoản, chúng tôi bao gồm một xu hướng hạn trong phân loại của chúng tôi (để xử lý lỗi hệ thống μ ), sau đó giảm thiểu thiệt hại vuông.
Câu hỏi tiếp theo:
Mất bình phương tối thiểu = lỗi Gaussian. Có phải mọi chức năng mất khác cũng tương ứng với một số phân phối tiếng ồn? Đúng. Ví dụ, ℓ1 lỗ (giảm thiểu giá trị tuyệt đối thay vì lỗi bình phương) tương ứng với phân phối Laplace (Nhìn vào công thức cho PDF trong hộp thông tin - nó chỉ là Gaussian với | x-L | thay vì ( X - μ )2 ). Một mất mát phổ biến cho phân phối xác suất là phân kỳ KL . -Phân phối Gaussian được thúc đẩy rất tốt vì Định lý giới hạn trung tâm, mà chúng ta đã thảo luận trước đó. Khi nào phân phối Laplace đúng mô hình tiếng ồn? Có một số trường hợp nó đã phát sinh một cách tự nhiên, nhưng nó phổ biến hơn như một regularizer để thực thi thưa thớt : các ℓ1 mất là ít nhất lồi trong số tất cả thiệt hại lồi.
- Như Jan đề cập trong các bình luận, tối thiểu hóa độ lệch bình phương là giá trị trung bình và tối thiểu hóa tổng của độ lệch tuyệt đối là trung vị . Tại sao chúng ta muốn tìm trung vị của phần dư thay vì trung bình? Không giống như trung bình, trung vị không bị loại bỏ bởi một ngoại lệ rất lớn. Vì vậy, ℓ1 mất mát được sử dụng để tăng độ bền. Đôi khi một sự kết hợp của cả hai được sử dụng.
Có những tình huống mà chúng ta giảm thiểu cả Trung bình và Phương sai? Đúng. Tra cứu Bias-Variance Trade-off . Ở đây, chúng tôi đang xem xét một bộ phân loại hθ∈ H và yêu cầu mà trong số đó là tốt nhất. Nếu chúng ta hỏi bộ phân loại nào là tốt nhất cho một vấn đề, thì việc giảm thiểu cả sai lệch và phương sai trở nên quan trọng. Nó chỉ ra rằng luôn có sự đánh đổi giữa họ và chúng tôi sử dụng chính quy để đạt được sự thỏa hiệp.
Về 12 nhiệm kỳ
1/2 không quan trọng và thực tế, cả m - cả hai đều là hằng số. Giá trị tối ưu của θ sẽ giữ nguyên trong cả hai trường hợp.
Biểu thức cho gradient trở nên đẹp hơn với 12 , vì 2 từ hạn vuông hủy bỏ.
- Khi viết mã hoặc thuật toán, chúng ta thường quan tâm nhiều hơn đến độ dốc, vì vậy nó giúp giữ cho nó ngắn gọn. Bạn có thể kiểm tra tiến độ chỉ bằng cách kiểm tra định mức của gradient. Hàm mất mát đôi khi được bỏ qua từ mã vì nó chỉ được sử dụng để xác nhận câu trả lời cuối cùng.
Các m rất hữu ích nếu bạn giải quyết vấn đề này với gradient descent. Sau đó, độ dốc của bạn trở thành trung bình của m thuật ngữ thay vì tổng, vì vậy thang đo của nó không thay đổi khi bạn thêm nhiều điểm dữ liệu.
- Tôi đã gặp phải vấn đề này trước đây: Tôi kiểm tra mã với một số điểm nhỏ và nó hoạt động tốt, nhưng khi bạn kiểm tra nó với toàn bộ tập dữ liệu, có sự mất độ chính xác và đôi khi vượt quá, tức là độ dốc của bạn trở thành
nan
hoặc inf
. Để tránh điều đó, chỉ cần bình thường hóa số lượng điểm dữ liệu.
Các quyết định thẩm mỹ này được sử dụng ở đây để duy trì tính nhất quán với các phương trình trong tương lai nơi bạn sẽ thêm các điều khoản chính quy . Nếu bạn bao gồm m , tham số quy tắc λ sẽ không phụ thuộc vào kích thước tập dữ liệu m và nó sẽ được interpretable hơn trên vấn đề.