Câu trả lời:
Hãy để chúng tôi tưởng tượng rằng bạn muốn suy ra một số tham số từ một số cặp đầu vào-đầu ra được quan sát . Chúng ta hãy giả sử rằng các đầu ra có liên quan tuyến tính với các đầu vào thông qua và dữ liệu bị hỏng bởi một số nhiễu :
Trong đó là nhiễu Gaussian với trung bình và phương sai . Điều này dẫn đến khả năng Gaussian:
Chúng ta hãy chuẩn hóa tham số bằng cách áp dụng Gaussian trước trong đó là một vô hướng tích cực. Do đó, kết hợp khả năng và trước đó chúng ta chỉ cần có:
Hãy để chúng tôi lấy logarit của biểu thức trên. Bỏ một số hằng số chúng ta nhận được:
Nếu chúng tôi tối đa hóa biểu thức trên đối với , chúng tôi sẽ nhận được cái gọi là ước tính a-posteriori tối đa cho hoặc ước tính MAP. Trong biểu thức này, rõ ràng tại sao Gaussian trước có thể được hiểu là một thuật ngữ chính quy L2.
Tương tự như vậy, mối quan hệ giữa định mức L1 và Laplace trước có thể được hiểu theo cùng một cách. Thay vì Gaussian trước, Laplace trước kết hợp nó với khả năng của bạn và lấy logarit.
Một tài liệu tham khảo tốt (có lẽ hơi tiên tiến) nêu chi tiết cả hai vấn đề là bài viết "Độ thích ứng thưa thớt cho việc học có giám sát", hiện không dễ tìm thấy trên mạng. Hoặc xem "Độ thích ứng thưa thớt bằng cách sử dụng Jeffreys Prior" . Một tài liệu tham khảo tốt khác là "Phân loại Bayes với các linh mục Laplace" .
Đối với một mô hình tuyến tính với khả năng bình thường đa biến trước và đa biến bình thường, bạn kết thúc với phân phối sau thông thường đa biến trong đó giá trị trung bình của mô hình sau (và tối đa là mô hình posteriori) chính xác là những gì bạn sẽ có được khi sử dụng Tikhonov được chuẩn hóa ( chính quy) bình phương tối thiểu với một tham số chính quy thích hợp.
Lưu ý rằng có một sự khác biệt cơ bản hơn ở chỗ, phần sau của Bayes là phân phối xác suất, trong khi giải pháp bình phương tối thiểu hóa Tikhonov là một ước tính điểm cụ thể.
Điều này được thảo luận trong nhiều sách giáo khoa về các phương pháp Bayes cho các vấn đề nghịch đảo, Xem ví dụ:
http://www.amazon.com/Inverse-Probols-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Probols-Second/dp/0123850487/
Tương tự, nếu bạn có Laplacian trước và khả năng bình thường đa biến, thì mức tối đa của phân phối sau xảy ra tại một điểm mà bạn có thể nhận được bằng cách giải bài toán bình phương tối thiểu .
Đầu tiên lưu ý rằng trung vị giảm thiểu định mức L1 (xem tại đây hoặc tại đây để tìm hiểu thêm về L1 và L2)
trong khi đó có nghĩa là giảm thiểu L2
bây giờ, hãy nhớ rằng tham số phân phối bình thường có thể được ước tính bằng cách sử dụng giá trị trung bình mẫu , trong khi công cụ ước tính MLE cho tham số Laplace phân phối là trung vị. Vì vậy, sử dụng phân phối Bình thường tương đương với tối ưu hóa định mức L2 và sử dụng phân phối Laplace, để sử dụng tối ưu hóa L1. Trong thực tế, bạn có thể nghĩ về điều đó vì trung vị ít nhạy cảm với các ngoại lệ hơn so với trung bình và tương tự, sử dụng phân phối Laplace đuôi rộng hơn trước làm cho mô hình của bạn ít bị ngoại lệ hơn so với sử dụng phân phối Bình thường.
Hurley, WJ (2009) Một cách tiếp cận quy nạp để tính toán MLE cho phân bố hàm mũ đôi . Tạp chí Phương pháp thống kê ứng dụng hiện đại: 8 (2), Điều 25.
Đối với bài toán hồi quy với biến (w / o chặn), bạn thực hiện OLS như
Trong hồi quy thường xuyên với hình phạt bạn làm
Chúng ta có thể làm tương tự (lưu ý các thay đổi dấu hiệu)
Điều này liên quan trực tiếp đến nguyên tắc Bayes của
hoặc tương đương (trong điều kiện thường xuyên)
Bây giờ không khó để thấy phân phối gia đình theo cấp số nhân tương ứng với loại hình phạt nào.
Để đặt sự tương đương chính xác hơn:
Tối ưu hóa các trọng số mô hình để giảm thiểu hàm mất lỗi bình phương với chính quy L2 tương đương với việc tìm các trọng số có khả năng nhất theo phân phối sau được đánh giá bằng quy tắc Bayes, với trọng số Gaussian độc lập trung bình bằng 0
Bằng chứng:
Hàm mất mát như mô tả ở trên sẽ được cung cấp bởi
Lưu ý rằng phân phối cho một Gaussian đa biến là
Sử dụng quy tắc Bayes, chúng ta có điều đó
Nơi chúng tôi có thể phân chia Guassian đa chiều thành một sản phẩm, bởi vì hiệp phương sai là bội số của ma trận danh tính.
Lấy xác suất nhật ký âm
Tất nhiên chúng ta có thể bỏ hằng số, và nhân với bất kỳ số tiền nào mà không ảnh hưởng cơ bản đến chức năng mất. (hằng số không làm gì, phép nhân có hiệu quả tỷ lệ học tập. Sẽ không ảnh hưởng đến vị trí cực tiểu) Vì vậy, chúng ta có thể thấy rằng xác suất log âm của phân phối sau là một hàm mất tương đương với hàm mất lỗi vuông bình thường L2.
Sự tương đương này là chung và giữ cho bất kỳ chức năng tham số hóa nào của trọng số - không chỉ là hồi quy tuyến tính như dường như được ngụ ý ở trên.
Có hai đặc điểm của mô hình Bayes cần được nhấn mạnh, khi thảo luận về sự tương đương của ước tính khả năng tối đa bị phạt nhất định và các thủ tục Bayes.
D dimension
trường hợp hồi quy tuyến tính, có thểbeta
vàsigma
có giải pháp rõ ràng? Tôi đang đọc PRML và tìm phương trình (1.67) trên trang 30 và không biết làm thế nào để giải quyết nó. Trong khả năng tối đa, chúng tôi giải quyếtbeta
và sau đósigma
bằng cách đặt độ dốc về không. Trong bình phương tối thiểu thường xuyên, vì một số thông sốlambda
được biết đến, chúng tôi giải quyếtbeta
trực tiếp. Nhưng nếu chúng ta trực tiếp giải quyết MAP, trình tự giải quyết là gìbeta
,sigma
? Họ có thể có giải pháp rõ ràng hay chúng ta phải sử dụng một quá trình lặp lại?