Sự ổn định về số lượng và quá mức trong một số vấn đề có liên quan nhưng khác nhau.
Vấn đề OLS cổ điển:
Hãy xem xét vấn đề bình phương tối thiểu cổ điển:
minimize(over b)(y−Xb)T(y−Xb)
Giải pháp là . Một ý tưởng là theo luật số lượng lớn:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Do đó, ước tính OLS cũng hội tụ thành . (Trong thuật ngữ đại số tuyến tính, đây là phép chiếu tuyến tính của biến ngẫu nhiên lên khoảng tuyến tính của các biến ngẫu nhiên .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Các vấn đề?
Cơ học, những gì có thể đi sai? Vấn đề có thể là gì?
- Đối với các mẫu nhỏ, ước tính mẫu của chúng tôi về và có thể kém.E[xx′]E[xy]
- Nếu các cột của là cộng tuyến (do cộng tuyến vốn có hoặc kích thước mẫu nhỏ), vấn đề sẽ có một giải pháp liên tục! Giải pháp có thể không phải là duy nhất.
X
- Điều này xảy ra nếu bị thiếu thứ hạng.E[xx′]
- Điều này cũng xảy ra nếu bị thiếu thứ hạng do kích thước mẫu nhỏ so với số lượng vấn đề hồi quy.X′X
Vấn đề (1) có thể dẫn đến việc quá mức khi ước tính bắt đầu phản ánh các mẫu trong mẫu không có trong quần thể bên dưới. Ước tính có thể phản ánh các mẫu trong và không thực sự tồn tại trong vàb^1nX′X1nX′yE[xx′]E[xy]
Vấn đề (2) có nghĩa là một giải pháp không phải là duy nhất. Hãy tưởng tượng chúng ta đang cố gắng ước tính giá của từng đôi giày nhưng đôi giày luôn được bán cùng nhau. Đây là một vấn đề khó khăn, nhưng hãy nói rằng dù sao chúng ta cũng đang làm điều đó. Chúng tôi có thể tin rằng giá giày bên trái cộng với giá giày bên phải bằng 50 đô la , nhưng làm thế nào chúng tôi có thể đưa ra giá cá nhân? Đặt giá giày trái và giá giày phải ổn không? Làm thế nào chúng ta có thể chọn từ tất cả các khả năng?pl=45pr=5
Giới thiệu hình phạt :L2
Bây giờ hãy xem xét:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Điều này có thể giúp chúng tôi với cả hai loại vấn đề. Hình phạt đẩy ước tính của chúng tôi về về không. Hàm này hoạt động hiệu quả như một Bayes trước khi phân phối trên các giá trị hệ số được tập trung xung quanh . Điều đó giúp với quá mức. Ước tính của chúng tôi sẽ phản ánh cả dữ liệu và niềm tin ban đầu của chúng tôi rằng gần bằng không.L2b0b
L2 quy hóa cũng luôn luôn chúng tôi tìm ra một giải pháp độc đáo cho các vấn đề không chính đáng. Nếu chúng ta biết tổng giá của giày trái và phải , thì giải pháp tối thiểu định mức là chọn .$50L2pl=pr=25
Đây có phải là phép thuật không? Không. Chính quy hóa không giống như thêm dữ liệu thực sự sẽ cho phép chúng tôi trả lời câu hỏi. quy hóa trong một số ý nghĩa chấp nhận quan điểm rằng nếu bạn thiếu dữ liệu, hãy chọn ước tính gần hơn .L20