Tôi chỉ tò mò tại sao thường chỉ có các quy tắc định mức và . Có bằng chứng về lý do tại sao những điều này là tốt hơn?L 2
Tôi chỉ tò mò tại sao thường chỉ có các quy tắc định mức và . Có bằng chứng về lý do tại sao những điều này là tốt hơn?L 2
Câu trả lời:
Ngoài các bình luận của @ whuber (*).
Cuốn sách của Hastie et al Học thống kê với Sparsity thảo luận về điều này. Họ cũng sử dụng cái được gọi là "định mức" (dấu ngoặc kép vì đây không phải là một quy tắc theo nghĩa toán học nghiêm ngặt (**)), chỉ đơn giản là đếm số lượng các thành phần khác không của một vectơ.
Theo nghĩa đó, định mức được sử dụng để lựa chọn biến, nhưng nó cùng với các chỉ tiêu với không lồi, nên rất khó để tối ưu hóa. Họ lập luận (một lập luận mà tôi nghĩ đến từ Donohoe trong cảm biến nén) rằng định mức , nghĩa là Lasso, là sự lồi lõm tốt nhất của "định mức" ("sự thư giãn lồi gần nhất của lựa chọn tập hợp con tốt nhất"). Cuốn sách đó cũng tham khảo một số cách sử dụng các chỉ tiêu khác . Bóng đơn vị trong -norm với trông như thế nàyl q q < 1 L 1 L 0 L q l q q < 1
(hình ảnh từ wikipedia) trong khi một giải thích bằng hình ảnh về lý do tại sao Lasso có thể cung cấp lựa chọn biến là
Hình ảnh này là từ cuốn sách tham khảo ở trên. Bạn có thể thấy rằng trong trường hợp Lasso (quả bóng đơn vị được vẽ như một viên kim cương), nhiều khả năng các đường viền hình elip (tổng bình phương) trước tiên sẽ chạm vào viên kim cương ở một trong các góc. Trong trường hợp không lồi (hình bóng đơn vị đầu tiên), nhiều khả năng lần chạm đầu tiên giữa ellipsoid và bóng đơn vị sẽ ở một trong các góc, do đó, trường hợp đó sẽ nhấn mạnh lựa chọn biến số thậm chí nhiều hơn so với lasso.
Nếu bạn thử "lasso với hình phạt không lồi" này trong google, bạn sẽ nhận được rất nhiều giấy tờ thực hiện các vấn đề giống như Lasso với hình phạt không lồi như với . q < 1
(*) Để hoàn thiện, tôi sao chép trong các nhận xét của người đăng ký ở đây:
Tôi chưa điều tra cụ thể câu hỏi này, nhưng kinh nghiệm với các tình huống tương tự cho thấy có thể có một câu trả lời định tính hay: tất cả các tiêu chuẩn khác biệt thứ hai tại điểm gốc sẽ tương đương với nhau, trong đó định mức là tiêu chuẩn. Tất cả các chuẩn mực khác sẽ không khác biệt ở điểm gốc và tái tạo một cách định tính hành vi của chúng. Điều đó bao gồm các gam. Trên thực tế, sự kết hợp tuyến tính của định mức và xấp xỉ bất kỳ định mức nào đối với bậc hai tại điểm gốc - và đây là điều quan trọng nhất trong hồi quy mà không vượt quá dư.L 1 L 1 L 2
(**) - "định mức" thiếu tính đồng nhất, là một trong những tiên đề cho định mức. Tính đồng nhất có nghĩa là mà.
Tôi nghĩ rằng câu trả lời cho câu hỏi phụ thuộc rất nhiều vào cách bạn định nghĩa "tốt hơn". Nếu tôi diễn giải đúng, bạn muốn biết lý do tại sao các tiêu chuẩn này xuất hiện thường xuyên so với các tùy chọn khác. Trong trường hợp này, câu trả lời là sự đơn giản. Trực giác đằng sau sự chính quy là tôi có một số vectơ và tôi muốn vectơ đó "nhỏ" theo một nghĩa nào đó. Làm thế nào để bạn mô tả kích thước của một vector? Vâng, bạn có lựa chọn:
Bạn có thể sử dụng các tiêu chuẩn thay thế như , nhưng họ không có những diễn giải vật lý, thân thiện như những điều trên.
Trong danh sách này, định mức có các giải pháp phân tích dạng đóng, đẹp cho những thứ như các vấn đề bình phương nhỏ nhất. Trước khi bạn có sức mạnh tính toán không giới hạn, người ta sẽ không thể thực hiện nhiều bước tiến khác. Tôi sẽ suy đoán rằng hình ảnh "chiều dài của mũi tên" cũng hấp dẫn mọi người hơn các biện pháp kích thước khác. Mặc dù tiêu chuẩn bạn chọn cho việc chính quy hóa tác động đến các loại dư mà bạn nhận được bằng một giải pháp tối ưu, tôi không nghĩ rằng hầu hết mọi người đều nhận thức được điều đó, hoặc b) xem xét nó sâu sắc khi hình thành vấn đề của họ. Tại thời điểm này, tôi hy vọng hầu hết mọi người tiếp tục sử dụng vì đó là "những gì mọi người làm."L 2
Một sự tương tự sẽ là hàm số mũ, - nó xuất hiện theo nghĩa đen ở mọi nơi trong vật lý, kinh tế, thống kê, học máy hoặc bất kỳ lĩnh vực điều khiển toán học nào khác. Tôi đã tự hỏi mãi mãi tại sao mọi thứ trong cuộc sống dường như được mô tả theo cấp số nhân, cho đến khi tôi nhận ra rằng con người chúng ta không có quá nhiều mánh khóe. Các hàm mũ có các thuộc tính rất tiện dụng để thực hiện đại số và phép tính, và do đó, chúng cuối cùng trở thành hàm số 1 trong bất kỳ hộp công cụ của nhà toán học nào khi cố gắng mô hình hóa một cái gì đó trong thế giới thực. Có thể những thứ như thời gian trang trí "tốt hơn" được mô tả bởi một đa thức bậc cao, nhưng những thứ đó tương đối khó hơn để làm đại số, và vào cuối ngày, điều quan trọng là công ty của bạn đang kiếm tiền - theo cấp số nhân đơn giản và đủ tốt
Mặt khác, sự lựa chọn của định mức có tác động rất chủ quan, và tùy thuộc vào bạn là người nêu rõ vấn đề để xác định những gì bạn thích trong một giải pháp tối ưu. Bạn có quan tâm nhiều hơn rằng tất cả các thành phần trong vectơ giải pháp của bạn có độ lớn tương tự nhau hay kích thước của thành phần lớn nhất càng nhỏ càng tốt? Sự lựa chọn đó sẽ phụ thuộc vào vấn đề cụ thể mà bạn đang giải quyết.
Lý do chính để xem hầu hết các chỉ tiêu và là vì chúng bao gồm phần lớn các ứng dụng hiện tại. Ví dụ: định mức cũng được gọi là định mức taxicab , một chỉ tiêu kết nối mạng tinh thể, bao gồm định mức giá trị tuyệt đối . L 2 L 1
n ‖ Một x - b ‖ 2 + ‖ Γ x ‖ 2 L 2 chỉ tiêu , ngoài các bình phương tối thiểu, khoảng cách Euclide trong -space cũng như định mức biến phức . Hơn nữa, Tikhonov chính quy và hồi quy sườn , tức là, các ứng dụng giảm thiểu , thường được coi là định mức .
Wikipedia cung cấp thông tin về những điều này và các chuẩn mực khác . Đáng nói đến là . Định mức tổng quát , định mức cũng được gọi là định mức thống nhất .L ∞