Tại sao chúng ta chỉ thấy và chính quy mà không phải là các chỉ tiêu khác?


36

Tôi chỉ tò mò tại sao thường chỉ có các quy tắc định mức và . Có bằng chứng về lý do tại sao những điều này là tốt hơn?L 2L1L2


13
(+1) Tôi chưa điều tra cụ thể câu hỏi này, nhưng kinh nghiệm với các tình huống tương tự cho thấy có thể có một câu trả lời định tính hay: tất cả các tiêu chuẩn có thể phân biệt thứ hai tại điểm gốc sẽ tương đương cục bộ với nhau, trong đó định mức là tiêu chuẩn. Tất cả các chuẩn mực khác sẽ không khác biệt ở điểm gốc và tái tạo một cách định tính hành vi của chúng. Điều đó bao gồm các gam. Trên thực tế, sự kết hợp tuyến tính của một chỉ tiêu và gần đúng với bất kỳ định mức nào đối với bậc hai tại điểm gốc - và đây là điều quan trọng nhất trong hồi quy mà không vượt quá dư. L 1 L 1 L 2L2L1L1L2
whuber

3
Có: đây thực chất là định lý của Taylor.
whuber

4
Tiền đề của câu hỏi là sai: các dấu khác được sử dụng, mặc dù ít phổ biến hơn nhiều. p
Firebug

3
Sự kết hợp tuyến tính mà @whuber đề cập thường được gọi là lưới đàn hồi .
Luca Citi

4
Ngoài ra, trong số các chỉ tiêu Lp, cũng nhận được rất nhiều số dặm. L
dùng795305

Câu trả lời:


28

Ngoài các bình luận của @ whuber (*).

Cuốn sách của Hastie et al Học thống kê với Sparsity thảo luận về điều này. Họ cũng sử dụng cái được gọi là "định mức" (dấu ngoặc kép vì đây không phải là một quy tắc theo nghĩa toán học nghiêm ngặt (**)), chỉ đơn giản là đếm số lượng các thành phần khác không của một vectơ.L0

Theo nghĩa đó, định mức được sử dụng để lựa chọn biến, nhưng nó cùng với các chỉ tiêu với không lồi, nên rất khó để tối ưu hóa. Họ lập luận (một lập luận mà tôi nghĩ đến từ Donohoe trong cảm biến nén) rằng định mức , nghĩa là Lasso, là sự lồi lõm tốt nhất của "định mức" ("sự thư giãn lồi gần nhất của lựa chọn tập hợp con tốt nhất"). Cuốn sách đó cũng tham khảo một số cách sử dụng các chỉ tiêu khác . Bóng đơn vị trong -norm với trông như thế nàyl q q < 1 L 1 L 0 L q l q q < 1L0lqq<1L1L0Lqlqq<1

nhập mô tả hình ảnh ở đây

(hình ảnh từ wikipedia) trong khi một giải thích bằng hình ảnh về lý do tại sao Lasso có thể cung cấp lựa chọn biến là

nhập mô tả hình ảnh ở đây

Hình ảnh này là từ cuốn sách tham khảo ở trên. Bạn có thể thấy rằng trong trường hợp Lasso (quả bóng đơn vị được vẽ như một viên kim cương), nhiều khả năng các đường viền hình elip (tổng bình phương) trước tiên sẽ chạm vào viên kim cương ở một trong các góc. Trong trường hợp không lồi (hình bóng đơn vị đầu tiên), nhiều khả năng lần chạm đầu tiên giữa ellipsoid và bóng đơn vị sẽ ở một trong các góc, do đó, trường hợp đó sẽ nhấn mạnh lựa chọn biến số thậm chí nhiều hơn so với lasso.

Nếu bạn thử "lasso với hình phạt không lồi" này trong google, bạn sẽ nhận được rất nhiều giấy tờ thực hiện các vấn đề giống như Lasso với hình phạt không lồi như với . q < 1lqq<1

(*) Để hoàn thiện, tôi sao chép trong các nhận xét của người đăng ký ở đây:

Tôi chưa điều tra cụ thể câu hỏi này, nhưng kinh nghiệm với các tình huống tương tự cho thấy có thể có một câu trả lời định tính hay: tất cả các tiêu chuẩn khác biệt thứ hai tại điểm gốc sẽ tương đương với nhau, trong đó định mức là tiêu chuẩn. Tất cả các chuẩn mực khác sẽ không khác biệt ở điểm gốc và tái tạo một cách định tính hành vi của chúng. Điều đó bao gồm các gam. Trên thực tế, sự kết hợp tuyến tính của định mức và xấp xỉ bất kỳ định mức nào đối với bậc hai tại điểm gốc - và đây là điều quan trọng nhất trong hồi quy mà không vượt quá dư.L 1 L 1 L 2L2L1L1L2

(**) - "định mức" thiếu tính đồng nhất, là một trong những tiên đề cho định mức. Tính đồng nhất có nghĩa là mà.l0α0αx=αx


1
@kjetilbhalvorsen Cảm ơn bạn đã trả lời sâu sắc. Tôi chọn cách viết siêu phổ biến để phù hợp với câu hỏi và tiêu đề. Tất nhiên bạn có thể viết nó theo cách bạn thích.
Ferdi

@kjetilbhalvorsen Bạn có thể mở rộng một chút về nhận xét của Whuber không? Người ta biết rằng định mức không khác biệt ở điểm gốc ( ví dụ, xem xét ). Không rõ ràng về "sự tương đương cục bộ" của các chỉ tiêu. Tài liệu tham khảo là cần thiết, để nói rằng ít nhất. x | x |L2x|x|
Olivier

@Olivier -norm có thể khác biệt ở điểm gốc, bạn đang nghĩ về -norm. 121
Firebug

@Fireorms Không. Tôi đang nghĩ về định mức trong 1 chiều, giống như định mức . Tui bỏ lỡ điều gì vậy? L 1L2L1
Olivier

2
@Olivier ơi, bạn thực sự đúng. Tôi đã hiểu nhầm, vì bình phương -norm thực sự được sử dụng và nó khác biệt ở mọi nơi. 2
Firebug

12

Tôi nghĩ rằng câu trả lời cho câu hỏi phụ thuộc rất nhiều vào cách bạn định nghĩa "tốt hơn". Nếu tôi diễn giải đúng, bạn muốn biết lý do tại sao các tiêu chuẩn này xuất hiện thường xuyên so với các tùy chọn khác. Trong trường hợp này, câu trả lời là sự đơn giản. Trực giác đằng sau sự chính quy là tôi có một số vectơ và tôi muốn vectơ đó "nhỏ" theo một nghĩa nào đó. Làm thế nào để bạn mô tả kích thước của một vector? Vâng, bạn có lựa chọn:

  • Bạn có đếm có bao nhiêu yếu tố không?(L0)
  • Bạn có thêm tất cả các yếu tố không?(L1)
  • Bạn có đo "mũi tên" dài bao nhiêu không?(L2)
  • Bạn có sử dụng kích thước của phần tử lớn nhất không?(L)

Bạn có thể sử dụng các tiêu chuẩn thay thế như , nhưng họ không có những diễn giải vật lý, thân thiện như những điều trên.L3

Trong danh sách này, định mức có các giải pháp phân tích dạng đóng, đẹp cho những thứ như các vấn đề bình phương nhỏ nhất. Trước khi bạn có sức mạnh tính toán không giới hạn, người ta sẽ không thể thực hiện nhiều bước tiến khác. Tôi sẽ suy đoán rằng hình ảnh "chiều dài của mũi tên" cũng hấp dẫn mọi người hơn các biện pháp kích thước khác. Mặc dù tiêu chuẩn bạn chọn cho việc chính quy hóa tác động đến các loại dư mà bạn nhận được bằng một giải pháp tối ưu, tôi không nghĩ rằng hầu hết mọi người đều nhận thức được điều đó, hoặc b) xem xét nó sâu sắc khi hình thành vấn đề của họ. Tại thời điểm này, tôi hy vọng hầu hết mọi người tiếp tục sử dụng vì đó là "những gì mọi người làm."L 2L2L2

Một sự tương tự sẽ là hàm số mũ, - nó xuất hiện theo nghĩa đen ở mọi nơi trong vật lý, kinh tế, thống kê, học máy hoặc bất kỳ lĩnh vực điều khiển toán học nào khác. Tôi đã tự hỏi mãi mãi tại sao mọi thứ trong cuộc sống dường như được mô tả theo cấp số nhân, cho đến khi tôi nhận ra rằng con người chúng ta không có quá nhiều mánh khóe. Các hàm mũ có các thuộc tính rất tiện dụng để thực hiện đại số và phép tính, và do đó, chúng cuối cùng trở thành hàm số 1 trong bất kỳ hộp công cụ của nhà toán học nào khi cố gắng mô hình hóa một cái gì đó trong thế giới thực. Có thể những thứ như thời gian trang trí "tốt hơn" được mô tả bởi một đa thức bậc cao, nhưng những thứ đó tương đối khó hơn để làm đại số, và vào cuối ngày, điều quan trọng là công ty của bạn đang kiếm tiền - theo cấp số nhân đơn giản và đủ tốtex

Mặt khác, sự lựa chọn của định mức có tác động rất chủ quan, và tùy thuộc vào bạn là người nêu rõ vấn đề để xác định những gì bạn thích trong một giải pháp tối ưu. Bạn có quan tâm nhiều hơn rằng tất cả các thành phần trong vectơ giải pháp của bạn có độ lớn tương tự nhau hay kích thước của thành phần lớn nhất càng nhỏ càng tốt? Sự lựa chọn đó sẽ phụ thuộc vào vấn đề cụ thể mà bạn đang giải quyết.


10

Lý do chính để xem hầu hết các chỉ tiêu và là vì chúng bao gồm phần lớn các ứng dụng hiện tại. Ví dụ: định mức cũng được gọi là định mức taxicab , một chỉ tiêu kết nối mạng tinh thể, bao gồm định mức giá trị tuyệt đối . L 2 L 1L1L2L1

nMột x - b 2 + Γ x 2 L 2L2 chỉ tiêu , ngoài các bình phương tối thiểu, khoảng cách Euclide trong -spacen cũng như định mức biến phức . Hơn nữa, Tikhonov chính quy và hồi quy sườn , tức là, các ứng dụng giảm thiểu , thường được coi là định mức .Axb2+Γx2L2

Wikipedia cung cấp thông tin về những điều này và các chuẩn mực khác . Đáng nói đến là . Định mức tổng quát , định mức cũng được gọi là định mức thống nhất .L0L LpL

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.