Cầu phạt so với chính quy lưới


22

Một số chức năng phạt và các xấp xỉ được nghiên cứu kỹ, chẳng hạn như LASSO ( ) và ( ) và cách so sánh chúng trong hồi quy.L1L2

Tôi đã đọc về hình phạt Cầu, đó là hình phạt tổng quát . So sánh với LASSO, có \ gamma = 1 và Sườn, với \ gamma = 2 , biến chúng thành những trường hợp đặc biệt.βjγγ=1γ=2

Ôn Giang [ 1 ] đã so sánh hình phạt Cầu khi γ1 với LASSO, nhưng tôi không thể tìm thấy sự so sánh với chính quy của Mạng đàn hồi, sự kết hợp giữa hình phạt LASSO và hình phạt, được đưa ra là λ2β2+λ1β1 .

Đây là một câu hỏi thú vị bởi vì Mạng đàn hồi và Cầu cụ thể này có các hình thức ràng buộc tương tự. So sánh các vòng tròn đơn vị này bằng các số liệu khác nhau ( p là sức mạnh của khoảng cách Minkowski ):

Vòng tròn đơn vị cho các quyền hạn khác nhau của khoảng cách Minkowski

p=1 tương ứng với LASSO, p=2 với Sườn và p=1.4 với một cây cầu có thể. Mạng đàn hồi được tạo với trọng số bằng nhau trên các hình phạt L1L2 . Những số liệu này rất hữu ích để xác định độ thưa thớt, ví dụ (mà Bridge rõ ràng thiếu trong khi Elastic Net bảo tồn nó khỏi LASSO).

Vậy làm thế nào để Bridge với 1<γ<2 so sánh với Elastic Net về tính chính quy (không phải là độ thưa)? Tôi đặc biệt quan tâm đến việc học có giám sát, vì vậy có lẽ một cuộc thảo luận về lựa chọn / trọng số là thích hợp. Lập luận hình học cũng được chào đón.

Có lẽ, quan trọng hơn, là mạng đàn hồi luôn luôn được mong muốn hơn trong trường hợp này?


[1] Fu, WJ (1998). Hồi quy hình phạt: cây cầu so với Lasso. Tạp chí thống kê tính toán và đồ họa, 7 (3), 397-416.


EDIT: Có câu hỏi này Làm thế nào để quyết định sử dụng biện pháp hình phạt nào? bất kỳ hướng dẫn chung hoặc quy tắc ngón tay cái nào trong sách giáo khoa mà bề ngoài đề cập đến LASSO, Sườn, Cầu và Mạng đàn hồi, nhưng không có nỗ lực để so sánh chúng.


4
Chỉ liên quan về mặt tiếp tuyến, nhưng nếu hình phạt định mức là ước tính MAP của hồi quy Bayes với các linh mục Laplace độc ​​lập về các hệ số, và là giống nhau đối với các linh mục Gaussian, tôi tự hỏi liệu hình phạt Bridge có tương đương với Subbotin trước ... stats.stackexchange.com/questions/201038/ MạnhL1L2
Sycorax nói Phục hồi lại

@RichardHardy Không cần phải viết lasso trong tất cả các thủ đô, xem bình luận của tôi ở đây .
amip nói phục hồi Monica

2
Hãy nhớ rằng hồi quy cầu cho phép mang lại hồi quy không lồi. Điều này đặc biệt tốt khi cố gắng chọn các nhóm đồng biến, đặc biệt là từ dữ liệu thưa thớt. Hoặc nói chung, bạn có thể có các nhóm hiệp phương thức được xác định trước, bạn sẽ chính quy hóa để không có nhóm cụ thể nào lớn, và sau đó chính quy hóa các hệ số nhóm đơn lẻ để đạt được độ thưa. Tức là nếu bạn viết , trong đó thì bạn có thể làm . γ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR. Tôi thực sự nên làm rõ rằng tôi tham khảo . Tôi không biết cũng được gọi là Cầu. γ1γ<1
Firebug

1
@amoeba, được rồi, tốt thôi. Tôi thường không chỉnh sửa nếu việc sử dụng chữ hoa là nhất quán trong toàn bộ bài viết, nhưng lần này có cả "LASSO" và "lasso", vì vậy tôi chỉ dùng "LASSO" là hình thức đầu tiên trong bài. Tôi luôn nghĩ về từ viết tắt, đó là lý do tại sao tôi sử dụng tất cả các chữ viết hoa; nhưng như bạn nói, "lasso" đơn giản có thể tốt hơn.
Richard Hardy

Câu trả lời:


20

Làm thế nào hồi quy cầu và lưới đàn hồi khác nhau là một câu hỏi hấp dẫn, với hình phạt tương tự của họ. Đây là một cách tiếp cận có thể. Giả sử chúng ta giải bài toán hồi quy cầu. Sau đó chúng ta có thể hỏi làm thế nào các giải pháp lưới đàn hồi sẽ khác nhau. Nhìn vào độ dốc của hai hàm mất có thể cho chúng ta biết điều gì đó về điều này.

Hồi quy cầu

Nói là một ma trận chứa các giá trị của biến độc lập ( điểm x kích thước), là một vectơ chứa các giá trị của biến phụ thuộc và là vectơ trọng số.Xndyw

Hàm mất mát xử phạt định mức của các trọng số, với cường độ :qλb

Lb(w)=yXw22+λbwqq

Độ dốc của hàm mất là:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

vc biểu thị sức mạnh Hadamard (tức là yếu tố khôn ngoan), cung cấp một vectơ có phần tử thứ là . là hàm dấu (áp dụng cho từng phần tử của ). Độ dốc có thể không được xác định ở mức 0 đối với một số giá trị của .ivicsgn(w)wq

Lưới đàn hồi

Hàm mất là:

Le(w)=yXw22+λ1w1+λ2w22

Điều này sẽ xử phạt định mức của các trọng số có độ lớn và định mức với cường độ . Các giấy lưới đàn hồi gọi tối thiểu hóa chức năng mất này là 'lưới đàn hồi ngây thơ' vì nó gấp đôi trọng lượng. Họ mô tả một quy trình cải tiến trong đó các trọng số sau đó được định cỡ lại để bù cho độ co đôi, nhưng tôi sẽ phân tích phiên bản ngây thơ. Đó là một cảnh báo cần ghi nhớ.1λ12λ2

Độ dốc của hàm mất là:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Độ dốc không được xác định ở mức 0 khi vì giá trị tuyệt đối trong hình phạt không khác biệt ở đó.λ1>01

Tiếp cận

Giả sử chúng tôi chọn trọng số giải quyết vấn đề hồi quy cầu. Điều này có nghĩa là độ dốc hồi quy cầu là 0 tại thời điểm này:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Vì thế:

2XT(yXw)=λbq|w|(q1)sgn(w)

Chúng ta có thể thay thế điều này vào gradient mạng đàn hồi, để có được biểu thức cho gradient mạng đàn hồi tại . May mắn thay, nó không còn phụ thuộc trực tiếp vào dữ liệu:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Nhìn vào độ dốc của lưới đàn hồi tại cho chúng ta biết: Do hồi quy cầu đã hội tụ đến các trọng số , làm thế nào lưới đàn hồi muốn thay đổi các trọng số này?ww

Nó cho chúng ta hướng địa phương và cường độ của sự thay đổi mong muốn, bởi vì các điểm dốc theo hướng đi lên dốc nhất và hàm mất sẽ giảm khi chúng ta di chuyển theo hướng ngược lại với độ dốc. Độ dốc có thể không hướng trực tiếp vào dung dịch lưới đàn hồi. Nhưng, vì hàm mất mạng đàn hồi là lồi, hướng / cường độ cục bộ cung cấp một số thông tin về cách giải pháp lưới đàn hồi sẽ khác với giải pháp hồi quy cầu.

Trường hợp 1: Kiểm tra vệ sinh

( ). Hồi quy cầu trong trường hợp này tương đương với bình phương tối thiểu thông thường (OLS), vì cường độ hình phạt bằng không. Mạng đàn hồi là hồi quy sườn tương đương, vì chỉ có định mức bị phạt. Các sơ đồ sau đây cho thấy các giải pháp hồi quy cầu khác nhau và cách thức độ dốc của lưới đàn hồi đối với từng loại.λb=0,λ1=0,λ2=12

nhập mô tả hình ảnh ở đây

Biểu đồ bên trái: Độ dốc lưới đàn hồi so với trọng lượng hồi quy cầu dọc theo mỗi chiều

Trục x đại diện cho một thành phần của một tập các trọng số được chọn bằng hồi quy cầu. Trục y biểu thị thành phần tương ứng của độ dốc lưới đàn hồi, được đánh giá tại . Lưu ý rằng các trọng số là đa chiều, nhưng chúng ta chỉ nhìn vào các trọng số / độ dốc dọc theo một chiều.ww

Biểu đồ bên phải: Thay đổi mạng đàn hồi thành trọng số hồi quy cầu (2đ)

Mỗi điểm đại diện cho một tập hợp các trọng số 2d được chọn bằng hồi quy cầu. Đối với mỗi lựa chọn của , một vectơ được vẽ theo hướng đối diện với độ dốc của lưới đàn hồi, với độ lớn tỷ lệ với độ dốc của độ dốc. Đó là, các vectơ được vẽ cho thấy lưới đàn hồi muốn thay đổi giải pháp hồi quy cầu như thế nào.ww

Các sơ đồ này cho thấy, so với hồi quy cầu (OLS trong trường hợp này), lưới đàn hồi (hồi quy sườn trong trường hợp này) muốn thu nhỏ trọng số về 0. Lượng co rút mong muốn tăng theo độ lớn của trọng lượng. Nếu các trọng số bằng 0, các giải pháp là như nhau. Giải thích là chúng tôi muốn di chuyển theo hướng ngược lại với độ dốc để giảm chức năng mất. Ví dụ, giả sử hồi quy cầu hội tụ đến một giá trị dương cho một trong các trọng số. Độ dốc của lưới đàn hồi là dương tại thời điểm này, vì vậy lưới đàn hồi muốn giảm trọng lượng này. Nếu sử dụng độ dốc gốc, chúng tôi sẽ thực hiện các bước theo kích thước tỷ lệ với độ dốc (tất nhiên, về mặt kỹ thuật, chúng tôi không thể sử dụng độ dốc của độ dốc để giải quyết mạng lưới đàn hồi vì không phân biệt ở mức 0,

Trường hợp 2: Cầu nối & lưới đàn hồi

( ). Tôi đã chọn các tham số hình phạt cầu để phù hợp với ví dụ từ câu hỏi. Tôi đã chọn các thông số mạng đàn hồi để đưa ra hình phạt mạng đàn hồi phù hợp nhất. Ở đây, phương tiện phù hợp nhất, được phân bổ trọng số cụ thể, chúng tôi tìm thấy các tham số hình phạt thuần đàn hồi nhằm giảm thiểu chênh lệch bình phương dự kiến ​​giữa hình phạt cầu và hình phạt đàn hồi:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

Ở đây, tôi đã xem xét các trọng số với tất cả các mục được rút ra từ phân phối đồng đều trên (tức là trong một hypercube tập trung ở điểm gốc). Các thông số mạng đàn hồi phù hợp nhất là tương tự cho 2 đến 1000 kích thước. Mặc dù chúng dường như không nhạy cảm với kích thước, các tham số phù hợp nhất sẽ phụ thuộc vào quy mô phân phối.[2,2]

Bề mặt phạt

Đây là một đường viền của tổng số hình phạt được áp dụng bởi hồi quy cầu ( ) và lưới đàn hồi phù hợp nhất ( ) là một hàm của trọng số (đối với trường hợp 2d ):q=1.4,λb=100λ1=0.629,λ2=0.355

nhập mô tả hình ảnh ở đây

Hành vi gradient

nhập mô tả hình ảnh ở đây

Chúng ta có thể thấy như sau:

  • Đặt là trọng số hồi quy cầu được chọn dọc theo chiều .wjj
  • Nếu , lưới đàn hồi muốn thu nhỏ trọng lượng về 0.|wj|<0.25
  • Nếu , hồi quy cầu và giải pháp lưới đàn hồi là như nhau. Nhưng, lưới đàn hồi muốn di chuyển đi nếu trọng lượng khác nhau thậm chí một chút.|wj|0.25
  • Nếu , lưới đàn hồi muốn tăng trọng lượng.0.25<|wj|<1.31
  • Nếu , hồi quy cầu và các giải pháp mạng đàn hồi là như nhau. Lưới đàn hồi muốn di chuyển về điểm này từ các trọng lượng gần đó.|wj|1.31
  • Nếu , lưới đàn hồi muốn thu nhỏ trọng lượng.|wj|>1.31

Các kết quả tương tự về mặt chất lượng nếu chúng ta thay đổi giá trị của và / hoặc và tìm ra tốt nhất tương ứng . Các điểm mà các giải pháp cầu và lưới đàn hồi trùng nhau thay đổi một chút, nhưng hành vi của độ dốc là tương tự nhau.qλbλ1,λ2

Trường hợp 3: Cầu không khớp & lưới đàn hồi

(q=1.8,λb=1,λ1=0.765,λ2=0.225) . Trong chế độ này, hồi quy cầu hoạt động tương tự như hồi quy sườn. Tôi đã tìm thấy phù hợp nhất , nhưng sau đó hoán đổi chúng để lưới đàn hồi hoạt động giống như lasso ( hình phạt lớn hơn hình phạt ).λ1,λ212

nhập mô tả hình ảnh ở đây

Liên quan đến hồi quy cầu, lưới đàn hồi muốn thu nhỏ trọng lượng nhỏ về 0 và tăng trọng lượng lớn hơn. Có một tập hợp các trọng số trong mỗi góc phần tư trong đó các giải pháp hồi quy cầu và lưới đàn hồi trùng nhau, nhưng lưới đàn hồi muốn di chuyển khỏi điểm này nếu các trọng số khác nhau thậm chí chỉ một chút.

(q=1.2,λb=1,λ1=173,λ2=0.816) . Trong chế độ này, hình phạt cầu tương tự như hình phạt (mặc dù hồi quy cầu có thể không tạo ra các giải pháp thưa thớt với , như đã đề cập trong bài báo mạng đàn hồi). Tôi đã tìm thấy phù hợp nhất , nhưng sau đó hoán đổi chúng để lưới đàn hồi hoạt động giống như hồi quy sườn ( hình phạt lớn hơn hình phạt ).1q>1λ1,λ221

nhập mô tả hình ảnh ở đây

Liên quan đến hồi quy cầu, lưới đàn hồi muốn tăng trọng lượng nhỏ và thu nhỏ trọng lượng lớn hơn. Có một điểm trong mỗi góc phần tư nơi hồi quy cầu và các giải pháp lưới đàn hồi trùng khớp và lưới đàn hồi muốn di chuyển về phía các trọng số này từ các điểm lân cận.


3
(+1) Câu trả lời tuyệt vời, cảm ơn vì nỗ lực! Bạn có thể giải quyết một điều cuối cùng: "Mạng đàn hồi luôn được mong muốn hơn không?". Không cần phải dài dòng;
Firebug

6
Hồi quy cầu và lưới đàn hồi tương đương với ước tính MAP với các loại linh mục khác nhau trên các trọng số. Từ quan điểm này, có vẻ như sự lựa chọn tốt hơn sẽ là ưu tiên phù hợp hơn với quá trình tạo dữ liệu và không phương pháp nào có thể tốt hơn trong mọi trường hợp.
dùng20160

2
+6, câu trả lời rất hay. Về nhận xét trên của bạn: những gì trước năng suất hồi quy cầu? Tôi biết rằng Gaussian trước tương ứng với sườn núi và Laplace trước Lasso. Người ta có thể bằng cách nào đó kết hợp những linh mục này để có được một cái gì đó tương ứng với lưới đàn hồi?
amip nói rằng Phục hồi lại

2
@amoeba Câu hỏi không được gửi cho tôi, tôi biết, nhưng như GeneralAbrial đã nói trong câu hỏi, cây cầu có thể tương ứng với một Subbotin trước đó. Lưới đàn hồi, như mong đợi, là giữa các linh mục Gaussian và Laplacian. Xem Li, Q., & Lin, N. (2010). Lưới đàn hồi Bayes. Phân tích Bayes, 5 (1), 151-170. Zou, H., & Hastie, T. (2005). Thường xuyên và lựa chọn biến qua mạng đàn hồi. Tạp chí của Hiệp hội Thống kê Hoàng gia: Dòng B (Phương pháp thống kê), 67 (2), 301-320. để so sánh ngắn gọn giữa lưới đàn hồi và hồi quy cầu.
Firebug

2
@amoeba cảm ơn vì tiền thưởng và thu hút sự chú ý đến bài đăng này, tương tự cho bài đăng khác về PCA so với giảm kích thước phi tuyến. Thật đáng ngưỡng mộ khi bạn sử dụng đại diện của mình để quảng bá câu hỏi / câu trả lời của người khác và điều đó làm tôi vui nếu bài đăng này ít nhất là một số giá trị nhỏ đối với mọi người. Những người khác, cảm ơn vì những lời tốt đẹp.
user20160
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.