Làm thế nào hồi quy cầu và lưới đàn hồi khác nhau là một câu hỏi hấp dẫn, với hình phạt tương tự của họ. Đây là một cách tiếp cận có thể. Giả sử chúng ta giải bài toán hồi quy cầu. Sau đó chúng ta có thể hỏi làm thế nào các giải pháp lưới đàn hồi sẽ khác nhau. Nhìn vào độ dốc của hai hàm mất có thể cho chúng ta biết điều gì đó về điều này.
Hồi quy cầu
Nói là một ma trận chứa các giá trị của biến độc lập ( điểm x kích thước), là một vectơ chứa các giá trị của biến phụ thuộc và là vectơ trọng số.Xndyw
Hàm mất mát xử phạt định mức của các trọng số, với cường độ :ℓqλb
Lb(w)=∥y−Xw∥22+λb∥w∥qq
Độ dốc của hàm mất là:
∇wLb(w)=−2XT(y−Xw)+λbq|w|∘(q−1)sgn(w)
v∘c biểu thị sức mạnh Hadamard (tức là yếu tố khôn ngoan), cung cấp một vectơ có phần tử thứ là . là hàm dấu (áp dụng cho từng phần tử của ). Độ dốc có thể không được xác định ở mức 0 đối với một số giá trị của .ivcisgn(w)wq
Lưới đàn hồi
Hàm mất là:
Le(w)=∥y−Xw∥22+λ1∥w∥1+λ2∥w∥22
Điều này sẽ xử phạt định mức của các trọng số có độ lớn và định mức với cường độ . Các giấy lưới đàn hồi gọi tối thiểu hóa chức năng mất này là 'lưới đàn hồi ngây thơ' vì nó gấp đôi trọng lượng. Họ mô tả một quy trình cải tiến trong đó các trọng số sau đó được định cỡ lại để bù cho độ co đôi, nhưng tôi sẽ phân tích phiên bản ngây thơ. Đó là một cảnh báo cần ghi nhớ.ℓ1λ1ℓ2λ2
Độ dốc của hàm mất là:
∇wLe(w)=−2XT(y−Xw)+λ1sgn(w)+2λ2w
Độ dốc không được xác định ở mức 0 khi vì giá trị tuyệt đối trong hình phạt không khác biệt ở đó.λ1>0ℓ1
Tiếp cận
Giả sử chúng tôi chọn trọng số giải quyết vấn đề hồi quy cầu. Điều này có nghĩa là độ dốc hồi quy cầu là 0 tại thời điểm này:w∗
∇wLb(w∗)=−2XT(y−Xw∗)+λbq|w∗|∘(q−1)sgn(w∗)=0⃗
Vì thế:
2XT(y−Xw∗)=λbq|w∗|∘(q−1)sgn(w∗)
Chúng ta có thể thay thế điều này vào gradient mạng đàn hồi, để có được biểu thức cho gradient mạng đàn hồi tại . May mắn thay, nó không còn phụ thuộc trực tiếp vào dữ liệu:w∗
∇wLe(w∗)=λ1sgn(w∗)+2λ2w∗−λbq|w∗|∘(q−1)sgn(w∗)
Nhìn vào độ dốc của lưới đàn hồi tại cho chúng ta biết: Do hồi quy cầu đã hội tụ đến các trọng số , làm thế nào lưới đàn hồi muốn thay đổi các trọng số này?w∗w∗
Nó cho chúng ta hướng địa phương và cường độ của sự thay đổi mong muốn, bởi vì các điểm dốc theo hướng đi lên dốc nhất và hàm mất sẽ giảm khi chúng ta di chuyển theo hướng ngược lại với độ dốc. Độ dốc có thể không hướng trực tiếp vào dung dịch lưới đàn hồi. Nhưng, vì hàm mất mạng đàn hồi là lồi, hướng / cường độ cục bộ cung cấp một số thông tin về cách giải pháp lưới đàn hồi sẽ khác với giải pháp hồi quy cầu.
Trường hợp 1: Kiểm tra vệ sinh
( ). Hồi quy cầu trong trường hợp này tương đương với bình phương tối thiểu thông thường (OLS), vì cường độ hình phạt bằng không. Mạng đàn hồi là hồi quy sườn tương đương, vì chỉ có định mức bị phạt. Các sơ đồ sau đây cho thấy các giải pháp hồi quy cầu khác nhau và cách thức độ dốc của lưới đàn hồi đối với từng loại.λb=0,λ1=0,λ2=1ℓ2
Biểu đồ bên trái: Độ dốc lưới đàn hồi so với trọng lượng hồi quy cầu dọc theo mỗi chiều
Trục x đại diện cho một thành phần của một tập các trọng số được chọn bằng hồi quy cầu. Trục y biểu thị thành phần tương ứng của độ dốc lưới đàn hồi, được đánh giá tại . Lưu ý rằng các trọng số là đa chiều, nhưng chúng ta chỉ nhìn vào các trọng số / độ dốc dọc theo một chiều.w∗w∗
Biểu đồ bên phải: Thay đổi mạng đàn hồi thành trọng số hồi quy cầu (2đ)
Mỗi điểm đại diện cho một tập hợp các trọng số 2d được chọn bằng hồi quy cầu. Đối với mỗi lựa chọn của , một vectơ được vẽ theo hướng đối diện với độ dốc của lưới đàn hồi, với độ lớn tỷ lệ với độ dốc của độ dốc. Đó là, các vectơ được vẽ cho thấy lưới đàn hồi muốn thay đổi giải pháp hồi quy cầu như thế nào.w∗w∗
Các sơ đồ này cho thấy, so với hồi quy cầu (OLS trong trường hợp này), lưới đàn hồi (hồi quy sườn trong trường hợp này) muốn thu nhỏ trọng số về 0. Lượng co rút mong muốn tăng theo độ lớn của trọng lượng. Nếu các trọng số bằng 0, các giải pháp là như nhau. Giải thích là chúng tôi muốn di chuyển theo hướng ngược lại với độ dốc để giảm chức năng mất. Ví dụ, giả sử hồi quy cầu hội tụ đến một giá trị dương cho một trong các trọng số. Độ dốc của lưới đàn hồi là dương tại thời điểm này, vì vậy lưới đàn hồi muốn giảm trọng lượng này. Nếu sử dụng độ dốc gốc, chúng tôi sẽ thực hiện các bước theo kích thước tỷ lệ với độ dốc (tất nhiên, về mặt kỹ thuật, chúng tôi không thể sử dụng độ dốc của độ dốc để giải quyết mạng lưới đàn hồi vì không phân biệt ở mức 0,
Trường hợp 2: Cầu nối & lưới đàn hồi
( ). Tôi đã chọn các tham số hình phạt cầu để phù hợp với ví dụ từ câu hỏi. Tôi đã chọn các thông số mạng đàn hồi để đưa ra hình phạt mạng đàn hồi phù hợp nhất. Ở đây, phương tiện phù hợp nhất, được phân bổ trọng số cụ thể, chúng tôi tìm thấy các tham số hình phạt thuần đàn hồi nhằm giảm thiểu chênh lệch bình phương dự kiến giữa hình phạt cầu và hình phạt đàn hồi:q=1.4,λb=1,λ1=0.629,λ2=0.355
minλ1,λ2E[(λ1∥w∥1+λ2∥w∥22−λb∥w∥qq)2]
Ở đây, tôi đã xem xét các trọng số với tất cả các mục được rút ra từ phân phối đồng đều trên (tức là trong một hypercube tập trung ở điểm gốc). Các thông số mạng đàn hồi phù hợp nhất là tương tự cho 2 đến 1000 kích thước. Mặc dù chúng dường như không nhạy cảm với kích thước, các tham số phù hợp nhất sẽ phụ thuộc vào quy mô phân phối.[−2,2]
Bề mặt phạt
Đây là một đường viền của tổng số hình phạt được áp dụng bởi hồi quy cầu ( ) và lưới đàn hồi phù hợp nhất ( ) là một hàm của trọng số (đối với trường hợp 2d ):q=1.4,λb=100λ1=0.629,λ2=0.355
Hành vi gradient
Chúng ta có thể thấy như sau:
- Đặt là trọng số hồi quy cầu được chọn dọc theo chiều .w∗jj
- Nếu , lưới đàn hồi muốn thu nhỏ trọng lượng về 0.|w∗j|<0.25
- Nếu , hồi quy cầu và giải pháp lưới đàn hồi là như nhau. Nhưng, lưới đàn hồi muốn di chuyển đi nếu trọng lượng khác nhau thậm chí một chút.|w∗j|≈0.25
- Nếu , lưới đàn hồi muốn tăng trọng lượng.0.25<|w∗j|<1.31
- Nếu , hồi quy cầu và các giải pháp mạng đàn hồi là như nhau. Lưới đàn hồi muốn di chuyển về điểm này từ các trọng lượng gần đó.|w∗j|≈1.31
- Nếu , lưới đàn hồi muốn thu nhỏ trọng lượng.|w∗j|>1.31
Các kết quả tương tự về mặt chất lượng nếu chúng ta thay đổi giá trị của và / hoặc và tìm ra tốt nhất tương ứng . Các điểm mà các giải pháp cầu và lưới đàn hồi trùng nhau thay đổi một chút, nhưng hành vi của độ dốc là tương tự nhau.qλbλ1,λ2
Trường hợp 3: Cầu không khớp & lưới đàn hồi
(q=1.8,λb=1,λ1=0.765,λ2=0.225) . Trong chế độ này, hồi quy cầu hoạt động tương tự như hồi quy sườn. Tôi đã tìm thấy phù hợp nhất , nhưng sau đó hoán đổi chúng để lưới đàn hồi hoạt động giống như lasso ( hình phạt lớn hơn hình phạt ).λ1,λ2ℓ1ℓ2
Liên quan đến hồi quy cầu, lưới đàn hồi muốn thu nhỏ trọng lượng nhỏ về 0 và tăng trọng lượng lớn hơn. Có một tập hợp các trọng số trong mỗi góc phần tư trong đó các giải pháp hồi quy cầu và lưới đàn hồi trùng nhau, nhưng lưới đàn hồi muốn di chuyển khỏi điểm này nếu các trọng số khác nhau thậm chí chỉ một chút.
(q=1.2,λb=1,λ1=173,λ2=0.816) . Trong chế độ này, hình phạt cầu tương tự như hình phạt (mặc dù hồi quy cầu có thể không tạo ra các giải pháp thưa thớt với , như đã đề cập trong bài báo mạng đàn hồi). Tôi đã tìm thấy phù hợp nhất , nhưng sau đó hoán đổi chúng để lưới đàn hồi hoạt động giống như hồi quy sườn ( hình phạt lớn hơn hình phạt ).ℓ1q>1λ1,λ2ℓ2ℓ1
Liên quan đến hồi quy cầu, lưới đàn hồi muốn tăng trọng lượng nhỏ và thu nhỏ trọng lượng lớn hơn. Có một điểm trong mỗi góc phần tư nơi hồi quy cầu và các giải pháp lưới đàn hồi trùng khớp và lưới đàn hồi muốn di chuyển về phía các trọng số này từ các điểm lân cận.