Bằng chứng về các công thức tương đương của hồi quy sườn


15

Tôi đã đọc những cuốn sách phổ biến nhất trong học thống kê

1- Các yếu tố của học thống kê.

2- Giới thiệu về học thống kê .

Cả hai đều đề cập rằng hồi quy sườn có hai công thức tương đương nhau. Có một bằng chứng toán học dễ hiểu về kết quả này?

Tôi cũng đã trải qua Xác thực chéo , nhưng tôi không thể tìm thấy bằng chứng xác định ở đó.

Hơn nữa, LASSO sẽ được hưởng cùng loại bằng chứng chứ?

nhập mô tả hình ảnh ở đây



1
Lasso không phải là một hình thức hồi quy sườn núi.
Tây An

@jeza, bạn có thể giải thích những gì còn thiếu trong câu trả lời của tôi không? Nó thực sự xuất phát tất cả có thể được bắt nguồn về kết nối.
Royi

@jeza, bạn có thể nói cụ thể không? Trừ khi bạn biết khái niệm Lagrangian cho vấn đề bị ràng buộc, thật khó để đưa ra một câu trả lời ngắn gọn.
Royi

1
@jeza, một vấn đề tối ưu hóa bị ràng buộc có thể được chuyển đổi thành tối ưu hóa chức năng Lagrangian / điều kiện KKT (như được giải thích trong các câu trả lời hiện tại). Nguyên tắc này đã có nhiều giải thích đơn giản khác nhau trên internet. Theo hướng nào là giải thích nhiều hơn về bằng chứng cần thiết? Giải thích / bằng chứng về số nhân / hàm Lagrangian, giải thích / chứng minh vấn đề này như thế nào là một trường hợp tối ưu hóa liên quan đến phương pháp Lagrange, KKT / Lagrange, giải thích về nguyên tắc chính quy, v.v?
Sextus Empiricus

Câu trả lời:


19

Hồi quy sườn cổ điển (Chính quy Tikhonov ) được đưa ra bởi:

argminx12xy22+λx22

Yêu cầu ở trên là vấn đề sau là tương đương:

argminx12xy22subject tox22t

Hãy xác định x là giải pháp tối ưu trong những vấn đề đầu tiên và ~ xx^x~ là giải pháp tối ưu của bài toán thứ hai.

Những tuyên bố của phương tiện tương đương mà t,λ0:x^=x~ .
Cụ thể là bạn luôn có thể có một cặptλ0 như giải pháp của vấn đề là như nhau.

Làm thế nào chúng ta có thể tìm thấy một cặp?
Vâng, bằng cách giải quyết các vấn đề và xem xét các tính chất của giải pháp.
Cả hai vấn đề là lồi và trơn nên nó sẽ làm cho mọi thứ đơn giản hơn.

Giải pháp cho vấn đề đầu tiên được đưa ra tại điểm độ dốc biến mất có nghĩa là:

x^y+2λx^=0

Các điều kiện KKT của vấn đề thứ hai nêu rõ:

x~y+2μx~=0

μ(x~22t)=0

Phương trình cuối cùng cho thấy rằng một trong hai μ=0 hoặc x~22=t .

Hãy chú ý rằng 2 phương trình cơ sở là tương đương.
Cụ thể là nếu x = ~ xμ = λx^=x~μ=λ cả hai phương trình giữ.

Vì vậy, nó có nghĩa là trong trường hợp y22t một người phải đặt μ=0 có nghĩa là cho t đủ lớn để cho cả hai là tương đương một bộ phải λ=0 .

Trên trường hợp khác ta nên tìm μ nơi:

yt(I+2μI)1(I+2μI)1y=t

Điều này về cơ bản là khi x~22=t

Một khi bạn thấy rằng μ các giải pháp sẽ va chạm.

Về trường hợp L1 (LASSO), tốt, nó hoạt động với cùng một ý tưởng.
Sự khác biệt duy nhất là chúng tôi không đóng giải pháp do đó việc kết nối trở nên khó khăn hơn.

Hãy xem câu trả lời của tôi tại StackExchange Cross xác thực Q291962Xử lý tín hiệu StackExchange Q21730 - Ý nghĩa của λ trong Truy tìm cơ sở .

Ghi chú
Điều gì thực sự xảy ra?
Trong cả hai vấn đề, x cố gắng càng gần càng tốt với y .
Trong trường hợp đầu tiên, x=y sẽ biến mất thuật ngữ đầu tiên ( Khoảng cách L2 ) và trong trường hợp thứ hai, nó sẽ làm cho hàm mục tiêu biến mất.
Sự khác biệt là trong trường hợp đầu tiên, người ta phải cân bằng L2 Norm của x . Như λ được cao hơn các phương tiện cân bạn nên chắc x nhỏ hơn.
Trong trường hợp thứ hai có một bức tường, bạn mang x đến gần hơn và gần hơn với ycho đến khi bạn chạm vào tường, đó là ràng buộc về Norm của nó (Theo t ).
Nếu tường là đủ xa (High giá trị của t ) và đủ phụ thuộc vào chỉ tiêu y sau đó tôi không có ý nghĩa, giống như λ là có liên quan duy nhất của giá trị của nó nhân với chỉ tiêu y bắt đầu có ý nghĩa.
Kết nối chính xác là do Lagrangian đã nêu ở trên.

Tài nguyên

Tôi tìm thấy bài báo này ngày hôm nay (03/04/2019):


does the equivalent means that the \lambda and \t should be the same. Because I can not see that in the proof. thanks
jeza

@jeza, As I wrote above, for any t there is λ0 (Not necessarily equal to t but a function of t and the data y) such that the solutions of the two forms are the same.
Royi

3
@jeza, cả & t cơ bản là các thông số miễn phí tại đây. Khi bạn chỉ định, chẳng hạn, λ , mà mang lại một giải pháp cụ tối ưu. Nhưng t vẫn là một tham số miễn phí. Vì vậy, tại thời điểm này, yêu cầu là có thể có một số giá trị của t sẽ mang lại cùng một giải pháp tối ưu. Về cơ bản không có ràng buộc nào về những gì mà t phải là; không giống như nó phải là một số hàm cố định của λ , như t = λ / 2 hoặc một cái gì đó. λtλtttλt=λ/2
gung - Phục hồi Monica

@Royi, tôi muốn biết 1- tại sao công thức của bạn có (1/2), trong khi các công thức trong câu hỏi không? 2- đang sử dụng KKT để thể hiện sự tương đương của hai công thức? 3- nếu có, tôi vẫn không thể thấy sự tương đương đó. Tôi không chắc chắn nhưng những gì tôi mong đợi là bằng chứng cho thấy công thức một = công thức hai.
jeza

1. Chỉ dễ dàng hơn khi bạn phân biệt thuật ngữ LS. Bạn có thể di chuyển hình của tôi để OP λ bởi yếu tố của hai. 2. Tôi đã sử dụng KKT cho trường hợp thứ 2. Trường hợp đầu tiên không có ràng buộc, do đó bạn chỉ có thể giải quyết nó. 3. Không có phương trình dạng kín giữa chúng. Tôi đã chỉ ra logic và cách bạn có thể tạo một biểu đồ kết nối chúng. Nhưng như tôi đã viết, nó sẽ thay đổi cho mỗi y (Nó phụ thuộc vào dữ liệu). λλy
Royi

9

Một cách tiếp cận ít nghiêm ngặt hơn về mặt toán học, nhưng có thể trực quan hơn, để hiểu những gì đang diễn ra là bắt đầu với phiên bản ràng buộc (phương trình 3.42 trong câu hỏi) và giải quyết nó bằng các phương pháp "Lagrange Multiplier" ( https: //en.wikipedia .org / wiki / Lagrange_multiplier hoặc văn bản tính toán đa biến yêu thích của bạn). Chỉ cần nhớ rằng trong tính toán là vector của các biến, nhưng trong trường hợp của chúng tôi x là hằng số và β là vector biến. Khi bạn áp dụng các kỹ thuật nhân Lagrange bạn kết thúc với phương trình thứ nhất (3,41) (sau khi ném đi những phụ - λ t mà là hằng số tương đối so với giảm thiểu và có thể được bỏ qua).xxβλt

Điều này cũng cho thấy rằng điều này hoạt động cho lasso và các ràng buộc khác.


8

It's perhaps worth reading about Lagrangian duality and a broader relation (at times equivalence) between:

  • optimization subject to hard (i.e. inviolable) constraints
  • optimization with penalties for violating constraints.

Quick intro to weak duality and strong duality

f(x,y)x^y^, we have:

minxf(x,y^)f(x^,y^)maxyf(x^,y)

Since that holds for any x^ and y^ it also holds that:

maxyminxf(x,y)minxmaxyf(x,y)

This is known as weak duality. In certain circumstances, you have also have strong duality (also known as the saddle point property):

maxyminxf(x,y)=minxmaxyf(x,y)

When strong duality holds, solving the dual problem also solves the primal problem. They're in a sense the same problem!

Lagrangian for constrained Ridge Regression

Let me define the function L as:

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

minbmaxλ0L(b,λ)

You pick b to minimize the objective, cognizant that after b is picked, your opponent will set λ to infinity if you chose b such that j=1pbj2>t.

If strong duality holds (which it does here because Slater's condition is satisfied for t>0), you then achieve the same result by reversing the order:

maxλ0minbL(b,λ)

Here, your opponent chooses λ first! You then choose b to minimize the objective, already knowing their choice of λ. The minbL(b,λ) part (taken λ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.


note that your answer can be extended to any convex function.
81235

6

They are not equivalent.

For a constrained minimization problem

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

we solve by minimize over b the corresponding Lagrangean

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

Here, t is a bound given exogenously, λ0 is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and λ are to be determined optimally through the minimization procedure given t.

Comparing (2) and eq (3.41) in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

(3)minb{Λ+λt}

Since in (3) the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve b, it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over b given λ>0. But, in the lens of the constrained minimization problem, assuming λ>0 imposes the condition that the constraint is binding, i.e that

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.