Có thể có nhiều giải pháp tối ưu cục bộ khi chúng ta giải quyết hồi quy tuyến tính không?


19

Tôi đọc tuyên bố này trong một kỳ thi đúng / sai cũ:

Chúng ta có thể nhận được nhiều giải pháp tối ưu cục bộ nếu chúng ta giải quyết vấn đề hồi quy tuyến tính bằng cách giảm thiểu tổng các lỗi bình phương bằng cách sử dụng độ dốc giảm dần.

Giải pháp: Sai

Câu hỏi của tôi là, phần nào của câu hỏi này là sai? Tại sao tuyên bố này là sai?

Câu trả lời:


8

Câu hỏi này rất thú vị khi nó phơi bày một số kết nối giữa lý thuyết tối ưu hóa, phương pháp tối ưu hóa và phương pháp thống kê mà bất kỳ người dùng có khả năng thống kê nào cũng cần phải hiểu. Mặc dù các kết nối này đơn giản và dễ học, nhưng chúng tinh tế và thường bị bỏ qua.

Để tóm tắt một số ý tưởng từ các bình luận đến các phản hồi khác, tôi muốn chỉ ra rằng có ít nhất hai cách mà "hồi quy tuyến tính" có thể tạo ra các giải pháp không độc đáo - không chỉ trên lý thuyết, mà trong thực tế.

Thiếu nhận dạng

Đầu tiên là khi mô hình không thể xác định được. Điều này tạo ra một hàm mục tiêu lồi nhưng không nghiêm ngặt có nhiều giải pháp.

Ví dụ, xem xét hồi quy so với và (có chặn) cho dữ liệu . Một giải pháp là . Một cái khác là . Để thấy rằng phải có nhiều giải pháp, hãy tham số hóa mô hình bằng ba tham số thực và một thuật ngữ lỗi trong biểu mẫux y ( x , y , z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) z = 1 + y z = 1 - x ( λ , μ , ν ) εzxy(x,y,z)(1,1,0),(2,2,1),(3,3,2)z^=1+yz^=1x(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

Tổng bình phương của phần dư đơn giản hóa thành

SSR=3μ2+24μν+56ν2.

(Đây là trường hợp giới hạn của các hàm mục tiêu phát sinh trong thực tế, chẳng hạn như hàm được thảo luận tại Caness hessian của một công cụ ước lượng M là không xác định?, Nơi bạn có thể đọc các phân tích chi tiết và xem các sơ đồ của hàm.)

Bởi vì các hệ số của bình phương ( và ) là dương và xác định là dương, đây là dạng bậc hai bán chính xác dương trong . Nó được giảm thiểu khi , nhưng có thể có bất kỳ giá trị nào. Vì hàm mục tiêu không phụ thuộc vào , nên độ dốc của nó (hoặc bất kỳ dẫn xuất nào khác) cũng không. Do đó, bất kỳ thuật toán giảm độ dốc nào - nếu nó không thực hiện một số thay đổi hướng tùy ý - sẽ đặt giá trị của của giải pháp thành bất kỳ giá trị bắt đầu nào.56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ

Ngay cả khi độ dốc giảm dần không được sử dụng, giải pháp có thể thay đổi. Trong Rví dụ, có hai dễ dàng, cách tương đương để xác định mô hình này: như z ~ x + yhay z ~ y + x. Sản lượng thứ nhất mang lại nhưng thứ hai cho . z =1+yz^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

(Các NAgiá trị nên được hiểu là số không, nhưng với một cảnh báo rằng có nhiều giải pháp tồn tại. Cảnh báo là có thể do các phân tích sơ bộ được thực hiện trong Rđó độc lập với phương pháp giải pháp của nó. mặc dù một điều tốt sẽ cảnh báo bạn về một số điều không chắc chắn rằng nó đã đạt đến mức tối ưu.)

Ràng buộc tham số

Độ lồi nghiêm ngặt đảm bảo tối ưu toàn cầu duy nhất, miễn là miền của các tham số là lồi. Các hạn chế tham số có thể tạo các miền không lồi, dẫn đến nhiều giải pháp toàn cầu.

Một ví dụ rất đơn giản được cung cấp bởi vấn đề ước tính "trung bình" cho dữ liệu chủ đề cho hạn chế . Điều này mô hình hóa một tình huống trái ngược với các phương pháp chính quy hóa như Ridge Regression, Lasso hoặc Elastic Net: khẳng định rằng một tham số mô hình không trở nên quá nhỏ. (Nhiều câu hỏi khác nhau đã xuất hiện trên trang web này hỏi cách giải quyết các vấn đề hồi quy với các ràng buộc tham số như vậy, cho thấy rằng chúng phát sinh trong thực tế.)- 1 , 1 | μ | 1 / 2μ1,1|μ|1/2

Có hai giải pháp bình phương nhỏ nhất cho ví dụ này, cả hai đều tốt như nhau. Chúng được tìm thấy bằng cách thu nhỏ chịu sự ràng buộc . Hai giải pháp là . Nhiều giải pháp có thể phát sinh do hạn chế tham số làm cho miền không phản hồi:| μ | 1 / 2 μ = ± 1 / 2 μ ( - , - 1 / 2 ] [ 1 / 2 , )(1μ)2+(1μ)2|μ|1/2μ=±1/2μ(,1/2][1/2,)

Lô tổng bình phương so với $ \ mu $

Parabol là đồ thị của hàm lồi (đúng). Phần màu đỏ dày là phần giới hạn trong miền của : nó có hai điểm thấp nhất tại , trong đó tổng bình phương là . Phần còn lại của parabola (hiển thị chấm) được loại bỏ bởi các ràng buộc, do đó loại bỏ tối thiểu duy nhất của nó khỏi xem xét.L = ± 1 / 2 5 / 2μμ=±1/25/2

Phương pháp giảm độ dốc, trừ khi nó sẵn sàng thực hiện các bước nhảy lớn, có thể sẽ tìm thấy giải pháp "duy nhất" khi bắt đầu bằng một giá trị dương và nếu không, nó sẽ tìm thấy giải pháp "duy nhất" khi bắt đầu với một giá trị âm.μ = - 1 / 2μ=1/2μ=1/2

Tình huống tương tự có thể xảy ra với các bộ dữ liệu lớn hơn và ở kích thước cao hơn (nghĩa là có nhiều tham số hồi quy phù hợp hơn).


1
Một ví dụ rất đơn giản về hàm lồi không lồi hoàn toàn và có vô số cực tiểu là . Bất kỳ điểm nào trên dòng là một điểm tối thiểu. f(x,y)=(xy)2y=x
kjetil b halvorsen

1
@Kjetil Cảm ơn bạn, đó là sự thật. Mẹo ở đây là chỉ ra cách các hàm như vậy thực sự phát sinh trong các tình huống hồi quy. Chức năng của bạn chính xác là nguồn cảm hứng cho ví dụ đầu tiên tôi cung cấp.
whuber


2

Tôi sợ không có câu trả lời nhị phân cho câu hỏi của bạn. Nếu hồi quy tuyến tính là lồi hoàn toàn (không có ràng buộc về hệ số, không có bộ chỉnh tần , v.v.), thì độ dốc gradient sẽ có một giải pháp duy nhất và nó sẽ là tối ưu toàn cầu. Gradient giảm dần có thể và sẽ trả về nhiều giải pháp nếu bạn gặp vấn đề không lồi.

Mặc dù OP yêu cầu hồi quy tuyến tính, ví dụ dưới đây cho thấy tối thiểu hóa bình phương nhỏ nhất mặc dù phi tuyến (so với hồi quy tuyến tính mà OP muốn) có thể có nhiều giải pháp và giảm độ dốc có thể trả về các giải pháp khác nhau.

Tôi có thể chỉ ra bằng thực nghiệm bằng một ví dụ đơn giản

  1. Tổng các lỗi bình phương đôi khi có thể không lồi, do đó có nhiều giải pháp
  2. Phương pháp gốc dốc có thể cung cấp nhiều giải pháp.

Xem xét ví dụ mà bạn đang cố gắng giảm thiểu bình phương tối thiểu cho vấn đề sau:

nhập mô tả hình ảnh ở đây

nơi bạn đang cố gắng giải quyết cho bằng cách giảm thiểu chức năng mục tiêu. Các chức năng trên mặc dù khác biệt là không lồi và có thể có nhiều giải pháp. Thay giá trị thực tế cho xem dưới đây.wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

Vấn đề trên có 3 giải pháp khác nhau và chúng như sau:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

Như đã trình bày ở trên, bài toán bình phương nhỏ nhất có thể là nonconvex và có thể có nhiều nghiệm. Sau đó, vấn đề trên có thể được giải quyết bằng phương pháp giảm độ dốc như bộ giải excel microsoft và mỗi lần chạy, chúng tôi sẽ nhận được giải pháp khác nhau. vì độ dốc gốc là một trình tối ưu hóa cục bộ và có thể bị kẹt trong giải pháp cục bộ, chúng ta cần sử dụng các giá trị bắt đầu khác nhau để có được tối ưu toàn cầu thực sự. Một vấn đề như thế này phụ thuộc vào giá trị bắt đầu.


2
Tôi không nghĩ câu trả lời này của OP vì OP hỏi cụ thể về hồi quy tuyến tính , không phải tối ưu hóa nói chung.
Sycorax nói phục hồi Monica

1
Không, không, nhưng chỉ cố gắng đưa ra quan điểm về các vấn đề với tối ưu hóa, sẽ cập nhật với cảnh báo
forecaster

@ user777 bạn nói đúng. đây là một câu hỏi rất hợp lệ trong bài kiểm tra cũ từ MIT. Tôi chắc chắn câu trả lời là sai với dự báo.
Anjela Minoeu 30/03/2015

vậy bạn có chắc là tôi đúng không?
Anjela Minoeu 30/03/2015

@AnjelaMinoeu, tôi đã cập nhật phản hồi của mình.
dự báo

1

Điều này là do hàm mục tiêu bạn đang thu nhỏ là lồi, chỉ có một cực tiểu / cực đại. Do đó, tối ưu cục bộ cũng là tối ưu toàn cầu. Gradient giảm dần sẽ tìm thấy giải pháp cuối cùng.

Tại sao hàm mục tiêu này là lồi? Đây là vẻ đẹp của việc sử dụng lỗi bình phương để giảm thiểu. Đạo hàm và đẳng thức về 0 sẽ chỉ ra một cách độc đáo tại sao lại như vậy. Đây là một vấn đề sách giáo khoa và được bao phủ ở hầu hết mọi nơi.


4
Lồi lõm không ngụ ý một mức tối thiểu duy nhất. Thông thường, bạn cần kháng cáo về độ lồi nghiêm ngặt của hàm mục tiêu được xác định trên miền lồi. Ngoài ra, một vấn đề ở đây là các tiêu chí chấm dứt cho việc giảm độ dốc sử dụng số học dấu phẩy động: ngay cả khi hàm mục tiêu bị lồi hoàn toàn, thuật toán có thể tìm thấy các giải pháp khác nhau (tùy thuộc vào giá trị bắt đầu) khi hàm gần bằng phẳng.
whuber

@whuber bạn vui lòng làm cho nó đơn giản và rõ ràng hơn cho tôi?
Anjela Minoeu 30/03/2015

@whuber Tôi nghĩ vấn đề đầu tiên là việc sử dụng thuật ngữ. Thứ hai, lồi lõm không bao hàm một mức tối thiểu duy nhất. Tôi không thể thấy một hàm lõm khác biệt không có một mức tối thiểu / tối đa duy nhất. Xem bằng chứng tại đây: Planetmath.org/localminimumofconvexfeftisnESEantlyglobal
Vladislavs Dovgalecs 30/03/2015

3
Tôi không bận tâm để đọc bằng chứng, bởi vì nó phải viện dẫn sự lồi lõm nghiêm ngặt để được chính xác. Một bài toán bình phương nhỏ nhất với các hệ số không xác định sẽ là lồi nhưng không hoàn toàn lồi, và do đó sẽ có (vô hạn) nhiều giải pháp. Nhưng điều đó không hoàn toàn liên quan đến việc giảm độ dốc, có vấn đề riêng - một số vấn đề được thảo luận rõ ràng trong bài viết Wikipedia . Do đó, trong cả hai khía cạnh lý thuyết và thực tiễn, câu trả lời chính xác cho câu hỏi là đúng : độ dốc có thể - và sẽ - đưa ra nhiều giải pháp.
whuber

@whuber Có, bằng chứng kêu gọi sự lồi lõm nghiêm ngặt.
Vladislavs Dovgalecs 30/03/2015
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.