Câu hỏi này rất thú vị khi nó phơi bày một số kết nối giữa lý thuyết tối ưu hóa, phương pháp tối ưu hóa và phương pháp thống kê mà bất kỳ người dùng có khả năng thống kê nào cũng cần phải hiểu. Mặc dù các kết nối này đơn giản và dễ học, nhưng chúng tinh tế và thường bị bỏ qua.
Để tóm tắt một số ý tưởng từ các bình luận đến các phản hồi khác, tôi muốn chỉ ra rằng có ít nhất hai cách mà "hồi quy tuyến tính" có thể tạo ra các giải pháp không độc đáo - không chỉ trên lý thuyết, mà trong thực tế.
Thiếu nhận dạng
Đầu tiên là khi mô hình không thể xác định được. Điều này tạo ra một hàm mục tiêu lồi nhưng không nghiêm ngặt có nhiều giải pháp.
Ví dụ, xem xét hồi quy so với và (có chặn) cho dữ liệu . Một giải pháp là . Một cái khác là . Để thấy rằng phải có nhiều giải pháp, hãy tham số hóa mô hình bằng ba tham số thực và một thuật ngữ lỗi trong biểu mẫux y ( x , y , z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) z = 1 + y z = 1 - x ( λ , μ , ν ) εzxy( x , y, z)( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 )z^= 1 + yz^= 1 - x( λ , μ , ν)ε
z= 1 + μ + ( λ + ν- 1 ) x + ( λ - ν) y+ ε .
Tổng bình phương của phần dư đơn giản hóa thành
SSR = 3 μ2+ 24 μ ν+ 56 ν2.
(Đây là trường hợp giới hạn của các hàm mục tiêu phát sinh trong thực tế, chẳng hạn như hàm được thảo luận tại Caness hessian của một công cụ ước lượng M là không xác định?, Nơi bạn có thể đọc các phân tích chi tiết và xem các sơ đồ của hàm.)
Bởi vì các hệ số của bình phương ( và ) là dương và xác định là dương, đây là dạng bậc hai bán chính xác dương trong . Nó được giảm thiểu khi , nhưng có thể có bất kỳ giá trị nào. Vì hàm mục tiêu không phụ thuộc vào , nên độ dốc của nó (hoặc bất kỳ dẫn xuất nào khác) cũng không. Do đó, bất kỳ thuật toán giảm độ dốc nào - nếu nó không thực hiện một số thay đổi hướng tùy ý - sẽ đặt giá trị của của giải pháp thành bất kỳ giá trị bắt đầu nào.56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563 × 56 - ( 24 / 2 )2= 24( μ , ν, λ )μ = ν= 0λSSRλλ
Ngay cả khi độ dốc giảm dần không được sử dụng, giải pháp có thể thay đổi. Trong R
ví dụ, có hai dễ dàng, cách tương đương để xác định mô hình này: như z ~ x + y
hay z ~ y + x
. Sản lượng thứ nhất mang lại nhưng thứ hai cho . z =1+yz^= 1 - xz^= 1 + y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
(Các NA
giá trị nên được hiểu là số không, nhưng với một cảnh báo rằng có nhiều giải pháp tồn tại. Cảnh báo là có thể do các phân tích sơ bộ được thực hiện trong R
đó độc lập với phương pháp giải pháp của nó. mặc dù một điều tốt sẽ cảnh báo bạn về một số điều không chắc chắn rằng nó đã đạt đến mức tối ưu.)
Ràng buộc tham số
Độ lồi nghiêm ngặt đảm bảo tối ưu toàn cầu duy nhất, miễn là miền của các tham số là lồi. Các hạn chế tham số có thể tạo các miền không lồi, dẫn đến nhiều giải pháp toàn cầu.
Một ví dụ rất đơn giản được cung cấp bởi vấn đề ước tính "trung bình" cho dữ liệu chủ đề cho hạn chế . Điều này mô hình hóa một tình huống trái ngược với các phương pháp chính quy hóa như Ridge Regression, Lasso hoặc Elastic Net: khẳng định rằng một tham số mô hình không trở nên quá nhỏ. (Nhiều câu hỏi khác nhau đã xuất hiện trên trang web này hỏi cách giải quyết các vấn đề hồi quy với các ràng buộc tham số như vậy, cho thấy rằng chúng phát sinh trong thực tế.)- 1 , 1 | μ | ≥ 1 / 2μ- 1 , 1| μ | ≥1 / 2
Có hai giải pháp bình phương nhỏ nhất cho ví dụ này, cả hai đều tốt như nhau. Chúng được tìm thấy bằng cách thu nhỏ chịu sự ràng buộc . Hai giải pháp là . Nhiều giải pháp có thể phát sinh do hạn chế tham số làm cho miền không phản hồi:| μ | ≥ 1 / 2 μ = ± 1 / 2 μ ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )( 1 - μ )2+ ( - 1 - μ )2| μ | ≥1 / 2μ = ± 1 / 2L ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )
Parabol là đồ thị của hàm lồi (đúng). Phần màu đỏ dày là phần giới hạn trong miền của : nó có hai điểm thấp nhất tại , trong đó tổng bình phương là . Phần còn lại của parabola (hiển thị chấm) được loại bỏ bởi các ràng buộc, do đó loại bỏ tối thiểu duy nhất của nó khỏi xem xét.L = ± 1 / 2 5 / 2μμ = ± 1 / 25 / 2
Phương pháp giảm độ dốc, trừ khi nó sẵn sàng thực hiện các bước nhảy lớn, có thể sẽ tìm thấy giải pháp "duy nhất" khi bắt đầu bằng một giá trị dương và nếu không, nó sẽ tìm thấy giải pháp "duy nhất" khi bắt đầu với một giá trị âm.μ = - 1 / 2μ = 1 / 2μ = - 1 / 2
Tình huống tương tự có thể xảy ra với các bộ dữ liệu lớn hơn và ở kích thước cao hơn (nghĩa là có nhiều tham số hồi quy phù hợp hơn).