Tỷ lệ lỗi có phải là hàm Lồi của tham số Chính quy lambda không?


11

Khi chọn tham số chính quy lambda trong Ridge hoặc Lasso, phương pháp được đề xuất là thử các giá trị khác nhau của lambda, đo lỗi trong Tập xác thực và cuối cùng chọn giá trị đó của lambda trả về lỗi thấp nhất.

Nó không phải là cleat với tôi nếu hàm f (lambda) = lỗi là Convex. Nó có thể như thế này? Tức là đường cong này có thể có nhiều hơn một cực tiểu cục bộ (điều này có nghĩa là việc tìm ra mức tối thiểu của Lỗi tại một số khu vực của lambda không loại trừ khả năng ở một khu vực khác có lambda trả về Lỗi thậm chí còn nhỏ hơn)

nhập mô tả hình ảnh ở đây

Lời khuyên của bạn sẽ được đánh giá cao.

Câu trả lời:


11

Câu hỏi ban đầu hỏi liệu hàm lỗi có cần phải lồi không. Không nó không. Phân tích được trình bày dưới đây nhằm cung cấp một số hiểu biết và trực giác về vấn đề này và câu hỏi được sửa đổi, trong đó hỏi liệu hàm lỗi có thể có nhiều cực tiểu cục bộ hay không.

Theo trực giác, không cần phải có bất kỳ mối quan hệ toán học cần thiết nào giữa dữ liệu và tập huấn luyện. Chúng ta sẽ có thể tìm thấy dữ liệu đào tạo mà mô hình ban đầu kém, trở nên tốt hơn với một số chính quy hóa, và sau đó lại trở nên tồi tệ hơn. Đường cong lỗi không thể lồi trong trường hợp đó - ít nhất là không nếu chúng ta thực hiện tham số chính quy thay đổi từ đến .0

Lưu ý rằng lồi không tương đương với tối thiểu duy nhất! Tuy nhiên, các ý tưởng tương tự cho thấy nhiều cực tiểu cục bộ là có thể: trong quá trình chính quy hóa, đầu tiên mô hình được trang bị có thể tốt hơn cho một số dữ liệu đào tạo trong khi không thay đổi đáng kể đối với dữ liệu đào tạo khác, và sau đó sẽ tốt hơn cho dữ liệu đào tạo khác, v.v. kết hợp các dữ liệu đào tạo như vậy phải tạo ra nhiều cực tiểu cục bộ. Để giữ cho phân tích đơn giản, tôi sẽ không cố gắng chỉ ra điều đó.

Chỉnh sửa (để trả lời câu hỏi đã thay đổi)

Tôi đã rất tự tin vào phân tích được trình bày dưới đây và trực giác đằng sau nó mà tôi đã đặt ra để tìm một ví dụ theo cách thô sơ nhất có thể: Tôi đã tạo ra các bộ dữ liệu ngẫu nhiên nhỏ, chạy Lasso trên chúng, tính tổng lỗi bình phương cho một tập huấn luyện nhỏ, và vẽ đường cong lỗi của nó. Một vài nỗ lực tạo ra một với hai cực tiểu, mà tôi sẽ mô tả. Các vectơ có dạng cho các tính năng và và phản hồi .x 1 x 2 y(x1,x2,y)x1x2y

Dữ liệu đào tạo

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

Dữ liệu kiểm tra

(1,1,0.2), (1,2,0.4)

Lasso được chạy sử dụng glmnet::glmmettrong R, với tất cả các đối số còn lại ở giá trị mặc định của họ. Các giá trị của trên trục x là đối ứng của các giá trị được báo cáo bởi phần mềm đó (vì nó tham số hóa hình phạt của nó với ).1 / λλ1/λ

Một đường cong lỗi với nhiều cực tiểu cục bộ

Nhân vật


Phân tích

Hãy xem xét bất kỳ phương pháp quy tắc của phù hợp các thông số để dữ liệu và tương ứng với phản ứng có những tài sản chung để Ridge Regression và Lasso:x iβ=(β1,,βp)xiyi

  1. (Tham số hóa) Phương thức được tham số hóa bằng số thực , với mô hình không quy tắc tương ứng với .λ = 0λ[0,)λ=0

  2. (Liên tục) Ước tính tham số phụ thuộc liên tục vào và các giá trị dự đoán cho mọi tính năng thay đổi liên tục với . bước sóng betaβ^λβ^

  3. (Co ngót) Là , .beta0λβ^0

  4. (Độ chính xác) Đối với mọi vectơ đặc trưng , như , dự đoán .β0 y ( x ) = f ( x , β ) 0xβ^0y^(x)=f(x,β^)0

  5. (Lỗi đơn điệu) Hàm lỗi so sánh bất kỳ giá trị với giá trị dự đoán , , tăng theo độ chênh lệchdo đó, với một số lạm dụng ký hiệu, chúng tôi có thể biểu thị nó dưới dạng .y L ( y , y ) | Y - y | L ( | y - y | )yy^L(y,y^)|y^y|L(|y^y|)

(Không có có thể được thay thế bằng bất kỳ hằng số nào.)(4)

Giả sử dữ liệu sao cho ước tính tham số ban đầu (không chuẩn hóa) không bằng không. Hãy xây dựng một tập dữ liệu huấn luyện bao gồm một quan sát trong đó . (Nếu không thể tìm thấy như vậy , thì mô hình ban đầu sẽ không thú vị lắm!) Đặt . (x0,y0)f(x0, β (0))0x0y0=f(x0, β (0))/2β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

Các giả định ngụ ý đường cong lỗi có các thuộc tính sau:e:λL(y0,f(x0,β^(λ))

  1. y 0e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|) (vì sự lựa chọn của ).y0

  2. λ beta ( λ ) 0 y ( x 0 ) 0limλe(λ)=L(y0,0)=L(|y0|) (vì là , , từ đâu ).λβ^(λ)0y^(x0)0

Do đó, đồ thị của nó liên tục kết nối hai điểm cuối cao (và hữu hạn) bằng nhau.

Hình hiển thị biểu đồ có thể có của $ e $.

Về mặt định tính, có ba khả năng:

  • Dự đoán cho tập huấn luyện không bao giờ thay đổi. Điều này là không thể - chỉ về bất kỳ ví dụ nào bạn chọn sẽ không có thuộc tính này.

  • Một số dự đoán trung gian cho là tồi tệ hơn so với lúc bắt đầu hoặc trong giới hạn . Hàm này không thể lồi.λ = 0 λ 0<λ<λ=0λ

  • Tất cả các dự đoán trung gian nằm trong khoảng từ đến . Tính liên tục ngụ ý sẽ có ít nhất một mức tối thiểu của , gần đó phải lồi. Nhưng vì tiếp cận một hằng số hữu hạn không có triệu chứng, nó không thể lồi cho đủ lớn .2 y 0 e e e ( λ ) λ02y0eee(λ)λ

Đường đứt nét dọc trong hình cho thấy cốt truyện thay đổi từ lồi (ở bên trái) sang không lồi (sang phải). (Ngoài ra còn có một khu vực không lồi gần trong hình này, nhưng điều này không nhất thiết phải là trường hợp nói chung.)λ0


Cảm ơn bạn đã trả lời công phu của bạn. Nếu có thể hãy xem lại câu hỏi khi tôi chỉnh sửa và cập nhật câu trả lời của bạn.
rf7

Câu trả lời tuyệt vời (+1). Trong thực tế, tôi nghĩ rằng thường không có quá ít điểm dữ liệu đào tạo và kiểm tra. Kết luận của câu trả lời này có thay đổi khi có đủ các điểm dữ liệu kiểm tra và huấn luyện được rút ra từ cùng một phân phối (cố định và đủ thường xuyên) không? Cụ thể, theo kịch bản này, có một mức tối thiểu cục bộ duy nhất với xác suất cao không?
user795305

@Ben Không phải là số điểm kiểm tra quan trọng: kết quả này phụ thuộc hoàn toàn vào việc phân phối điểm kiểm tra liên quan đến phân phối điểm đào tạo. Do đó, vấn đề "có xác suất cao" sẽ không thể trả lời được nếu không đưa ra một số giả định cụ thể về phân phối đa biến của các biến hồi quy. Ngoài ra, với nhiều biến số, hiện tượng nhiều cực tiểu cục bộ này sẽ có nhiều khả năng hơn. Tôi nghi ngờ rằng lựa chọn ngẫu nhiên của một bộ thử nghiệm lớn (với số lần quan sát nhiều lần như các biến) có thể có một min toàn cầu duy nhất.
whuber

1
@whuber Cảm ơn! Tôi đồng ý: phân phối (đúng) giữa điểm đào tạo và điểm kiểm tra phải giống nhau và cần có đủ các mẫu để phân phối theo kinh nghiệm của tập huấn luyện và kiểm tra có thỏa thuận. (Có vẻ như tôi phrased mà kém trong bình luận trước đây của tôi.) Ví dụ, nếu có phân phối cùng nhau bình thường (với hiệp phương sai không suy biến), tôi nghi ngờ khả năng của đường cong lỗi có một độc đáo hội tụ tối thiểu địa phương 1 (nếu, giả sử, có mẫu trong tập huấn kiểm tra với với cố định (hoặc thậm chí tăng chậm so với ))n n p n(x,y)nnpn
user795305

0

Câu trả lời này đặc biệt liên quan đến Lasso (và không giữ hồi quy sườn núi.)

Thiết lập

Giả sử rằng chúng ta có biến mà chúng ta đang sử dụng để mô hình hóa một phản hồi. Giả sử rằng chúng ta có điểm dữ liệu huấn luyện và điểm dữ liệu xác nhận.pnm

Đặt đầu vào đào tạo là và phản hồi là . Chúng tôi sẽ sử dụng Lasso trên dữ liệu đào tạo này. Đó là đặt một họ hệ số ước tính từ dữ liệu đào tạo. Chúng tôi sẽ chọn để sử dụng làm công cụ ước tính của chúng tôi dựa trên lỗi của nó trên bộ xác thực, với đầu vào và phản hồi . VớiX(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
chúng tôi quan tâm đến việc nghiên cứu hàm lỗi , điều này dẫn đến công cụ ước tính dựa trên dữ liệu của chúng tôi .e(λ)=y(2)X(2)β^λ22β^λ^

Phép tính

Bây giờ, chúng ta sẽ tính đạo hàm thứ hai của mục tiêu trong phương trình , mà không đưa ra bất kỳ giả định phân phối nào trên hoặc của . Sử dụng sự khác biệt và sắp xếp lại, chúng tôi (chính thức) tính toán rằng (2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
Vì là piecewise tuyến tính cho (vì là tập hợp hữu hạn của các nút trong đường dẫn giải pháp lasso), nên đạo hàm là hằng số piecewise và bằng 0 cho tất cả . Do đó, một hàm không âm của .β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

Phần kết luận

Nếu chúng ta giả sử thêm rằng được rút ra từ một số phân phối liên tục độc lập với , vectơ gần như chắc chắn cho . Do đó, hàm lỗi có đạo hàm thứ hai trên , gần như chắc chắn là rất tích cực. Tuy nhiên, biết rằng là liên tục, chúng tôi biết rằng lỗi xác thực là liên tục.X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

Cuối cùng, từ bộ đôi Lasso, chúng ta biết rằng giảm đơn điệu khi tăng. Nếu chúng ta có thể thiết lập rằng cũng là đơn điệu, thì độ lồi mạnh của theo sau. Tuy nhiên, điều này đúng với một số xác suất tiếp cận một nếu . (Tôi sẽ điền chi tiết vào đây sớm.)X(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
Bạn chỉ dựa vào là một hàm tuyến tính liên tục của để kết luận là lồi hoàn toàn. Hãy xem liệu suy luận đó có hợp lệ hay không. Một chức năng như vậy là(trong đó biểu thị làm tròn đến số nguyên gần nhất). Giả sử và , sao cho . Hàm lỗi này có vô số cực tiểu cục bộ. Nó không lồi - nó chỉ lồi ở mọi nơi trừ những điểm bị cô lập! Điều đó khiến tôi tin rằng bạn đang đưa ra những giả định không có căn cứ. β^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
whuber

@whuber Điểm tốt! Cảm ơn! Tôi sẽ chỉnh sửa bài viết này sớm hơn nữa.
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.