Phân tích đàn hồi / sườn / lasso, sau đó là gì?


19

Tôi đang thực sự quan tâm đến thủ tục mạng đàn hồi cho sự co ngót / lựa chọn dự đoán. Có vẻ như rất mạnh mẽ.

Nhưng từ quan điểm khoa học, tôi không biết phải làm gì một khi đã có hệ số. Tôi đang trả lời câu hỏi gì? Đây là những biến số ảnh hưởng nhiều nhất đến kết quả đó và đây là những hệ số mang lại tỷ lệ phương sai / sai lệch tốt nhất trong quá trình xác nhận?

Tất nhiên đây là một cách tiếp cận rất mô tả / dự đoán so với cách tiếp cận khoảng tin cậy / giá trị p cổ điển. Ước tính suy luận đang được nghiên cứu bởi Tibshirani & Co. nhưng vẫn còn thử nghiệm.

Một số người đang sử dụng các biến được chọn bởi mạng đàn hồi để thực hiện phân tích suy luận cổ điển, nhưng điều đó sẽ loại bỏ giới hạn về phương sai do kỹ thuật mang lại.

Một vấn đề khác là vì các tham số lambda và alpha cho mạng đàn hồi được chọn bằng xác nhận chéo nên chúng có thể thay đổi ngẫu nhiên. Vì vậy, mỗi khi bạn chạy (ví dụ: cv.glmnet (), bạn sẽ chọn một tập hợp con dự đoán hơi khác nhau với các hệ số luôn khác nhau.

Tôi mặc dù về việc giải quyết điều này coi lambda và alpha đúng là các biến ngẫu nhiên và chạy lại bước xác thực chéo n lần để có được phân phối các tham số này. Bằng cách này cho mọi người dự đoán tôi sẽ có số lần xuất hiện và với mỗi hệ số tôi sẽ có phân phối kết quả. Điều này sẽ cho tôi kết quả tổng quát hơn với thống kê phạm vi (như sd của các hệ số). Cũng rất thú vị để xem liệu lambda và alpha chọn cách này có gần đúng với một số phân phối không có triệu chứng hay không, vì điều đó sẽ mở đường cho một bài kiểm tra suy luận (nhưng tôi không phải là một nhà thống kê nên tôi không nên nói về những điều tôi không Tôi hoàn toàn hiểu).

Vì vậy, cuối cùng câu hỏi của tôi là: Một khi bạn nhận được các yếu tố dự đoán và hệ số từ một mạng đàn hồi có xác nhận chéo dựa trên alpha và lambda, bạn nên trình bày những kết quả này như thế nào? Làm thế nào bạn nên thảo luận về họ? chúng ta đã học được gì? Những giả thuyết / khái quát hóa nào chúng ta đang nhầm lẫn?


Tôi nghĩ rằng điều này là quá rộng / không rõ ràng để trả lời thích hợp. Trong một số trường hợp tôi thấy các tuyên bố của bạn không rõ ràng (ví dụ: ý của bạn là gì " nhưng điều đó sẽ loại bỏ giới hạn về phương sai do kỹ thuật mang lại. ") Và trên một số trường hợp khác bị nhầm lẫn (ví dụ: " mỗi khi bạn chạy (ví dụ:) cv.glmnet (), bạn sẽ chọn một tập hợp con hơi khác nhau các nhân tố ảnh với hệ số luôn luôn khác nhau . "- đó không phải là trường hợp mỗi lần và thậm chí khi nó xảy ra thường nó không phải là CV cho thảm họa đã được thực hiện một cách chính xác)
usεr11852 nói Khôi phục Monic

một động lực mà tôi đã thấy về lưới đàn hồi liên quan đến việc phân cụm biến đổi (thông qua phần 2.3 của giấy đàn hồi zou, hastie), được mở rộng chi tiết hơn (thông qua một phương pháp hơi khác) ở đây: ncbi.nlm.nih .gov / pmc / bài viết / PMC4011669
user795305

Câu trả lời:


8

Các phương pháp này - lưới Lasso và lưới đàn hồi - được sinh ra từ các vấn đề của cả lựa chọn và dự đoán tính năng. Đó là thông qua hai ống kính mà tôi nghĩ rằng một lời giải thích có thể được tìm thấy.

Matthew Gunn giải thích độc đáo trong câu trả lời của mình rằng hai mục tiêu này là khác biệt và thường được đưa ra bởi những người khác nhau. Tuy nhiên, may mắn thay cho chúng tôi, các phương pháp mà chúng tôi quan tâm có thể thực hiện tốt trong cả hai đấu trường.

Lựa chọn tính năng

Đầu tiên, hãy nói về lựa chọn tính năng. Trước tiên chúng ta nên thúc đẩy mạng lưới đàn hồi từ quan điểm của Lasso. Đó là, để trích dẫn Hastie và Zou , "Nếu có một nhóm biến trong đó các mối tương quan theo cặp rất cao, thì Lasso có xu hướng chỉ chọn một biến trong nhóm và không quan tâm đến biến nào được chọn." Ví dụ, đây là một vấn đề, bởi vì điều đó có nghĩa là chúng ta không có khả năng tìm thấy một yếu tố hỗ trợ thực sự bằng cách sử dụng Lasso - chỉ là một yếu tố tương quan cao với nó. (Bài viết đề cập rằng điều này đã được chứng minh trong bài báo LARS mà tôi chưa đọc.) Khó khăn trong việc phục hồi hỗ trợ khi có sự tương quan cũng được Wainwright chỉ ra , khi có mối tương quan cao giữa hỗ trợ thực sự và bổ sung.0.5

Bây giờ, hình phạt l2 trong mạng đàn hồi khuyến khích các tính năng có hệ số được coi là không thể phân biệt bằng chỉ mất và hình phạt l1 để có hệ số ước tính bằng nhau. Chúng tôi lỏng lẻo có thể thấy điều này bởi nhận thấy rằng thỏa mãn | một | = | b(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2. Do đó, mạng lưới đàn hồi khiến chúng ta ít có khả năng 'vô tình' biến mất một ước tính hệ số nằm trong hỗ trợ thực sự. Đó là, hỗ trợ thực sự có nhiều khả năng được bao gồm trong hỗ trợ ước tính. Điều đó thật tốt! Điều đó có nghĩa là có nhiều khám phá sai lầm hơn, nhưng đó là cái giá mà hầu hết mọi người sẵn sàng trả.|a|=|b|

Bên cạnh đó, đáng để chỉ ra rằng thực tế là các tính năng có tương quan cao sẽ có xu hướng ước tính hệ số rất giống nhau để chúng ta có thể phát hiện các nhóm tính năng trong hỗ trợ ước tính có ảnh hưởng tương tự.

Dự đoán

α=1

Lederer, Yu và Gaynanova cho thấy, không có giả định nào về các tính năng, rằng lasso và lưới đàn hồi đều có thể có lỗi dự đoán l2 bị ràng buộc bởi cùng một số lượng. Không nhất thiết là ràng buộc của chúng là chặt chẽ, nhưng điều này có thể thú vị để lưu ý vì sự bất bình đẳng orory dường như là một cách tiêu chuẩn trong tài liệu thống kê để định lượng hiệu suất dự đoán của các công cụ ước tính - có lẽ vì các phân phối rất phức tạp! Cũng đáng lưu ý rằng Lederer (1) (2) có một số bài viết về dự đoán lasso với sự hiện diện của các tính năng tương quan.

Tóm lược

Tóm lại, các vấn đề quan tâm là sự hỗ trợ thực sự nằm trong dự đoán và hỗ trợ ước tính. Để phục hồi hỗ trợ, đã có những đảm bảo được chứng minh nghiêm ngặt (thông qua Wainwright) rằng Lasso chọn các tính năng chính xác trong mô hình theo các giả định về mối tương quan thấp giữa hỗ trợ thực sự và bổ sung. Tuy nhiên, với sự có mặt của mối tương quan, chúng ta có thể quay lại mạng lưới đàn hồi để có nhiều khả năng chọn các tính năng trong hỗ trợ thực sự nằm trong số tất cả những gì nó chọn. (Lưu ý rằng chúng ta phải chọn cẩn thận các tham số điều chỉnh ở đây.) Và, để dự đoán khi chúng ta chọn tham số điều chỉnh thông qua xác thực chéo, điều này có ý nghĩa trực quan rằng lưới đàn hồi phải hoạt động tốt hơn so với lasso - đặc biệt là khi có sự tương quan .

Đặt dự đoán sang một bên và một số hình thức, chúng ta đã học được gì? Chúng tôi đã học về sự hỗ trợ thực sự.

Khoảng tin cậy

Thật đáng để chỉ ra rằng rất nhiều thứ đã thay đổi trong 2 năm qua liên quan đến suy luận hợp lệ cho bức tranh. Cụ thể, tác phẩm của Lee, Sun, Sun và Taylor cung cấp suy luận chính xác cho các hệ số của điều kiện Lasso trên mô hình đã cho được chọn. (Kết quả suy luận về Lasso cho các hệ số thực sự xuất hiện vào thời điểm bài viết của OP và chúng được tóm tắt tốt trong bài báo được liên kết.)


Sẽ là chính xác khi giả định rằng các ước tính hiệp phương sai thường xuyên có lẽ giống với các ước tính chúng ta có thể tìm thấy khi lặp lại một nghiên cứu? Đó là, vì chính quy hóa giúp giảm thiểu lỗi dự đoán mẫu, nó có thể giúp giảm thiểu sự khác biệt từ trong mẫu và ngoài ước tính mẫu?
Bakaburg

1
@Bakaburg, yeah, điều đó có ý nghĩa để nói. Việc chính quy tạo ra các công cụ ước tính với phương sai thấp hơn.
user795305

9

Những gì bạn đang làm với đàn hồi, sườn núi hoặc lasso, sử dụng xác thực chéo để chọn tham số chính quy, phù hợp với một số dạng tuyến tính để tối ưu hóa dự đoán . Tại sao các tham số chính quy đặc biệt? Bởi vì chúng hoạt động tốt nhất để dự đoán về dữ liệu mới. Thu hẹp các ước tính hệ số về 0, đưa ra độ lệch, (như được thực hiện trong cả Sườn hoặc Lasso) có thể làm giảm phương sai và thu hẹp phương sai . Ý tưởng là để các tham số hình phạt của bạn đạt được sự cân bằng phù hợp để tối ưu hóa dự đoán về dữ liệu mới.

Hãy tưởng tượng quá trình tạo dữ liệu là:

yi=f(xi,β)+ϵi

Hãy ββ^βy^jj

Làm thế nào bạn nên trình bày kết quả của bạn? Nó phụ thuộc vào câu hỏi nghiên cứu cơ bản của bạn là gì! Bạn có thể muốn bước lại và suy nghĩ sâu sắc về những gì câu hỏi mà bạn đang cố gắng để trả lời. Khán giả của bạn quan tâm điều gì? Bạn đang cố làm gì vậy?

  • Dự đoán?
  • Ước tính hệ số?
  • Lựa chọn biến?

Điều quan trọng là phải phân biệt giữa hai loại câu hỏi nghiên cứu:

  1. y^j
  2. β^

Tắt máy thềm kỹ thuật học tập có thể cực kỳ mạnh mẽ cho các y^β^

  • Trong một khung cảnh chiều cao, nhiều tham số khác nhau sẽ cung cấp cho bạn những y^kn
  • Các thuật toán được đào tạo trên các nếp gấp khác nhau có thể có ước tính tham số khác nhau đáng kể.
  • Sự nhấn mạnh trong học máy là về dự đoán, không nhất quán ước tính tác động nhân quả. (Điều này trái ngược với kinh tế lượng, trong đó điển hình là vấn đề chính nằm ở việc ước lượng nhất quán các tác động nhân quả). Dự đoán, ước tính một số hình thức chức năng, khác với ước tính nguyên nhân. Cấp cảnh sát có thể là một yếu tố dự báo tốt về cấp độ tội phạm và điều này không có nghĩa là cảnh sát gây ra tội ác.

Và như bạn nhận ra, có thể có vấn đề trong việc diễn giải lý do tại sao một số tham số học máy hoạt động. Là khán giả của bạn thoải mái với một hộp đen dự đoán? Hoặc là làm thế nào dự đoán hoạt động trung tâm cho câu hỏi của bạn?

Lasso và Ridge: lý do cổ điển để sử dụng chúng

  • Bạn có thể sử dụng lưới đàn hồi cho việc học máy cổ điển, các vấn đề dự đoán, các tình huống mà mối quan tâm chính của bạn là y^

  • Bạn có thể sử dụng thường xuyên để ngăn chặn quá mức. Ví dụ. hồi quy sườn trong bối cảnh khớp đường cong đa thức có thể hoạt động khá độc đáo.

  • Như @Benjamin chỉ ra trong câu trả lời của mình, Lasso cũng có thể được sử dụng để lựa chọn biến. Trong một số điều kiện đều đặn nhất định, Lasso sẽ liên tục chọn mô hình phù hợp: các hệ số không liên quan sẽ được đặt thành không.

L1L2

Điều tôi tiếp tục quay trở lại là khá khó khăn để diễn giải kết quả của hồi quy chạy, lasso hoặc lưới đàn hồi mà không có thêm bối cảnh về những gì bạn đang cố gắng tìm ra!


Giáo sư Sendhil Mullainathan đã nói chuyện về học máy tại cuộc họp AFA tháng 1 năm 2017, điều này thúc đẩy các phần của bài đăng này.


3
Loại suy nghĩ này là thiếu sót trong quan điểm của tôi. Nó dựa trên giả định rằng hiện tượng cơ bản đủ đơn giản để có thể hiểu được bởi một con người. Các mô hình chiều cao hầu hết thời gian quá phức tạp để con người hiểu được, nhưng chúng rất phù hợp với trí tuệ nhân tạo quy mô lớn. Trong thực tế, người dự đoán tốt nhất là sự giải thích tốt nhất về hiện tượng, cho dù bạn có thể hiểu nó hay không.
Cagdas Ozgenc

2
@CagdasOzgenc Tôi nghĩ rằng đó là một điểm hợp lệ mà một số chức năng rất phức tạp, khó mô tả với con người nhưng có thể hiểu và có thể học được bằng máy (ví dụ: đánh giá bàn cờ). Trong những tình huống này, có thể tốt hơn là giơ tay lên, thậm chí không cố gắng diễn giải những gì máy học được. Mặt khác, có những tình huống như thử nghiệm ma túy trong đó có tác động nhân quả, một số hiệu quả trung bình mà bạn đang cố gắng ước tính khi có vô số yếu tố gây nhiễu, hiệu ứng lựa chọn, v.v ... Đây là một số vấn đề khác nhau và cần kỹ thuật khác nhau.
Matthew Gunn

1
y^
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.