Biện minh theo kinh nghiệm cho một quy tắc lỗi tiêu chuẩn khi sử dụng xác thực chéo


39

Có bất kỳ nghiên cứu thực nghiệm nào biện minh cho việc sử dụng một quy tắc lỗi tiêu chuẩn có lợi cho phân tích không? Rõ ràng nó phụ thuộc vào quá trình tạo dữ liệu của dữ liệu, nhưng bất cứ điều gì phân tích một khối lượng lớn các bộ dữ liệu sẽ là một cách đọc rất thú vị.


"Một quy tắc lỗi tiêu chuẩn" được áp dụng khi chọn các mô hình thông qua xác thực chéo (hoặc nói chung hơn thông qua bất kỳ quy trình dựa trên ngẫu nhiên hóa nào).

Giả sử chúng ta xem xét mô hình được lập chỉ mục bởi một tham số phức tạp τ R , sao cho M τ là "phức tạp" hơn M τ ' chính xác khi nào τ > τ ' . Giả sử thêm rằng chúng tôi đánh giá chất lượng của một mô hình M bằng một số quy trình ngẫu nhiên, ví dụ, xác thực chéo. Đặt q ( M ) biểu thị chất lượng "trung bình" của M , ví dụ: lỗi dự đoán tiền túi trung bình trong nhiều lần chạy xác thực chéo. Chúng tôi muốn giảm thiểu số lượng này.MττRMτMττ>τMq(M)M

Tuy nhiên, vì thước đo chất lượng của chúng tôi xuất phát từ một số thủ tục ngẫu nhiên, nó đi kèm với sự thay đổi. Gọi biểu thị lỗi tiêu chuẩn về chất lượng của M trong các lần chạy ngẫu nhiên, ví dụ: độ lệch chuẩn của lỗi dự đoán ngoài túi của M so với các lần chạy xác thực chéo.s(M)MM

Sau đó, chúng tôi chọn mô hình , nơi τ là nhỏ nhất τ như vậyMτττ

q(Mτ)q(Mτ)+s(Mτ),

τq(Mτ)=minτq(Mτ)

Đó là, chúng tôi chọn mô hình đơn giản nhất ( nhỏ nhất ) không có nhiều hơn một lỗi tiêu chuẩn tồi tệ hơn mô hình tốt nhất trong quy trình ngẫu nhiên.τMτ

Tôi đã tìm thấy "một quy tắc lỗi tiêu chuẩn" được đề cập ở những nơi sau đây, nhưng không bao giờ với bất kỳ lời biện minh rõ ràng nào:


7
Mặc dù tôi biết những gì bạn đang đề cập đến "Quy tắc một lỗi tiêu chuẩn", tôi hoàn toàn nghi ngờ rằng nhiều người sẽ không, nhưng sẽ quan tâm đến câu hỏi này nếu họ làm như vậy. Có lẽ bạn có thể chỉnh sửa để thêm một vài câu giải thích? (Chỉ là một gợi ý ...)
jbowman

2
@jbowman: Tôi vừa chỉnh sửa câu hỏi để giải thích một quy tắc lỗi tiêu chuẩn, trả lời vì tôi cũng khá thích thú với điều này ... và câu trả lời dưới đây không thực sự trả lời câu hỏi của tôi. Bất cứ ai, xin vui lòng để cải thiện.
S. Kolassa - Tái lập Monica


2
Nó sẽ làm cho một chủ đề tốt đẹp cho một bài báo. Nó có vẻ giống như một heuristic kỹ thuật hợp lý, nhưng không phải tất cả các SEH đều hoạt động trong thực tế, vì vậy một nghiên cứu trên một số lượng lớn các bộ dữ liệu sẽ rất thú vị. Tôi tự hỏi nếu có một vấn đề thử nghiệm nhiều giả thuyết liên quan có thể có nghĩa là nó không được hiệu chỉnh tốt, nhưng tôi đã nghĩ rằng sẽ tốt hơn là không làm gì trên các bộ dữ liệu trong đó loại điều chỉnh quá mức này có khả năng là một vấn đề. Câu hỏi đặt ra là nó có làm cho hiệu năng kém hơn nhiều trên các tập dữ liệu không phải là vấn đề?
Dikran Marsupial

Câu trả lời:


12

Sau đây không phải là một nghiên cứu thực nghiệm , đó là lý do tại sao ban đầu tôi muốn đăng nó dưới dạng một bình luận, không phải là một câu trả lời - nhưng nó thực sự quá dài cho một bình luận.

Cawley & Talbot ( J of Machine Learning Research , 2010) thu hút sự chú ý về sự khác biệt giữa quá mức trong giai đoạn lựa chọn mô hình và quá mức trong giai đoạn phù hợp mô hình.

Loại quá mức thứ hai là thứ mà hầu hết mọi người đều quen thuộc: được đưa ra một mô hình cụ thể, chúng tôi không muốn điều chỉnh quá mức, nghĩa là để phù hợp với nó quá chặt chẽ với các đặc điểm riêng của tập dữ liệu duy nhất mà chúng ta thường có. ( Đây là nơi thu hẹp / chính quy hóa có thể giúp đỡ, bằng cách giao dịch một sự gia tăng nhỏ về độ lệch so với mức giảm lớn của phương sai. )

Tuy nhiên, Cawley & Talbot lập luận rằng chúng ta có thể tập luyện quá sức trong giai đoạn lựa chọn mô hình. Rốt cuộc, chúng ta vẫn chỉ có một bộ dữ liệu duy nhất và chúng ta đang quyết định giữa các mô hình khác nhau có độ phức tạp khác nhau. Đánh giá từng mô hình ứng cử viên để chọn một mô hình thường liên quan đến việc phù hợp với mô hình đó, có thể được thực hiện bằng cách sử dụng chính quy hay không. Nhưng bản thân sự đánh giá này lại là một biến ngẫu nhiên, bởi vì nó phụ thuộc vào tập dữ liệu cụ thể mà chúng ta có. Vì vậy, sự lựa chọn của chúng tôi về một mô hình "tối ưu" có thể tự nó thể hiện thành kiến ​​và sẽ biểu hiện một phương sai, tùy thuộc vào tập dữ liệu cụ thể từ tất cả các tập dữ liệu mà chúng tôi có thể rút ra từ dân số.

Do đó, Cawley & Talbot lập luận rằng chỉ cần chọn mô hình hoạt động tốt nhất trong đánh giá này cũng có thể là quy tắc lựa chọn với độ lệch nhỏ - nhưng nó có thể thể hiện phương sai lớn. Nghĩa là, với các bộ dữ liệu huấn luyện khác nhau từ cùng một quy trình tạo dữ liệu (DGP), quy tắc này có thể chọn các mô hình rất khác nhau, sau đó sẽ được trang bị và sử dụng để dự đoán trong các bộ dữ liệu mới theo cùng DGP. Trong ánh sáng này, việc hạn chế phương sai của quy trình lựa chọn mô hình nhưng phát sinh sai lệch nhỏ đối với các mô hình đơn giản hơn có thể dẫn đến các lỗi ngoài mẫu nhỏ hơn.

Cawley & Talbot không kết nối điều này rõ ràng với một quy tắc lỗi tiêu chuẩn và phần của họ về "lựa chọn mô hình chính quy" là rất ngắn. Tuy nhiên, một quy tắc lỗi tiêu chuẩn sẽ thực hiện chính xác quy trình chính quy này và tính đến mối quan hệ giữa phương sai trong lựa chọn mô hình và phương sai của lỗi xác thực chéo ngoài túi.

Ví dụ, bên dưới là Hình 2.3 từ Học thống kê với độ thưa thớt của Hastie, Tibshirani & Wainwright (2015) . Phương sai lựa chọn mô hình được đưa ra bởi độ lồi của đường màu đen ở mức tối thiểu. Ở đây, mức tối thiểu không được phát âm rõ ràng và đường thẳng khá lồi, do đó việc lựa chọn mô hình có thể không chắc chắn với phương sai cao. Và phương sai của ước tính lỗi OOB CV tất nhiên được đưa ra bởi nhiều đường màu xanh nhạt biểu thị các lỗi tiêu chuẩn.

một quy tắc lỗi tiêu chuẩn


1
Haha, hãy thử tìm kiếm này (hoặc đặt dấu gạch nối trong truy vấn của bạn).
amip nói rằng Phục hồi lại

2
Nếu bạn chỉ có một tham số chính quy, thì loại khớp quá mức đó có xu hướng không quá rắc rối (vì vấn đề tối ưu hóa chỉ có một mức độ tự do), nhưng nếu bạn có nhiều tham số chính quy (ví dụ: xác định mức độ phù hợp tự động cho mạng lưới thần kinh) sau đó nó có thể nhanh chóng kết thúc rất đáng kể. Phương pháp một sd là một heuristic tuyệt vời để tránh tối ưu hóa quá mức tham số chính quy, nhưng sẽ rất tuyệt nếu thử và có một cái gì đó hợp lý hơn một chút (1/2)
Dikran Marsupial

1
Hai cách tiếp cận mà chúng tôi (bà Marsupial và tôi) đã nghiên cứu là thường xuyên hóa các tham số siêu với một siêu tham số được tích hợp ra ngoài phân tích ( jmlr.csail.mit.edu/ con / vololume8 / cawley07a / cawley07a.pdf ) hoặc để chuyển đổi một số siêu tham số thành tham số và cũng khớp chúng trực tiếp với dữ liệu, với chi phí thêm một tham số chính quy bổ sung (nhưng điều đó vẫn làm giảm mức độ tự do cho lựa chọn mô hình, vì vậy nó vẫn giúp ích) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
Ngẫu nhiên, sự phù hợp quá mức trong lựa chọn mô hình có thể dẫn đến mô hình phù hợp quá mức hoặc không phù hợp với tập huấn luyện, điều này có thể làm cho vấn đề khó khăn hơn một chút để chẩn đoán. Từ quan điểm của Bayes, điều tốt nhất cần làm không phải là tối ưu hóa, mà là ngoài lề so với , nhưng đó là tính toán tốn kém hoặc khó khăn hoặc cả hai. Một lợi thế lớn của quy tắc 1sd là nó nằm ở đầu kia của quang phổ đó, và là một kỹ sư, tôi thích những thứ đơn giản hoạt động; o) (3/2)λ
Dikran Marsupial

1
Một chủ đề về tối ưu hóa chủ đề lambda-vs-marginalizing-over-lambda mà @DikranMarsupial đã đề cập là stats.stackexchange.com/questions/24799 . Cuộc thảo luận đó là về hồi quy sườn, và lề có lẽ là (?) Khó hơn cho lasso / lưới đàn hồi / vv, trong khi vẻ đẹp của CV là nó rất dễ thực hiện.
amip nói phục hồi Monica

12

Để chứng minh bằng thực nghiệm, hãy xem trang 12 về các ghi chú khóa học khai thác dữ liệu này của Tibshirani , trong đó cho thấy lỗi CV là một chức năng của lambda cho một vấn đề mô hình cụ thể. Gợi ý dường như là, dưới một giá trị nhất định, tất cả lambdas đều đưa ra cùng một lỗi CV. Điều này có ý nghĩa bởi vì, không giống như hồi quy sườn, LASSO thường không chỉ được sử dụng, hoặc thậm chí là chủ yếu, để cải thiện độ chính xác dự đoán. Điểm bán hàng chính của nó là nó làm cho các mô hình đơn giản hơn và dễ hiểu hơn bằng cách loại bỏ các yếu tố dự đoán ít liên quan / có giá trị nhất.

Bây giờ, để hiểu một quy tắc lỗi tiêu chuẩn, chúng ta hãy nghĩ về gia đình của các mô hình mà chúng ta nhận được từ việc thay đổi . Hình của Tibshirani đang nói với chúng ta rằng chúng ta có một loạt các mô hình phức tạp từ trung bình đến cao, giống nhau về độ chính xác dự đoán và một loạt các mô hình có độ phức tạp thấp không tốt để dự đoán. Chúng ta nên chọn cái gì? Chà, nếu chúng tôi đang sử dụng , có lẽ chúng tôi quan tâm đến một mô hình tuyệt vời, vì vậy có lẽ chúng tôi thích mô hình đơn giản nhất giải thích dữ liệu của chúng tôi một cách hợp lý, để diễn giải Einstein. Vậy làm thế nào về mô hình phức tạp thấp nhất "tốt như" như tất cả các mô hình phức tạp cao đó? Và một cách tốt để đo lường "về như là tốt" là gì? Một lỗi tiêu chuẩn.λL1


1
Tôi không hiểu logic của câu trả lời này. Ví dụ: "không giống như hồi quy sườn, LASSO không phải là một cơ chế để cải thiện độ chính xác dự đoán" - tại sao? Tại sao L1 khác với L2? Trong câu tiếp theo, bạn mô tả những gì xảy ra với L1 đối với lambdas thấp, nhưng tôi nghĩ điều tương tự xảy ra với L2 đối với lambdas thấp.
amip nói rằng Phục hồi lại

1
Lưu ý rằng đây là một lời giải thích heuristic và dựa trên một số giả định không có căn cứ, giống như tất cả các dự đoán là thông tin. Nếu bạn có rất nhiều công cụ dự báo nhiễu và một vài thông tin, thì thực sự có thể có một giá trị lambda giúp tối ưu hóa rõ ràng và rõ ràng số liệu CV: tương ứng với việc chọn tập hợp con của các công cụ dự báo thông tin. Khi lambda giảm xuống dưới giá trị đó, bạn chỉ để tiếng ồn và làm tổn thương mô hình.
Paul

1
Tôi nghĩ rằng đối số hoạt động tốt như nhau đối với sườn núi và lasso, nếu bạn sử dụng một định nghĩa rộng về phân tích cú pháp trong đó chính quy hóa hơn -> mô hình đơn giản hơn. Tuy nhiên, việc thúc đẩy L1 dễ dàng hơn so với L2 do các loại vấn đề và bộ dữ liệu khác nhau mà chúng được sử dụng. Những người sử dụng L1 quan tâm nhiều hơn đến việc có một mô hình đơn giản và họ có nhiều khả năng gặp phải loại đường cong lỗi CV được thể hiện bởi Tibshirani.
Paul

1
Từ điển Tiếng Anh văn bản, p. 224: "Thông thường, một quy tắc lỗi một tiêu chuẩn của người dùng được sử dụng với xác thực chéo, trong đó chúng tôi chọn mô hình đáng chú ý nhất có lỗi không quá một lỗi tiêu chuẩn so với lỗi của mô hình tốt nhất." Ví dụ đưa ra là hồi quy tập hợp con và đường cong hình đầu gối so với số lượng dự đoán được hiển thị. Đường cong nằm phía trên số dự đoán chính xác, một lần nữa phù hợp với lời giải thích tôi đã đưa ra ở trên. Không có biện minh nghiêm ngặt hoặc toán học được đề cập.
Paul

1
Vì vậy, tôi nghĩ rằng vấn đề chính ở đây là mức tối thiểu được xác định kém, nhưng mô hình chính quy nhất trong một sigma của mức tối thiểu được xác định rõ.
Paul

1

Số lượng biến được chọn bởi công cụ ước tính Lasso được quyết định bởi giá trị hình phạt . Cái lớn hơn là , cái nhỏ hơn là tập hợp các biến được chọn. Đặt là tập hợp các biến được chọn bằng cách sử dụng như hình phạt . λλS^(λ)λ

Đặt là hình phạt được chọn bằng cách sử dụng tối thiểu chức năng xác thực chéo. Có thể chứng minh rằng . Trong đó là tập hợp các biến thực sự không 0. (Tập hợp biến thực là nội dung đúng trong tập được ước tính sử dụng dưới dạng phạt tối thiểu của xác thực chéo.)λP(S0S^(λ))1S0

Điều này cần được báo cáo trong Thống kê dữ liệu chiều cao của Bühlmann và van de Geer.

Giá trị hình phạt thường được chọn thông qua xác nhận chéo; điều này có nghĩa là với xác suất cao, có quá nhiều biến được chọn. Để giảm số lượng biến được chọn, hình phạt được tăng lên một chút bằng cách sử dụng quy tắc một lỗi tiêu chuẩn.λ


1
Bạn có thể đi vào chi tiết hơn một chút ở đây? Điều này có vẻ hấp dẫn.
DavidShor

1
điều này có nghĩa là với xác suất cao, có quá nhiều biến được chọn. - với tôi không rõ tại sao và tại sao với xác suất cao quá ít biến số không thể được chọn. Rốt cuộc, lựa chọn được xác thực chéo sẽ đưa ra ước tính có ít sai lệch nhưng có thể có phương sai cao, như đã lưu ý trong câu trả lời của Stephen Kolassa. λ
Richard Hardy

Tôi nghĩ rằng thực tế là việc chọn nhiều biến hơn mức yêu cầu sẽ làm giảm hiệu suất dự đoán ít hơn so với việc chọn không đủ biến. Vì lý do này CV có xu hướng chọn nhiều biến hơn.
Donbeo

hãy xem cuốn sách này springer.com/gp/book/9783642201912 và đến chương Lasso ở đây drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo

Đây là cuốn sách tôi muốn nói
Donbeo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.