Làm cách nào để ước tính sai số chuẩn hệ số khi sử dụng hồi quy sườn?


18

Tôi đang sử dụng hồi quy sườn trên dữ liệu đa hướng cao. Sử dụng OLS tôi nhận được các lỗi tiêu chuẩn lớn trên các hệ số do tính đa hình. Tôi biết hồi quy sườn là một cách để giải quyết vấn đề này, nhưng trong tất cả các triển khai hồi quy sườn mà tôi đã xem xét, không có lỗi tiêu chuẩn nào được báo cáo cho các hệ số. Tôi muốn một số cách ước tính mức độ hồi quy của sườn núi là bao nhiêu bằng cách xem mức độ giảm các lỗi tiêu chuẩn của các hệ số cụ thể. Có một số cách để ước tính chúng trong hồi quy sườn núi?

Câu trả lời:


19

Tôi nghĩ boostrap sẽ là lựa chọn tốt nhất để có được SE mạnh mẽ. Điều này đã được thực hiện trong một số công việc được áp dụng bằng các phương pháp thu nhỏ, ví dụ Phân tích dữ liệu Hiệp hội Viêm khớp dạng thấp Bắc Mỹ bằng cách sử dụng phương pháp hồi quy logistic bị phạt (BMC Proceedings 2009). Ngoài ra còn có một bài viết hay từ Casella về tính toán SE với mô hình bị phạt, Hồi quy hình phạt, Lỗi tiêu chuẩn và Bayesian Lassos (Phân tích Bayesian 2010 5 (2)). Nhưng họ quan tâm nhiều hơn đến Lasso hình phạt thunnet .

Tôi luôn nghĩ rằng hồi quy sườn núi là một cách để có được những dự đoán tốt hơn so với OLS tiêu chuẩn, trong đó mô hình nói chung không phải là tuyệt vời. Đối với lựa chọn biến, Lasso hoặc elasticnet tiêu chí thích hợp hơn, nhưng sau đó rất khó để áp dụng một quy trình bootstrap (kể từ biến được lựa chọn sẽ thay đổi từ một mẫu cho người khác, và ngay cả trong khu vực nội vòng lặp -fold sử dụng để tối ưu hóa các 1 / 2 parameters); đây không phải là trường hợp với hồi quy sườn, vì bạn luôn xem xét tất cả các biến.k12

Tôi không biết về các gói R sẽ cung cấp thông tin này. Nó dường như không có sẵn trong gói glmnet (xem bài viết của Friedman trong JSS, Đường dẫn chính quy cho các mô hình tuyến tính tổng quát thông qua việc điều phối gốc ). Tuy nhiên, Jelle Goeman, tác giả của gói bị phạt cũng thảo luận về điểm này. Không thể tìm thấy bản PDF gốc trên web, vì vậy tôi chỉ cần trích dẫn lời của anh ấy:

Đó là một câu hỏi rất tự nhiên để yêu cầu các lỗi tiêu chuẩn của hệ số hồi quy hoặc các đại lượng ước tính khác. Về nguyên tắc, các lỗi tiêu chuẩn như vậy có thể dễ dàng được tính toán, ví dụ như sử dụng bootstrap.

Tuy nhiên, gói này cố tình không cung cấp cho họ. Lý do cho điều này là các lỗi tiêu chuẩn không có ý nghĩa lắm đối với các ước tính sai lệch mạnh như phát sinh từ các phương pháp ước tính bị phạt. Dự toán hình phạt là một thủ tục làm giảm phương sai của người ước tính bằng cách đưa ra sai lệch đáng kể. Do đó, độ lệch của mỗi công cụ ước tính là một thành phần chính của sai số bình phương trung bình của nó, trong khi phương sai của nó chỉ có thể đóng góp một phần nhỏ.

Thật không may, trong hầu hết các ứng dụng hồi quy bị phạt, không thể có được ước tính đủ chính xác về sai lệch. Bất kỳ phép tính dựa trên bootstrap nào cũng chỉ có thể đưa ra đánh giá về phương sai của các ước tính. Các ước tính đáng tin cậy về sai lệch chỉ khả dụng nếu các ước tính không thiên vị đáng tin cậy có sẵn, thường không phải là trường hợp trong các tình huống sử dụng ước tính bị phạt.

Báo cáo một lỗi tiêu chuẩn của một ước tính bị phạt do đó chỉ nói lên một phần của câu chuyện. Nó có thể cho một ấn tượng sai lầm về độ chính xác tuyệt vời, hoàn toàn bỏ qua sự không chính xác gây ra bởi sự thiên vị. Đó chắc chắn là một sai lầm khi đưa ra tuyên bố độ tin cậy chỉ dựa trên đánh giá về phương sai của các ước tính, chẳng hạn như khoảng tin cậy dựa trên bootstrap.


2
Cảm ơn đã cung cấp báo giá này. Trích dẫn ban đầu có thể được tìm thấy ở đây trên trang 18.
Francisco Arceo

8

Giả sử rằng quá trình tạo dữ liệu tuân theo các giả định tiêu chuẩn đằng sau OLS, các lỗi tiêu chuẩn cho hồi quy sườn được đưa ra bởi:

σ2(MộtTMột+ΓTΓ)-1MộtTMột(MộtTMột+ΓTΓ)-1

Ký hiệu trên tuân theo ký hiệu wiki cho hồi quy sườn núi . Đặc biệt,

Một

σ2

Γ


1
ATAA

1

ΓTΓλtôitôiλ xấutích phân và các vấn đề nghịch đảo khác. "Một vấn đề nghịch đảo trong khoa học là quá trình tính toán từ một tập hợp các quan sát các yếu tố nguyên nhân tạo ra chúng: ví dụ, tính toán một hình ảnh trong chụp cắt lớp vi tính, tái tạo nguồn trong âm học hoặc tính mật độ của Trái đất từ ​​các phép đo trọng lực của nó trường. ở đây "SPSS chứa mã bổ sung cho độ lệch chuẩn của tất cả các tham số và tham số bổ sung có thể được lấy bằng cách truyền sai như trong phụ lục của bài viết này .

Điều thường bị hiểu sai về chính quy hóa Tikhonov là số lượng làm mịn có rất ít liên quan đến việc khớp đường cong, nên sử dụng hệ số làm mịn để giảm thiểu sai số của các tham số quan tâm. Bạn sẽ phải giải thích nhiều hơn về vấn đề cụ thể mà bạn đang cố gắng giải quyết để sử dụng hồi quy sườn đúng cách trong một số bối cảnh vấn đề nghịch đảo hợp lệ, và nhiều bài viết về lựa chọn các yếu tố làm mịn, và nhiều cách sử dụng chính quy Tikhonov được công bố là một chút heuristic.

Hơn nữa, chính quy Tikhonov chỉ là một điều trị vấn đề nghịch đảo giữa nhiều người. Theo liên kết đến tạp chí Vấn đề nghịch đảo .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.