Ước tính R bình phương và ý nghĩa thống kê từ mô hình hồi quy bị phạt


20

Tôi đang sử dụng gói R bị phạt để có được các ước tính hệ số thu nhỏ cho một tập dữ liệu trong đó tôi có rất nhiều dự đoán và ít kiến ​​thức về cái nào là quan trọng. Sau khi tôi chọn các tham số điều chỉnh L1 và L2 và tôi hài lòng với các hệ số của mình, có cách nào hợp lý để tóm tắt mô hình phù hợp với thứ gì đó như R-squared không?

Hơn nữa, tôi quan tâm đến việc kiểm tra ý nghĩa tổng thể của mô hình (tức là R² = 0 hoặc thực hiện tất cả các = 0).

Tôi đã đọc qua các câu trả lời cho một câu hỏi tương tự được hỏi ở đây , nhưng nó không trả lời được câu hỏi của tôi. Có một hướng dẫn tuyệt vời về gói R mà tôi đang sử dụng ở đây và tác giả Jelle Goeman đã có ghi chú sau ở cuối hướng dẫn về khoảng tin cậy từ các mô hình hồi quy bị phạt:

Đó là một câu hỏi rất tự nhiên để yêu cầu các lỗi tiêu chuẩn của hệ số hồi quy hoặc các đại lượng ước tính khác. Về nguyên tắc, các lỗi tiêu chuẩn như vậy có thể dễ dàng được tính toán, ví dụ như sử dụng bootstrap.

Tuy nhiên, gói này cố tình không cung cấp cho họ. Lý do cho điều này là các lỗi tiêu chuẩn không có ý nghĩa lắm đối với các ước tính sai lệch mạnh như phát sinh từ các phương pháp ước tính bị phạt. Dự toán hình phạt là một thủ tục làm giảm phương sai của người ước tính bằng cách đưa ra sai lệch đáng kể. Do đó, độ lệch của mỗi công cụ ước tính là một thành phần chính của sai số bình phương trung bình của nó, trong khi phương sai của nó chỉ có thể đóng góp một phần nhỏ.

Thật không may, trong hầu hết các ứng dụng hồi quy bị phạt, không thể có được ước tính đủ chính xác về sai lệch. Bất kỳ phép tính dựa trên bootstrap nào cũng chỉ có thể đưa ra đánh giá về phương sai của các ước tính. Các ước tính đáng tin cậy về sai lệch chỉ khả dụng nếu các ước tính không thiên vị đáng tin cậy có sẵn, thường không phải là trường hợp trong các tình huống sử dụng ước tính bị phạt.

Báo cáo một lỗi tiêu chuẩn của một ước tính bị phạt do đó chỉ nói lên một phần của câu chuyện. Nó có thể cho một ấn tượng sai lầm về độ chính xác tuyệt vời, hoàn toàn bỏ qua sự không chính xác gây ra bởi sự thiên vị. Đó chắc chắn là một sai lầm khi đưa ra tuyên bố độ tin cậy chỉ dựa trên đánh giá về phương sai của các ước tính, chẳng hạn như khoảng tin cậy dựa trên bootstrap.


1
Tất nhiên, một cách để tôi có thể nhanh chóng ước tính bình phương R là bằng cách khớp một mô hình tuyến tính dự đoán các giá trị được trang bị từ dữ liệu gốc và lấy bình phương R từ đó. Nhưng điều này có vẻ như sẽ là một ước tính ồ ạt và sai lệch của R-bình phương.
Stephen Turner

Tôi thêm nó dưới dạng một nhận xét vì tôi đang hỏi một câu hỏi "tương tự" trong một bài đăng gần đó (vì vậy tôi không biết liệu tôi có đủ điều kiện để đưa ra câu trả lời không ), nhưng đối với câu hỏi của bạn, có vẻ như bạn có thể tính R bình phương mà không yêu cầu bất kỳ giả định phân phối (mặc dù chúng cần thiết cho các bài kiểm tra giả thuyết theo cách thông thường). Bạn không thể sử dụng một thiết lập giữ để tính bình phương r hoặc sử dụng xác thực gấp k nếu bạn không có đủ dữ liệu (mỗi lần chạy quy trình bị phạt đầy đủ của bạn và trung bình các bình phương r từ mỗi nếp gấp sử dụng trong lắp)?
B_Miner

1
@B_Miner, -fold cross validation có xu hướng đưa ra ước tính khá thiên vị của R 2 , vì nó thường không được ước tính số lượng thực sự của lãi suất. Nhiều thủ tục tương tự (hầu hết?) Có cùng một vấn đề. kR2
Đức hồng y

1
@Stephen, thực sự là số lượng bạn quan tâm không? Do sự thiên vị gây ra bởi hình phạt, chỉ nhìn vào phương sai được giải thích có lẽ là không mong muốn trừ khi bạn đã có một ước tính rất tốt về sự thiên vị. Toàn bộ ý tưởng sử dụng R 2 làm cơ sở cho suy luận được xác định dựa trên tính không thiên vị của các ước tính. Ngay cả sách giáo khoa lớn về hồi quy dường như "quên" điều này. (Xem, ví dụ, cách xử lý R 2 có phần sai lầm của Seber và Lee trong trường hợp hồi quy bội.)R2 R2R2
hồng y

1
R2

Câu trả lời:


4

Phản ứng đầu tiên của tôi đối với những bình luận của Jelle đưa ra là "bias-schmias". Bạn phải cẩn thận về những gì bạn có nghĩa là "số lượng lớn các dự đoán". Điều này có thể là "lớn" đối với:

  1. Số lượng điểm dữ liệu ("big p small n")
  2. Lượng thời gian bạn phải điều tra các biến
  3. Chi phí tính toán để đảo ngược một ma trận khổng lồ

Phản ứng của tôi dựa trên "lớn" đối với điểm 1. Điều này là do trong trường hợp này, nó thường có giá trị đánh đổi theo xu hướng cho việc giảm phương sai mà bạn nhận được. Xu hướng chỉ quan trọng là "trong dài hạn". Vì vậy, nếu bạn có một mẫu nhỏ, vậy thì ai quan tâm đến "về lâu dài"?

R2R2

Lý tưởng nhất là "lỗi dự đoán" này phải dựa trên bối cảnh tình huống mô hình của bạn. Về cơ bản, bạn muốn trả lời câu hỏi "Mô hình của tôi tái tạo dữ liệu tốt như thế nào?". Bối cảnh của tình huống của bạn sẽ có thể cho bạn biết "tốt như thế nào" trong thế giới thực. Sau đó, bạn cần dịch điều này thành một số loại phương trình toán học.

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNTMG=TMNg=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED

3
kp>n>1

1

Các gói phần mềm R HDM và gói Stata lassopack hỗ trợ một thử nghiệm ý nghĩa chung cho Lasso. Lý thuyết cho phép số lượng người dự đoán là lớn so với số lượng quan sát. Lý thuyết đằng sau bài kiểm tra và cách áp dụng nó được giải thích ngắn gọn trong tài liệu hdm . Nói tóm lại, nó dựa trên một khuôn khổ cho hình phạt dựa trên lý thuyết (được phát triển bởi Belloni, Chernozhukov và Hansen, et al.). Bài viết này là một điểm khởi đầu tốt nếu bạn muốn biết thêm về lý thuyết cơ bản. Nhược điểm duy nhất là thử nghiệm chỉ hoạt động đối với Lasso và (Lasso vuông gốc). Không cho các phương pháp hồi quy bị phạt khác.

Belloni, A., Chen, D., Chernozhukov, V. và Hansen, C. (2012), Mô hình và phương pháp thưa thớt cho các công cụ tối ưu với một ứng dụng cho miền nổi tiếng. Kinh tế lượng, 80: 2369-2429.


vui lòng thêm tài liệu tham khảo đầy đủ của bài báo (một liên kết có thể chết)
Antoine
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.