Có phải là một ý tưởng sai lầm khi sử dụng các hệ số được tiêu chuẩn hóa để đánh giá tầm quan trọng tương đối của các yếu tố dự báo hồi quy?


9

Có nhiều câu hỏi khác nhau nói lên giá trị tương đối của các phương pháp khác nhau để đánh giá tầm quan trọng của các yếu tố dự báo hồi quy, ví dụ câu hỏi này .

Tôi nhận thấy rằng trong nhận xét này @gung đề cập đến thực tiễn là một "ý tưởng sai lầm", liên kết đến câu trả lời này để hỗ trợ cho tuyên bố này. Đoạn cuối của câu trả lời là phần có liên quan.

Tôi cảm thấy vấn đề này xứng đáng với câu hỏi của riêng mình, và cũng không chắc chắn về một số khía cạnh của lý luận. Đoạn quan trọng nhất của đoạn văn trong câu hỏi đi

trừ khi r thực sự chính xác bằng 0, r ước tính được điều khiển phần lớn bởi phạm vi các giá trị hiệp biến được sử dụng.

Điều này có tương đương với việc nói rằng chúng ta không nên sử dụng các hệ số được tiêu chuẩn hóa để đánh giá tầm quan trọng bởi vì chúng ta có thể đã lấy mẫu ngẫu nhiên một phạm vi giới hạn của các giá trị và phạm vi giá trị rộng hơn ? Sau đó, khi chúng tôi tiêu chuẩn hóa vấn đề này đã không biến mất, và cuối cùng chúng tôi nghĩ rằng là một yếu tố dự đoán yếu hơn ?X1X2X1X2

Tại sao vấn đề biến mất nếu thực sự chính xác là 0?r

Làm thế nào để các phương pháp khác (ví dụ, nhìn vào các hệ số bán đảo) làm gì với vấn đề này?


2
Tôi sẽ để nó cho @gung để giải thích ý của anh ấy. Có rất nhiều tài liệu về tầm quan trọng tương đối của các biến trong hồi quy và betas được tiêu chuẩn hóa chắc chắn là phản ứng thông thường từ các nhà thống kê. Trong số các điểm yếu của phương pháp này là các vấn đề liên quan đến lỗi tiêu chuẩn hoặc tính biến thiên trong các ước tính cho bản beta. Những vấn đề này, cũng như đánh giá kỹ lưỡng về tài liệu và các phương pháp khả thi, được Ulrike Gromping đưa lên trong các bài viết của cô về chủ đề này. Ngoài ra, cô đã phát triển một mô-đun R, RELAIMPO ... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter

Chỉ cần lưu ý với OP hãy cẩn thận nếu anh ấy ở Mỹ để tải xuống gói từ trang web của CRAN chứ không phải UG, hãy xem giới hạn trên trang @DJohnson khuyến nghị
mdewey

Câu trả lời:


4

Theo tôi, câu trả lời của gungs là một bài phê bình về ý tưởng để so sánh độ mạnh tương đối của các biến khác nhau trong các phân tích thực nghiệm mà không có mô hình nào trong đó các biến đó tương tác như thế nào hoặc phân phối chung (đúng) của tất cả các biến có liên quan như thế nào. Hãy nghĩ về ví dụ về tầm quan trọng của đề cập đến chiều cao và cân nặng của vận động viên. Không ai có thể chứng minh rằng ví dụ hồi quy tuyến tính phụ gia là một xấp xỉ tốt của hàm kỳ vọng có điều kiện hay nói cách khác, chiều cao và cân nặng có thể rất quan trọng theo cách rất phức tạp đối với thành tích của vận động viên. Bạn có thể chạy hồi quy tuyến tính bao gồm cả hai biến và so sánh các hệ số được tiêu chuẩn hóa nhưng bạn không biết liệu kết quả có thực sự có ý nghĩa hay không.

Để đưa ra một ví dụ về chuột Mickey, nhìn vào người leo núi thể thao (môn thể thao yêu thích của tôi), đây là danh sách những người leo núi nam hàng đầu theo một số đo hiệu suất lấy từ trang 8a.nu với thông tin về chiều cao, cân nặng và năm sinh của họ (chỉ những người sinh ra với thông tin có sẵn). Chúng tôi chuẩn hóa tất cả các biến trước đó để có thể so sánh trực tiếp mối liên hệ giữa một thay đổi độ lệch chuẩn trong các yếu tố dự đoán về một thay đổi độ lệch chuẩn trong phân phối hiệu suất. Không tính đến hình minh họa số một, Adam Ondra, người cao bất thường, chúng tôi nhận được kết quả như sau. :

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

Bỏ qua các lỗi tiêu chuẩn, vv, có vẻ như trọng lượng quan trọng hơn chiều cao hoặc quan trọng không kém. Nhưng người ta có thể lập luận rằng những người leo núi đã trở nên tốt hơn theo thời gian. Có lẽ chúng ta nên kiểm soát các hiệu ứng đoàn hệ, ví dụ như cơ hội đào tạo thông qua các cơ sở trong nhà tốt hơn? Hãy để chúng tôi bao gồm năm sinh!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

Bây giờ, chúng ta thấy rằng trẻ và nhỏ là quan trọng hơn là thon thả. Nhưng bây giờ một người khác có thể tranh luận điều này chỉ dành cho những người leo núi hàng đầu? Có thể có ý nghĩa khi so sánh các hệ số được tiêu chuẩn hóa trong toàn bộ phân phối hiệu suất (ví dụ thông qua hồi quy lượng tử). Và tất nhiên nó có thể khác với những người leo núi nữ nhỏ hơn và mảnh mai hơn nhiều. Không ai biết.

Đây là một ví dụ về chuột Mickey về những gì tôi nghĩ gung đề cập đến. Tôi không quá hoài nghi, tôi nghĩ rằng có thể có ý nghĩa khi xem xét các hệ số được tiêu chuẩn hóa, nếu bạn nghĩ rằng bạn đã chỉ định đúng mô hình hoặc phân tách phụ gia có ý nghĩa. Nhưng điều này phụ thuộc rất thường xuyên vào câu hỏi trong tầm tay.

Về các câu hỏi khác:

Điều này có tương đương với việc nói rằng chúng ta không nên sử dụng các hệ số được tiêu chuẩn hóa để đánh giá tầm quan trọng bởi vì chúng ta có thể đã lấy mẫu ngẫu nhiên một phạm vi giới hạn của các giá trị X1 và phạm vi giá trị X2 rộng hơn? Sau đó, khi chúng tôi tiêu chuẩn hóa vấn đề này đã không biến mất, và cuối cùng chúng tôi nghĩ rằng X1 là một yếu tố dự đoán yếu hơn X2?

Vâng, tôi nghĩ rằng bạn có thể nói như thế này. "Phạm vi giá trị X2 rộng hơn" có thể phát sinh thông qua sai lệch biến bị bỏ qua bằng cách bao gồm các biến quan trọng tương quan với X1 nhưng bỏ qua các giá trị tương quan với X2.

Tại sao vấn đề biến mất nếu r thực sự chính xác là 0?

r

Làm thế nào để các phương pháp khác (ví dụ, nhìn vào các hệ số bán đảo) làm gì với vấn đề này?

Các mô hình khác có hệ số bán đảo phải đối mặt với cùng một vấn đề. Nếu tập dữ liệu của bạn đủ lớn, bạn có thể thực hiện ví dụ hồi quy không theo tỷ lệ và cố gắng ước tính phân phối chung đầy đủ mà không cần giả định về hình thức chức năng (ví dụ: phân tách phụ gia) để chứng minh những gì bạn đang làm nhưng đây không bao giờ là bằng chứng.

Tóm tắt, tôi nghĩ rằng có thể có ý nghĩa để so sánh các hệ số chuẩn hóa hoặc bán đảo nhưng nó phụ thuộc và bạn phải tự lý luận hoặc người khác tại sao bạn nghĩ nó có ý nghĩa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.