Để hiểu những gì có thể xảy ra, việc tạo (và phân tích) dữ liệu hành xử theo cách được mô tả là điều nên làm.
Để đơn giản, hãy quên đi biến độc lập thứ sáu đó. Vì vậy, câu hỏi mô tả hồi quy của một biến phụ thuộc so với năm biến độc lập x 1 , x 2 , x 3 , x 4 , x 5 , trong đóyx1,x2,x3,x4,x5
Mỗi hồi quy thông thường có ý nghĩa ở các mức từ 0,01 đến dưới 0,001 .y∼xi0.010.001
Hồi quy nhiều sản lượng hệ số đáng kể duy nhất cho x 1 và x 2 .y∼x1+⋯+x5x1x2
Tất cả các yếu tố lạm phát phương sai (VIF) đều thấp, cho thấy điều kiện tốt trong ma trận thiết kế (nghĩa là thiếu sự cộng tác giữa các ).xi
Hãy làm điều này xảy ra như sau:
Tạo giá trị phân phối bình thường cho x 1 và x 2 . (Chúng tôi sẽ chọn n sau.)nx1x2n
Đặt trong đóy=x1+x2+ε là độc lập lỗi bình thường của bình 0 . Một số thử nghiệm và lỗi là cần thiết để tìm độ lệch chuẩn phù hợp cho ε ; 1 / 100 hoạt động tốt (và khá ấn tượng: y làvô cùngtốt tương quan với x 1 và x 2 , mặc dù nó chỉ vừa phải tương quan với x 1 và x 2 cá nhân).ε0ε1/100yx1x2x1x2
Hãy = x 1 / 5 + δ , j = 3 , 4 , 5 , nơi δxjx1/5+δj=3,4,5δ là tiêu chuẩn độc lập lỗi bình thường. Điều này làm cho chỉ phụ thuộc một chút vào x 1 . Tuy nhiên, thông qua mối tương quan chặt chẽ giữa x 1 và y , điều này tạo ra một mối tương quan nhỏ giữa y và các x j này .x3,x4,x5x1x1yyxj
Đây là chà: nếu chúng ta thực hiện đủ lớn, những nhẹ mối tương quan sẽ dẫn đến hệ số đáng kể, mặc dù y là gần như hoàn toàn "giải thích" bởi chỉ có hai biến đầu tiên.ny
Tôi thấy rằng hoạt động tốt khi tái tạo các giá trị p được báo cáo. Đây là một ma trận phân tán của tất cả sáu biến:n=500
Bằng cách kiểm tra cột bên phải (hoặc hàng dưới cùng), bạn có thể thấy rằng có mối tương quan (dương) tốt với x 1 và x 2 nhưng ít tương quan rõ ràng với các biến khác. Bằng cách kiểm tra phần còn lại của ma trận này, bạn có thể thấy rằng các biến độc lập x 1 , ... , x 5 dường như hai bên không tương quan (các ngẫu nhiên δyx1x2x1,…,x5δche dấu những phụ thuộc nhỏ bé mà chúng ta biết là có.) Không có dữ liệu đặc biệt - không có gì xa lạ hay có đòn bẩy cao. Biểu đồ cho thấy rằng tất cả sáu biến được phân phối một cách bình thường, nhân tiện: những dữ liệu này là bình thường và "vanilla đồng bằng" như người ta có thể muốn.
Trong hồi quy của so với x 1 và x 2 , các giá trị p về cơ bản là 0. Trong các hồi quy riêng của y so với x 3 , sau đó y so với x 4 và y so với x 5 , các giá trị p là 0,0024, 0,0083 và 0,00064 tương ứng: có nghĩa là chúng "rất có ý nghĩa". Nhưng trong hồi quy bội đầy đủ, các giá trị p tương ứng tăng lên lần lượt là .46, .36 và .52: không đáng kể chút nào. Lý do cho điều này là một khi y đã được hồi quy so với x 1 và xyx1x2yx3yx4yx5yx1 , những thứ duy nhất còn lại để "giải thích" là số tiền nhỏ của lỗi trong dư, mà sẽ xấp xỉ ε và lỗi này gần như hoàn toàn không liên quan đến x i còn lại. ("Hầu như" là chính xác: có một mối quan hệ thực sự nhỏ xuất phát từ thực tế là phần dư được tính một phần từ các giá trị của xx2εxTôi và x 2 và x i , i = 3 , 4 , 5 , có một số yếu mối quan hệ với x 1 và x 2. Tuy nhiên, mối quan hệ còn lại này thực tế không thể phát hiện được, như chúng ta đã thấy.)x1x2xTôii = 3 , 4 , 5x1x2
Số điều hòa của ma trận thiết kế chỉ là 2,17: rất thấp, không có dấu hiệu nào về tính đa hình cao. . Điều này hoàn thành mô phỏng: nó đã tái tạo thành công mọi khía cạnh của vấn đề.
Những hiểu biết quan trọng mà phân tích này cung cấp bao gồm
giá trị p không cho chúng tôi biết bất cứ điều gì trực tiếp về cộng tuyến. Họ phụ thuộc mạnh mẽ vào số lượng dữ liệu.
Mối quan hệ giữa các giá trị p trong nhiều hồi quy và giá trị p trong các hồi quy liên quan (liên quan đến các tập hợp con của biến độc lập) rất phức tạp và thường không thể đoán trước được.
Do đó, như những người khác đã lập luận, giá trị p không nên là hướng dẫn duy nhất của bạn (hoặc thậm chí là hướng dẫn chính của bạn) để lựa chọn mô hình.
Biên tập
Không cần thiết cho lớn đến 500 để các hiện tượng này xuất hiện. n500 Lấy cảm hứng từ thông tin bổ sung trong câu hỏi, sau đây là bộ dữ liệu được xây dựng theo kiểu tương tự với (trong trường hợp này là x j = 0,4 x 1 + 0,4 x 2n = 24 cho j = 3 , 4 , 5 ). Điều này tạo ra mối tương quan từ 0,38 đến 0,73 giữa x 1 - 2 và x 3 - 5xj= 0,4 x1+ 0,4 x2+ δj=3,4,5x1−2x3−5. Số điều kiện của ma trận thiết kế là 9,05: hơi cao, nhưng không khủng khiếp. (Một số quy tắc nói rằng các số điều kiện cao đến 10 là ok.) Giá trị p của các hồi quy riêng lẻ so với là 0,002, 0,015 và 0,008: có ý nghĩa rất cao. Do đó, một số đa cộng đồng có liên quan, nhưng nó không lớn đến mức người ta sẽ làm việc để thay đổi nó. Cái nhìn sâu sắc cơ bản vẫn như cũx3,x4,x5: ý nghĩa và tính đa hình là những thứ khác nhau; chỉ có những ràng buộc toán học nhẹ giữ trong số chúng; và có thể bao gồm hoặc loại trừ ngay cả một biến duy nhất có ảnh hưởng sâu sắc đến tất cả các giá trị p ngay cả khi không có vấn đề đa hình nghiêm trọng là một vấn đề.
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185