Phải mất rất ít mối tương quan giữa các biến độc lập để gây ra điều này.
Để xem tại sao, hãy thử như sau:
Vẽ 50 bộ mười vectơ với các hệ số iid chuẩn thông thường.(x1,x2,…,x10)
Tính cho . Điều này làm cho tiêu chuẩn cá nhân bình thường nhưng với một số tương quan giữa chúng.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Tính toán . Lưu ý rằng .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Thêm một số lỗi phân phối thông thường độc lập vào . Với một thử nghiệm nhỏ tôi thấy rằng với hoạt động khá tốt. Do đó, là tổng của cộng với một số lỗi. Nó cũng là tổng của một số các cộng với lỗi tương tự.wz=w+εε∼N(0,6)zxiyi
Chúng ta sẽ coi là các biến độc lập và là biến phụ thuộc.yiz
Đây là một ma trận phân tán của một tập dữ liệu như vậy, với dọc theo đỉnh và bên trái và tiến hành theo thứ tự.zyi
Tương quan dự kiến giữa và là khi và khác. Các mối tương quan nhận ra lên đến 62%. Chúng hiển thị như các biểu đồ phân tán chặt chẽ hơn bên cạnh đường chéo.yiyj1/2|i−j|=10
Nhìn vào hồi quy của so với :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
Thống kê F rất có ý nghĩa nhưng không có biến số độc lập nào, thậm chí không có bất kỳ sự điều chỉnh nào cho tất cả 9 biến số đó.
Để xem những gì đang xảy ra, hãy xem xét hồi quy của so với chỉ số số lẻ :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Một số biến này rất có ý nghĩa, ngay cả với sự điều chỉnh Bonferroni. (Có nhiều điều có thể nói bằng cách nhìn vào những kết quả này, nhưng nó sẽ đưa chúng ta ra khỏi điểm chính.)
Trực giác đằng sau điều này là phụ thuộc chủ yếu vào một tập hợp con của các biến (nhưng không nhất thiết phải là một tập hợp con duy nhất). Phần bù của tập hợp con này ( ) về cơ bản không có thông tin nào về do các mối tương quan, tuy nhiên, một chút với chính tập hợp con.zy2,y4,y6,y8z
Loại tình huống này sẽ phát sinh trong phân tích chuỗi thời gian . Chúng ta có thể coi các chỉ số là thời gian. Việc xây dựng đã tạo ra một mối tương quan nối tiếp trong phạm vi ngắn giữa chúng, giống như nhiều chuỗi thời gian. Do đó, chúng tôi mất ít thông tin bằng cách chia nhỏ chuỗi theo chu kỳ.yi
Một kết luận chúng ta có thể rút ra từ điều này là khi có quá nhiều biến được đưa vào một mô hình, chúng có thể che dấu những biến thực sự quan trọng. Dấu hiệu đầu tiên của điều này là thống kê F tổng thể có ý nghĩa cao đi kèm với các thử nghiệm t không quá quan trọng đối với các hệ số riêng lẻ. (Ngay cả khi một số các biến là cá nhân đáng kể, điều này không tự động có nghĩa là người khác không Đó là một trong những khiếm khuyết cơ bản của chiến lược hồi quy từng bước:. Họ trở thành nạn nhân cho vấn đề mặt nạ này.) Ngẫu nhiên, các yếu tố lạm phát đúngtrong phạm vi hồi quy đầu tiên từ 2,55 đến 6,09 với giá trị trung bình là 4,79: chỉ trên đường biên giới chẩn đoán một số bệnh đa nang theo các quy tắc bảo thủ nhất; thấp hơn ngưỡng theo các quy tắc khác (trong đó 10 là ngưỡng trên).