Giả sử tôi có một tập dữ liệu với các kích thước (ví dụ ) để mỗi thứ nguyên là (cách khác, mỗi thứ nguyên ) và độc lập với lẫn nhau.
Bây giờ tôi vẽ một đối tượng ngẫu nhiên từ bộ dữ liệu này và lấy hàng xóm gần nhất và tính PCA trên bộ này. Trái ngược với những gì người ta có thể mong đợi, giá trị bản địa không giống nhau. Trong đồng phục 20 chiều, một kết quả điển hình trông như thế này:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Đối với dữ liệu phân phối bình thường, các kết quả dường như rất giống nhau, ít nhất là khi định cỡ lại chúng thành tổng cộng ( phân phối rõ ràng có phương sai cao hơn ở vị trí đầu tiên).
Tôi tự hỏi nếu có bất kỳ kết quả dự đoán hành vi này? Tôi đang tìm kiếm một thử nghiệm nếu chuỗi các giá trị riêng có phần thường xuyên và có bao nhiêu giá trị riêng như mong đợi và giá trị nào khác biệt đáng kể so với các giá trị dự kiến.
Đối với một cỡ mẫu (nhỏ) nhất , có kết quả nếu hệ số tương quan cho hai biến là đáng kể? Ngay cả các biến iid đôi khi sẽ có kết quả khác 0 cho thấp .