Tôi quen với việc sử dụng những hiểu biết sâu sắc từ Lý thuyết ma trận ngẫu nhiên để xác định số lượng các thành phần chính từ PCA của ma trận hiệp phương sai / tương quan được sử dụng để hình thành các yếu tố.
Nếu giá trị riêng liên quan đến PC đầu tiên lớn, thì điều đó có nghĩa là các giá trị riêng còn lại phải nhỏ (vì tổng giá trị riêng phải bằng dấu vết của ma trận tương quan). Khi PC đầu tiên đủ lớn, do đó có thể tất cả các giá trị bản địa này nằm dưới giới hạn dưới của bản phân phối Marcenko-Pastur. Điều này có ý nghĩa rằng chúng thấp không phải vì cơ hội ngẫu nhiên, mà vì giá trị riêng đầu tiên rất lớn. Tuy nhiên, điều đó không có nghĩa là chúng chứa thông tin quan trọng. Thay vào đó, sẽ hợp lý hơn khi đặt câu hỏi "với PC đầu tiên là một số lượng lớn, việc phân phối các giá trị bản địa còn lại sẽ như thế nào nếu dữ liệu ngẫu nhiên chịu trách nhiệm cho chúng?"
Có nghiên cứu nào giải quyết vấn đề này? Nếu có thể có được phân phối Marcenko-Pastur có điều kiện khi biết một hoặc nhiều giá trị bản địa, thì có thể tiến hành lặp đi lặp lại để xác định xem các yếu tố có phản ánh thông tin quan trọng hay không.