Tôi nghĩ rằng sự nhầm lẫn xuất phát từ cách từ "quan sát" đôi khi được sử dụng. Nói rằng bạn muốn biết biểu hiện của 20.000 gen có liên quan đến một số biến số sinh học liên tục như huyết áp. Bạn có dữ liệu cả về biểu hiện của 20.000 gen và huyết áp cho 10.000 cá nhân. Bạn có thể nghĩ rằng điều này liên quan đến 10.000 * 20.001 = 200.010.000 quan sát. Chắc chắn có nhiều điểm dữ liệu cá nhân. Nhưng khi mọi người nói rằng có "nhiều dự đoán hơn quan sát" trong trường hợp này, họ chỉ tính mỗi cá nhân là một "quan sát"; một "quan sát" sau đó là một vectơ của tất cả các điểm dữ liệu được thu thập trên một cá nhân. Có thể ít nhầm lẫn hơn khi nói "trường hợp" thay vì "quan sát", nhưng việc sử dụng trong thực tế thường có những giả định ẩn như thế này.
Vấn đề với nhiều yếu tố dự đoán hơn các trường hợp (thường được chỉ định là " ") là sau đó không có giải pháp duy nhất cho vấn đề hồi quy tuyến tính tiêu chuẩn. Nếu các hàng của ma trận các điểm dữ liệu đại diện cho các trường hợp và các cột biểu thị các yếu tố dự đoán, thì nhất thiết phải có sự phụ thuộc tuyến tính giữa các cột của ma trận. Vì vậy, một khi bạn đã tìm thấy các hệ số cho của các yếu tố dự đoán, các hệ số cho các yếu tố dự đoán có thể được biểu diễn dưới dạng kết hợp tuyến tính tùy ý của dự đoán đầu tiên đó . Các phương pháp khác như LASSO hoặc hồi quy sườn, hoặc một loạt các phương pháp học máy khác, cung cấp các cách để tiến hành trong các trường hợp như vậy.p>nn(p−n)n