Dự đoán nhiều hơn quan sát?


9

Điều đó có nghĩa là gì khi các nhà thống kê nói về việc có nhiều người dự đoán hơn là quan sát trong mô hình hồi quy? Làm thế nào mà thậm chí có thể có thể? Tại sao nó là một vấn đề trong hồi quy? Xin lỗi, tôi chưa quen với phân tích định lượng và số liệu thống kê nên không hoàn toàn chắc chắn tại sao lại như vậy? Tôi sẽ đánh giá cao lời giải thích đơn giản nhất có thể -


2
Hãy xem xét một bộ dữ liệu bao gồm 100 hình ảnh, mỗi hình ảnh là 256 x 256.
Jakub Bartczuk

Đối với một ví dụ tương tự thấy Olivetti phải đối mặt với bộ dữ liệu
Jakub Bartczuk

Xin lỗi, ví dụ này không phải là rất rõ ràng với tôi nhưng cảm ơn bạn
user3424836

4
Ví dụ đơn giản, hãy tưởng tượng nếu bạn có 5 sinh viên và bạn muốn dự đoán chiều cao của họ từ các biến khác. Vì vậy, bạn đo giới tính, thị trấn, số chữ cái trong họ, cỡ giày, chiều dài tóc và cân nặng của họ. Nếu bạn đặt tất cả những thứ này trong một mô hình, bạn sẽ có sáu dự đoán và chỉ có năm quan sát.
Sal Mangiafico

Cảm ơn bạn, điều này rất hữu ích. Câu trả lời của bạn làm cho tôi rõ vấn đề là gì.
dùng3424836

Câu trả lời:


5

Tôi nghĩ rằng sự nhầm lẫn xuất phát từ cách từ "quan sát" đôi khi được sử dụng. Nói rằng bạn muốn biết biểu hiện của 20.000 gen có liên quan đến một số biến số sinh học liên tục như huyết áp. Bạn có dữ liệu cả về biểu hiện của 20.000 gen và huyết áp cho 10.000 cá nhân. Bạn có thể nghĩ rằng điều này liên quan đến 10.000 * 20.001 = 200.010.000 quan sát. Chắc chắn có nhiều điểm dữ liệu cá nhân. Nhưng khi mọi người nói rằng có "nhiều dự đoán hơn quan sát" trong trường hợp này, họ chỉ tính mỗi cá nhân là một "quan sát"; một "quan sát" sau đó là một vectơ của tất cả các điểm dữ liệu được thu thập trên một cá nhân. Có thể ít nhầm lẫn hơn khi nói "trường hợp" thay vì "quan sát", nhưng việc sử dụng trong thực tế thường có những giả định ẩn như thế này.

Vấn đề với nhiều yếu tố dự đoán hơn các trường hợp (thường được chỉ định là " ") là sau đó không có giải pháp duy nhất cho vấn đề hồi quy tuyến tính tiêu chuẩn. Nếu các hàng của ma trận các điểm dữ liệu đại diện cho các trường hợp và các cột biểu thị các yếu tố dự đoán, thì nhất thiết phải có sự phụ thuộc tuyến tính giữa các cột của ma trận. Vì vậy, một khi bạn đã tìm thấy các hệ số cho của các yếu tố dự đoán, các hệ số cho các yếu tố dự đoán có thể được biểu diễn dưới dạng kết hợp tuyến tính tùy ý của dự đoán đầu tiên đó . Các phương pháp khác như LASSO hoặc hồi quy sườn, hoặc một loạt các phương pháp học máy khác, cung cấp các cách để tiến hành trong các trường hợp như vậy.p>nn(pn)n


Cảm ơn bạn, điều này rất hữu ích. Từ những gì tôi thu thập được dựa trên phản ứng rất toàn diện của bạn, vấn đề với loại tình huống này là các yếu tố dự đoán sẽ tương quan hoặc cộng tác. Là sự hiểu biết của tôi về lời giải thích của bạn là chính xác?
dùng3424836

Bất kỳ giải pháp nào giảm thiểu tổng bình phương sẽ cho một sự phù hợp hoàn hảo. Tôi nghĩ rằng vấn đề quá mức là vấn đề nghiêm trọng hơn nhiều khi số lượng tham số (hệ số cho các biến dự đoán) vượt quá số lượng điểm dữ liệu so với tính không duy nhất của giải pháp. Cũng lưu ý khi số lượng tham số bằng với số điểm dữ liệu có một giải pháp duy nhất và bạn vẫn có một sự phù hợp hoàn hảo.
Michael R. Chernick 18/03/18

Các kỹ thuật như LASSO mà @EdM đề cập là tất cả các kỹ thuật chọn biến giúp giảm số lượng biến dự đoán. Hầu hết trong số họ cung cấp các cách để quyết định biến dự đoán nào là quan trọng nhất.
Michael R. Chernick

Điều này rất hữu ích. Khi bạn nói không duy nhất của giải pháp, điều đó có đề cập đến tập dữ liệu không?
dùng3424836

@ user3424836 nó phải làm với cấu trúc chung của dữ liệu, không phải chi tiết thêm về bộ dữ liệu. Bất kỳ tình huống nào với cũng sẽ có vấn đề này, cho dù bạn nghĩ về nó như các giải pháp hồi quy tuyến tính không độc đáo như tôi đã mô tả hoặc quá mức như Michael Chernick mô tả. p>n
EdM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.