Giả sử chúng ta được cung cấp một tập hợp dữ liệu có dạng và . Chúng tôi được giao nhiệm vụ dự đoán dựa trên các giá trị của . Chúng tôi ước tính hai hồi quy trong đó:
Chúng tôi cũng ước tính hồi quy dự đoán các giá trị của dựa trên các giá trị của , đó là:
Giả sử bây giờ chúng ta được đưa ra các giá trị của , thì chúng ta sẽ có hai phương thức khác nhau để dự đoán :
Cái nào sẽ tốt hơn nói chung?
Tôi đoán rằng phương trình thứ nhất sẽ tốt hơn bởi vì nó sử dụng thông tin từ hai dạng điểm dữ liệu trong khi phương trình thứ hai sử dụng thông tin từ chỉ các điểm dữ liệu có giá trị dự đoán . Đào tạo về thống kê của tôi là hạn chế và do đó tôi muốn tìm kiếm một số lời khuyên chuyên nghiệp.
Ngoài ra, nói chung, cách tiếp cận tốt nhất đối với dữ liệu có thông tin không đầy đủ là gì? Nói cách khác, làm thế nào chúng ta có thể trích xuất hầu hết thông tin từ dữ liệu không có giá trị ở tất cả chiều?